爬的那些内容数据量有多大,多久爬一次,爬下来的数据是怎么存储?

京东整站的数据大约在 1 亿左右,爬下来的数据存入数据库,mysql 数据库中如果有重复的 url 建议去重存入数据库,可以考虑引用外键。评分、评论如果做增量,Redis 中 url 去重,评分和评论建议建立一张新表用 id 做关联。

多久爬一次这个问题要根据公司的要求去处理,不一定是每天都爬。

Mongo 建立唯一索引键(id)可以做数据重复 前提是数据量不大, 2 台电脑几百万的情况 数据库需要做分片 (数据库要设计合理)。

例:租房的网站数据量每天大概是几十万条 ,每周固定爬取。

发表评论

后才能评论