爬的那些内容数据量有多大，多久爬一次，爬下来的数据是怎么存储？

Python爬虫 0 356

京东整站的数据大约在 1 亿左右，爬下来的数据存入数据库，mysql 数据库中如果有重复的 url 建议去重存入数据库，可以考虑引用外键。评分、评论如果做增量，Redis 中 url 去重，评分和评论建议建立一张新表用 id 做关联。

多久爬一次这个问题要根据公司的要求去处理，不一定是每天都爬。

Mongo 建立唯一索引键（id）可以做数据重复前提是数据量不大， 2 台电脑几百万的情况数据库需要做分片（数据库要设计合理）。

例：租房的网站数据量每天大概是几十万条，每周固定爬取。