什么是 scrapy-redis 中的指纹?是如何去重的?

指纹

通过 sha1 加密,把请求体,请求方式,请求 url 放在一起。然后进行 16 进制的转义符字符串生成指纹。生成一个字符串,放到数据库中作为唯一标示。

去重

url 中按照 url 去重:

(1) 按照 url 去重,有一个列表,发送请求之前从数据表中看一下这个 url有没有请求过,请求过了就不用看了

(2) 内容判断,从数据库中查数据的表示,如果请求过了就在不在请求了。

发表评论

后才能评论