scrapy使用布隆过滤器实现增量爬取
之前看了很多关于scrapy-redis使用bloomfilter进行持久化存储进行url去重的例子,可是发现没有一种适用于scrapy,于是萌生了基于现有scrapy-redis-bloomfilter库进行改写的想法。
经过修改,此脚本可以做一个初步的文本内容去重
言归正传,直接上代码:
settings.py
# 散列函数的个数,默认为6,可以自行修改
BLOOMFILTER_HASH_NUMBER_URL = 6
# Bloom Filter的bi