1. 程式人生 > >Scrapy基於scrapy_redis分散式爬蟲的布隆去重

Scrapy基於scrapy_redis分散式爬蟲的布隆去重

1.從網上下載一個別人寫好的布隆去重py檔案

百度網盤:https://pan.baidu.com/s/1KbK4WAWxAQnslIomAoQSiw 密碼:gld0

2.如果要想指定專案啟動布隆去重的話

找到環境下的路徑E:\ENVS\JobDataScrapyEnv\Lib\site-packages資料夾,找到scrapy_redis,單獨複製到需要布隆去重的專案中


在把下載好的布隆去重檔案BloomfilterOnRedis.py複製到scrapy_redis中,然後開啟dupefilter.py檔案


開啟dupefilter檔案後,首先引入一個類


然後在初始化函式中新增self.bf = BloomFilter(server=server,key=key)


然後修改requests_seen函式