1. 程式人生 > >Scrapy_redis部署分散式爬蟲

Scrapy_redis部署分散式爬蟲

NO.1 首先進入自己的python環境通過命令: pip install scrapy_redis 安裝所需工具包。 NO.2 在爬蟲專案的setting中配置 #配置scrapy使用的排程器 #配置scrapy實用的去重類 #配置儲存redis,設定優先順序 SCHEDULER= 'scrapy_redis.scheduler.Scheduler' DUPEFILTER_CLASS='scrapy_redis.dupefilter.RFPDupeFilter' ITEM_PIPELINES={ 'scrapy_redis.pipelines.RedisPipeline':301 } #修改spider redis_key = ‘spider_name:start_urls’

NO.3 啟動redis 命令列cd進入redis安裝目錄 啟動redis命令:

redis-server.exe redis.windows.conf

若未啟動關閉重啟 命令:

redis-cli
shutdown
exit
redis-server.exe redis.windows.conf

NO.4 進入redis目錄連線主機 命令:

redis-cli.exe -h 127.0.0.1:6379

N0.5 部署

redis-cli
lpush spider_name:start_urls 起始地址

出現(integer)1,新增成功。

NO.6 本地和遠端裝置執行爬蟲即可。