Scrapy_redis部署分散式爬蟲
阿新 • • 發佈:2018-12-12
NO.1
首先進入自己的python環境通過命令: pip install scrapy_redis 安裝所需工具包。
NO.2
在爬蟲專案的setting中配置
#配置scrapy使用的排程器
#配置scrapy實用的去重類
#配置儲存redis,設定優先順序
SCHEDULER= 'scrapy_redis.scheduler.Scheduler' DUPEFILTER_CLASS='scrapy_redis.dupefilter.RFPDupeFilter' ITEM_PIPELINES={ 'scrapy_redis.pipelines.RedisPipeline':301 }
#修改spider
redis_key = ‘spider_name:start_urls’
NO.3 啟動redis 命令列cd進入redis安裝目錄 啟動redis命令:
redis-server.exe redis.windows.conf
若未啟動關閉重啟 命令:
redis-cli
shutdown
exit
redis-server.exe redis.windows.conf
NO.4 進入redis目錄連線主機 命令:
redis-cli.exe -h 127.0.0.1:6379
N0.5 部署
redis-cli
lpush spider_name:start_urls 起始地址
出現(integer)1,新增成功。
NO.6 本地和遠端裝置執行爬蟲即可。