1. 程式人生 > >redis-scrapy分布式系統搭建

redis-scrapy分布式系統搭建

list 主從 設置 -s .cn ack ive lines ide

下載

  • Reids:https://github.com/MicrosoftArchive/redis
  • scrapy-redis:https://github.com/rmax/scrapy-redis
  • redis-py:> pip install redis
  • python:3.5

將下面設置添加到setting.py

1 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
2 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
3 TEM_PIPELINES = {
4   scrapy_redis.pipelines.RedisPipeline
: 300 5 }

啟動

  1. 在spider.py上設置 name 和 redis_key
  2. 啟動redis-server、redis-cli 和 pycharm,可以看到scapy在等待start_urls
    1 2018-02-26 14:07:56 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
  3. 在redis-cli上輸入 llpush [redis_key] [start_urls] 啟動爬蟲



salver機上的配置與master無異,主從連接參考http://www.cnblogs.com/kylinlin/p/5198233.html

redis-scrapy分布式系統搭建