1. 程式人生 > >scrapy-redis增量式爬蟲

scrapy-redis增量式爬蟲

1 在scrapy爬蟲的框架上setting.py中加上這四句

DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”
#指定了排程器的類
SCHEDULER = “scrapy_redis.scheduler.Scheduler”
#排程器的內容是否持久化
SCHEDULER_PERSIST = True
REDIS_URL = “redis://127.0.0.1:6379”

2 要儲存結果在redis中的話開啟item_piplines:
ITEM_PIPELINES = {
‘example.pipelines.ExamplePipeline’: 300,
‘scrapy_redis.pipelines.RedisPipeline’: 400,
}