1. 程式人生 > >scrapy的url去重原理

scrapy的url去重原理

1.需要將dont_filter設定為False開啟去重,預設是True,沒有開啟去重;

2.對於每一個url的請求,排程器都會根據請求得相關資訊加密得到一個指紋資訊,並且將指紋資訊和set()集合中的指紋資訊進行比對,如果set()集合中已經存在這個資料,就不在將這個Request放入佇列中。如果set()集合中沒有存在這個加密後的資料,就將這個Request物件放入佇列中,等待被排程。