Scrapy 中判斷重複內容的方法(RFPDupeFilter)

阿新 • • 發佈：2019-02-16

這個處理的程式碼是編寫在 dupefilter.py 檔案中的，其中定義了處理重複 url 的方法。

在 scrapy 啟動時，如果配置了重複 url 寫入檔案(requests.seen)，那麼就會以追加的方式開啟這個檔案，並且從這個檔案中載入以前的資料到記憶體 set() 中儲存，當遇到一個新來的 url 時，通過指紋計算，在已抓取 url 集合中查詢，如果不存在，就新增進去，如果需要寫入檔案，就寫入檔案；如果已經存在了，告訴上層呼叫 url 已經抓取過了。

具體可以參考 class RFPDupeFilter(BaseDupeFilter) 類。

那麼在 scrapy 中是如何來使用這個類的方法的呢？什麼時候使用，這個流程是怎樣的呢？

這個可以追溯到 scrapy.core.scheduler 中定義的 Scheduler 類來決定。

現在就來看看 Scheduler 類中和過濾重複 url 有關的內容。

在 Scheduler 類中，在排程時，採用了 memory queue 和 disk queue 的儲存方法，所以，有一個入隊的方法，在入隊前，就要對 request 進行檢查，檢查是否是重複，如果已經重複了，就不入隊了。

1	`ifnot` `request.dont_filter` `andself.df.request_seen(request)`

這裡兩個條件控制，首先是配置中 dont_filter，如果它是 True，就說明是不篩選的，如果是 False，才是要篩選的。
後面的 request_seen() 在預設內建的篩選方法中，就是 RFPDupeFilter() 中的方法，檢查 request 是否已經存在。

只有要篩選且沒有見過這個 request，才會去篩選 url。

所以這裡已經很清晰了，排程器收到了 enqueue_request() 呼叫時，會檢查這個 url 重複的判斷開關，如果要篩選，就要檢查這個 request 是否已經存在了；這裡的檢查 if 如果成立，就直接返回了，只有不成立時，才會有後續的儲存操作，也就是入隊。

下面來看看 scrapy 中是如何判斷兩個 url 重複的。

關鍵的函式是 request_fingerprint，這個是判斷是否重複的關鍵實現方法。(scrapy.utils.request.request_fingerprint())。

1234567891011121314151617 defrequest_fingerprint(request, include_headers=None):ifinclude_headers:include_headers =tuple([h.lower() forh insorted(include_headers)])cache =_fingerprint_cache.setdefault(request, {})ifinclude_headers notin cache:fp =hashlib.sha1()fp.update(request.method)fp.update(canonicalize_url(request.url))fp.update(request.body or'')ifinclude_headers:forhdr ininclude_headers:ifhdr inrequest.headers:fp.update(hdr)forv inrequest.headers.getlist(hdr):fp.update(v)cache[include_headers] =fp.hexdigest()returncache[include_headers]

預設的呼叫情況下，計算的內容包括 method、格式化後的 url、請求正文，還有就是 http headers 是可選的。

和通常情況下不一樣的是，這裡的計算指紋，不是單純的比較了 url 是否一致。計算的結果是一串 hash 16 進位制數字。

這裡自然產生了一個疑問，如果說計算指紋不是單純的比較 url，那麼 request 物件是個什麼東西？當呼叫 request_fingerprint() 時， request 經過了哪些計算，是不是 request 傳遞到這裡的時候，url 已經被下載過了？還是說沒有下載？如果說已經下載過了，就出現了重複下載的問題，那去重的意義就很小很小了；如果沒有下載過，method、header、body 的內容又是如何得知的呢？

Scrapy 中判斷重複內容的方法(RFPDupeFilter)

Scrapy 中判斷重複內容的方法(RFPDupeFilter)

Python練習題4（列表去重）：[5,3,4,'ok',4,3,'abc',8,52,'ok']去除列表中重複內容方法一：使用set 方法二：不使用set，自己寫方法

java 字串中判斷字母大小寫方法

ES 5 中判斷陣列的方法

Python中判斷Nonetype的方法

去除字串中的重複字元——方法彙總和效能測試

python判斷檔案中有否重複行，逐行讀檔案檢測另一檔案中是否存在所讀內容

Scrapy實現對新浪微博某關鍵詞的爬取以及不同url中重複內容的過濾

判斷表單中是否有內容的幾種方法。

JS中判斷null、undefined與NaN的方法

javascript中的call.apply方法是針對function本身定義的內容，並不能將

在批處理中判斷延遲環境變量擴展是否已啟用的方法

Sql Server中判斷表、列不存在則創建的方法[轉]

SQL中判斷字符串中包含字符的方法

NPOI “發現中的部分內容有問題，是否要恢復此工作薄的內容？如果信任此工作薄的來源。。。”的問題的解決方法

scrapy中 Request方法中的meta引數是什麼？幹什麼用的？

OpenCV中判斷點在矩形中的方法

Spring Data JPA 中Repository裡的方法查詢引數，需要判斷是否為空的問題

去除List集合中的重複值（四種好用的方法）（基本資料型別可用）

scrapy中xpath將某一個節點下的文字內容串起來

Scrapy 中判斷重複內容的方法(RFPDupeFilter)

相關推薦