Scrapy-redis增量爬取以及Simhash相似文件的去重

阿新 • • 發佈：2019-01-14

最近在實習，第一個任務就是從各大入口網站抓取新聞，爬蟲本身不是一個很難的事情，用scrapy框架很容易完成(關於scrapy的具體用法可以參考我之前的一篇部落格http://blog.csdn.net/john_xyz/article/details/78157805，但是由於要求是要增量爬取，而且要去除相似的新聞，這裡記錄一下解決問題的方法以及踩過的坑

Scrapy-redis增量爬取

Scrapy-redis是在Scrapy的的基礎上，提供了一些一redis為基礎的元件。具體的，提供了Schedule, Dupefilter, Pipeline, Spider。有興趣的同學可以看看原始碼 darkrho/scrapy-redis · GitHub 。
Scrapy在爬取的過程當中，有一個主要的資料結構是“待爬佇列”，用python自帶的collection.deque來儲存，以及能夠操作這個佇列的排程器。
Scrapy-redis把deque換成redis資料庫。因為爬蟲程式需要每天定時爬取，因此，在redis中，每個網站（key）都有個判重池（dupefilter），該判重池儲存這爬取過的url。這樣在爬取的時候，當待抓取的url在判重池裡的時候，就不去抓新聞了，否則，就抓取新聞，並將url加入判重池.

Simhash相似文件的去重

Simhash(http://www2007.org/papers/paper215.pdf)是google在2007年提出的海量文字去重演算法。其核心思想是將一篇文件轉換成64位的位元，判斷文件是否相似就是判斷它們最後64位位元海明距離是否小於k（k一般取3），就可以判斷兩篇文件是否相似。需要說明的是Simhash是區域性敏感雜湊，也就是說，相似的文件或單詞，其雜湊值也是相似的
這裡寫圖片描述
演算法流程：
1. 對Doc進行關鍵詞抽取(分詞和計算TF-IDF權重)，抽出n個關鍵詞[(wod1, weight1), (word2, weight2), …,(wordn, weightn)]
2. 對每個word，計算雜湊值 hash_weight_pairs = [(hash(word1), weight), (hash(word2), weight2),…, (hash(wordn), weightn)]，每個單詞被hash成預設64位的二進位制位元。
3. 對hash_weight_pairs進行縱向加權求和，如果該位是1，則+weight,如果是0，則-weight，最後生成長度位64的陣列
4.遍歷這64位的陣列，如果該位為正，則轉換成1，否則位0

海明距離的計算

舉個簡單例子來說明

A = [1,0,0,1,1,1]
b = [1,0,0,1,1,0]

A和B的海明距離是1，就是A xor B後二進位制1的個數。
實際在做去重時，一般取k=3, 也就是海明距離小於3，認為兩篇文件相似

演算法的幾何意義和原理

隨機超平面hash演算法

Simhash是由隨機超平面hash演算法演變而來的，隨機超平面hash演算法非常簡單，對於一個n維向量v，要得到一個f位的簽名(f << n)，演算法如下:

1，隨機產生f個n維的向量r1,…rf；
2，對每一個向量ri，如果v與ri的點積大於0，則最終簽名的第i位為1，否則為0.

這個演算法相當於隨機產生了f個n維超平面，每個超平面將向量v所在的空間一分為二，v在這個超平面上方則得到一個1，否則得到一個0，然後將得到的f個0或1組合起來成為一個f維的簽名

Simhash演算法和隨機超平面hash演算法之間的聯絡

Simhash演算法與隨機超平面hash是怎麼聯絡起來的呢？在simhash演算法中，並沒有直接產生用於分割空間的隨機向量，而是間接產生的：第 k個特徵的hash簽名的第i位拿出來，如果為0，則改為-1，如果為1則不變，作為第i個隨機向量的第k維。由於hash簽名是f位的，因此這樣能產生 f個隨機向量，對應f個隨機超平面。下面舉個例子：

假設用5個特徵w1,…,w5來表示所有文件，現要得到任意文件的一個3維簽名。假設這5個特徵對應的3維向量分別為：

h(w1) = (1, -1, 1)T
h(w2) = (-1, 1, 1)T
h(w3) = (1, -1, -1)T
h(w4) = (-1, -1, 1)T
h(w5) = (1, 1, -1)T

按simhash演算法，要得到一個文件向量d=(w1=1, w2=2, w3=0, w4=3, w5=0) T的簽名，
先要計算向量m = 1*h(w1) + 2*h(w2) + 0*h(w3) + 3*h(w4) + 0*h(w5) = (-4, -2, 6) T，然後根據simhash演算法，得到最終的簽名s=001。
上面的計算步驟其實相當於，先得到3個5維的向量，第1個向量由h(w1),…,h(w5)的第1維組成：
r1=(1,-1,1,-1,1) T；
第2個5維向量由h(w1),…,h(w5)的第2維組成：
r2=(-1,1,-1,-1,1) T；
同理，第3個5維向量為：
r3=(1,1,-1,1,-1) T.

按隨機超平面演算法的步驟2，分別求向量d與r1,r2,r3的點積:
d * r1=-4 < 0，所以s1=0;
d * r2=-2 < 0，所以s2=0;
d * r3=6 > 0，所以s3=1.

故最終的簽名s=001，與simhash演算法產生的結果是一致的。

從上面的計算過程可以看出，simhash演算法其實與隨機超平面hash演算法是相同的，simhash演算法得到的兩個簽名的漢明距離，可以用來衡量原始向量的夾角。這其實是一種降維技術，將高維的向量用較低維度的簽名來表徵。衡量兩個內容相似度，需要計算漢明距離，這對給定簽名查詢相似內容的應用來說帶來了一些計算上的困難；我想，是否存在更為理想的simhash演算法，原始內容的差異度，可以直接由簽名值的代數差來表示呢？

利用Simhash進行海量文字的去重

使用上述方法產生的simhash可以用來比較兩個文字之間的相似度。問題是，如何將其擴充套件到海量資料的近重複檢測中去呢？譬如說對於64位的待查詢文字的simhash code來說，如何在海量的樣本庫（>1M）中查詢與其海明距離在3以內的記錄呢？下面在引入simhash的索引結構之前，先提供兩種常規的思路。第一種是方案是查詢待查詢文字的64位simhash code的所有3位以內變化的組合，大約需要四萬多次的查詢，參考下圖：
此處輸入圖片的描述
另一種方案是預生成庫中所有樣本simhash code的3位變化以內的組合，大約需要佔據4萬多倍的原始空間，參考下圖：

顯然，上述兩種方法，或者時間複雜度，或者空間複雜度，其一無法滿足實際的需求。我們需要一種方法，其時間複雜度優於前者，空間複雜度優於後者。

假設我們要尋找海明距離3以內的數值，根據抽屜原理，只要我們將整個64位的二進位制串劃分為4塊，無論如何，匹配的兩個simhash code之間至少有一塊區域是完全相同的，如下圖所示：
此處輸入圖片的描述
由於我們無法事先得知完全相同的是哪一塊區域，因此我們必須採用儲存多份table的方式。在本例的情況下，我們需要儲存4份table，並將64位的simhash code等分成4份；對於每一個輸入的code，我們通過精確匹配的方式，查詢前16位相同的記錄作為候選記錄，如下圖所示：
此處輸入圖片的描述讓我們來總結一下上述演算法的實質：
1、將64位的二進位制串等分成四塊
2、調整上述64位二進位制，將任意一塊作為前16位，總共有四種組合，生成四份table
3、採用精確匹配的方式查詢前16位
4、如果樣本庫中存有2^34（差不多10億）的雜湊指紋，則每個table返回2^(34-16)=262144個候選結果，大大減少了海明距離的計算成本

我們可以將這種方法拓展成多種配置，不過，請記住，table的數量與每個table返回的結果呈此消彼長的關係，也就是說，時間效率與空間效率不可兼得，參看下圖：
此處輸入圖片的描述
事實上，這就是Google每天所做的，用來識別獲取的網頁是否與它龐大的、數以十億計的網頁庫是否重複。另外，simhash還可以用於資訊聚類、檔案壓縮等。
由於文字已經壓縮成8個位元組了，因此其實Simhash近似查重精度並不高：
此處輸入圖片的描述

Scrapy-redis增量爬取以及Simhash相似文件的去重