[Python3.4]通過Redis利用BloomFilter實現資料去重

阿新 • • 發佈：2019-01-19

寫爬蟲的時候需要解決的一個很重要的問題就是需要判斷得來的新連結是否之前已經爬過。如果已經爬過，則沒有必要再爬。我之前採用的是非常笨拙的方法，就是把所有已經爬過的地址放在mysql的一張表中，但是問題在於，這樣每一個新連結到來，都會查詢一次是否該連結在表格中。這樣的話，單單查詢過程就會耗費磁碟大量的讀寫效能。而且實際執行的過程中也發現，磁碟的讀取速率是寫入速率的10倍以上，這顯然是不可接受的。
一個可行的改進方案是使用記憶體資料庫作為mysql的快取。這裡選用的是redis，是一種鍵值型資料庫。通過將需要頻繁查詢的內容讀入Redis，這樣可以直接通過redis查詢是否該連結已經存在,從而避免了直接從磁碟讀取資料，提高讀寫效能。

——————————資料庫————————————
●redis官網點我
●然而，redis官方並不支援windows（你們這是對軟狗的歧視，哼！(╯‵□′)╯︵┻━┻）所以像我這樣想在win下使用的，可以去找Microsoft Open Tech group在github下的一個64位版本。點我點我
●基礎設定教程：點我點我點我
●指令教程（bloomfilter主要通過setbit和getbit來實現）點我
——————————↑↑↑↑↑↑————————————

有個問題是，把所有資料都讀入記憶體是不可行的，因為資料量太大，而記憶體太小。所以這就需要bloomfilter出場了. 簡單的說，bloomfilter是通過多個hash函式，將字串對映到不同的位元位。通過查詢相應的位元位上的值是否全為1，來判斷該資料是否已存入資料庫中。值得注意的是，bloomfilter是有出錯概率的。簡單的說就是：
如果bloomfilter判斷不存在，則一定不存在
如果bloomfilter判斷存在，則可能不存在
看完發現簡直是為爬蟲量身定製啊有沒有！對於爬蟲而言，出錯的代價微乎其微，大不了少爬幾個就是了，反正不會重複爬。

bloomfilter介紹：這裡

對於python2.7來說，好像有個叫pybloomfilter的庫可以用。但那個是單執行緒的，當需要多執行緒合作時就不行了，而且不太適合3.4版本。所以我對網上別人寫的針對3.4版本的小程式稍加改進，使之能夠適合redis.

import redis

class SimpleHash():
    def __init__(self,cap,seed):
        self.cap=cap
        self.seed=seed
    def hash(self,value):
        ret=0
        for i in 
 range(value.__len__()):
            ret+=self.seed*ret+ord(value[i])
        return ((self.cap-1) & ret)

class BloomFilter():
    def __init__(self):
        self.bit_size=1<<25
        self.seeds=[5,7,11,13,31,37,61]
        self.r=redis.StrictRedis(host='127.0.0.1',port=6379,db=0)
        self.hashFunc=[]
        for i in range(self.seeds.__len__()):
            self.hashFunc.append(SimpleHash(self.bit_size,self.seeds[i]))

    def isContains(self,str_input,name):
        if str_input==None:
            return False
        if str_input.__len__()==0:
            return False
        ret=True
        for f in self.hashFunc:
            loc=f.hash(str_input)
            ret=ret & self.r.getbit(name,loc)
        return ret

    def insert(self,str_input,name):
        for f in self.hashFunc:
            loc=f.hash(str_input)
            self.r.setbit(name,loc,1)

uid=['alskdjflkasjdf','kajdsklfjlkasdf','lhjkkjhrwqer','alskdjflkasjdf']
bf=BloomFilter()
err_time=0
for id in uid:
    if bf.isContains(id,'test'):
        err_time+=1
    else:
        bf.insert(id,'test')
print(err_time)

[Python3.4]通過Redis利用BloomFilter實現資料去重

[Python3.4]通過Redis利用BloomFilter實現資料去重

使用Hadoop的MapReduce來實現資料去重

python3 利用tcp實現資料夾的遠端傳輸

BloomFilter（大資料去重）+Redis（持久化）策略

利用python實現資料分析的大致主要流程（簡）

《推薦系統實踐》第4章利用使用者標籤資料

【探索】利用 canvas 實現資料壓縮

利用Promise實現資料多個請求載入完成時執行某個方法

scrapy利用redis實現url去重與增量爬取

selenium webdriver學習--利用POI實現資料驅動

利用vc實現資料表格匯出到CSV檔案

利用ORACLE實現資料抽樣(sample block)

利用ORACLE實現資料抽樣

通過百度echarts實現資料圖表展示功能

利用Python實現爬去彩票網站數據——小樣

java實現大批量json檔案資料去重

java程式碼實現MySQL資料庫表千萬條資料去重

js利用indexof方法實現陣列去重

python3 requests 對資料去重入庫

Java 簡單實現物件資料去重處理

[Python3.4]通過Redis利用BloomFilter實現資料去重

相關推薦