1. 程式人生 > >爬蟲去重策略

爬蟲去重策略

只需要 策略 哈希 內存 ash MF 通過 IT rap

1、將訪問過的url保存到數據庫中。(效率非常低)

2、將訪問過的url保存到set中,只需要o(1)的代價就可以查詢url。(內存占用大)(1億條url占用6個G)

3、url經過md5等方法哈希後保存到set中(md5壓縮url,降低內存) (scrapy使用的去重類似這種,1億條url占用1個G)

4、用bitmap,將訪問過的url通過hash函數映射到某一位。(通過0 1來判斷,但是可能會發生沖突,多個url可能會映射到同一位)

5、bloomfilter方法對bitmap進行改進,多重hash函數降低沖突的可能性(1億條url只占用12M左右)

爬蟲去重策略