1. 程式人生 > >爬蟲的去重策略

爬蟲的去重策略

1 儲存到資料庫

2 儲存到set( 佔用空間大)

3 url經過md5等方法雜湊後儲存到set中  (scrapy採用了類似方法)

4 用bitmap方法,將訪問過的url通過hash函式對映到某一位(易衝突)

5 bloomfilter方法進行改造,多重hash函式降低衝突()

bitmap

bloom filter    http://baike.baidu.com/link?url=iyOTf2Z0Ya-fi1BR7YygxuYgWdGgpU6GJs_bsKU8iadWFJfWhEBt-qqNotEqcdRUrmg-cSdDTGvB-3HEJKsg_FQ0Ga8MTH61-bBtA9CQkMe

待續