1. 程式人生 > >python爬蟲去重策略

python爬蟲去重策略

python爬蟲去重策略

1、將訪問過的URL儲存到資料庫中

2、將訪問過的URL儲存到set中,只需要o(1)的代價就可以查詢URL

       1000000000*2byte*50個字元/1024/1024/1024 = 9G

3、URL經過md5等方法雜湊後儲存到set中

4、用bitmap方法,將訪問過的URL通過hash函式對映到某一位

               
5、bloomfilter方法對bitmap進行改進,多重hash函式降低衝突