1. 程式人生 > >爬蟲被封IP了怎麼辦-爬蟲與反爬蟲的“世世情緣”

爬蟲被封IP了怎麼辦-爬蟲與反爬蟲的“世世情緣”

很多專業的爬蟲工作者都會覺得爬蟲的技術沒有那麼深奧,所謂萬變不離其宗,在複雜也只是那些個東西,但是要想真正的寫好一套完美的爬蟲程式又似乎沒有那麼簡單。

原因就在於爬蟲本身的功能是不難的,真正顯示技術的是應對反爬蟲技術。說到反爬蟲最簡單的應對方式就是封鎖IP。   那麼為什麼封鎖IP是有效果的呢?   一次網頁的請求含有很多的資訊,比如UserAgent,比如Cookie。之所以說封鎖IP最有效是因為其他的資訊都可以進行偽造,但是唯獨http的請求中是沒有辦法直接偽造IP的,
  http協議基於tcp,而tcp協議存在握手機制的,這樣你就根本美喲辦法使用假的IP來連結。   那麼如何封鎖IP   我們從年齡比較大的論壇程式看起Discuz的反爬功能-防採集:   簡單粗暴的制定規則,一個IP的訪問次數就是幾次,超過多少次就封鎖。假設預設訪問次數200次,那麼也即是說一個IP超過200次的訪問量就會被計入黑名單。   實現的方式比制定的方式還要粗暴,對於大部分語言來說,獲取ip地址都是很簡單的,獲取到ip之後,將ip作為主鍵存入資料庫中。 最後再加一個欄位來記錄訪問次數就可以了。當然當我們每天ip數量很多的時候,我們可以考慮存入非關係型資料庫中,畢竟我們只需要key-value形式的資料,用關係型資料庫反倒浪費了。  
3.我是爬蟲,前方禁止通行,該位置已經封鎖   爬蟲和反爬蟲世世代代都是冤孽,解決爬蟲被封問題已經成為所有爬蟲工作者畢竟的磨難,那麼下面就說說IP怎麼來的         1、自己建立IP爬蟲渠道:可以,但是耗時耶消耗精力,你要是覺得你有那麼經歷你就弄       2、淘寶:也可以,但是重複率高了點,穩定性差了點,不敢保證安全性是不是很好  
    3、代理IP服務商:建議購買代理IP,市面上IP代理商比較多,安全性,穩定性也都可以保障。犀牛代理IP海量IP代理池,安全穩定,保障資料安全和上網隱私