1. 程式人生 > >學會這七個方法,再也不用擔心賬號被封

學會這七個方法,再也不用擔心賬號被封

【芝麻HTTP】我們在爬蟲的時候經常會出現IP被封的情況,除了大家都知道的使用代理IP,還有什麼方法呢?

方法一

之前由於公司專案需要,採集過google地圖資料,還有一些大型網站資料。

經驗如下:

需要大量IP時,可以直接使用成熟的代理IP服務商。芝麻HTTP就是一個很好的選擇,更多可到官網諮詢http://h.zhimaruanjian.com/

好處:

1.程式邏輯變化小,只需要代理功能。

2.根據對方網站遮蔽規則不同,你只需要新增更多的代理就行了。

3.就算具體IP被遮蔽了,你可以直接把IP代理下線就OK,程式邏輯不需要變化。

方法二

有小部分網站的防範措施比較弱,可以偽裝下IP,修改X-Forwarded-for,即可繞過。

大部分網站麼,如果要頻繁抓取,一般還是要多IP。我比較喜歡的解決方案是VPS再配多IP,通過預設閘道器切換來實現IP切換。

方法三

ADSL + 指令碼,監測是否被封,然後不斷切換 ip

設定查詢頻率限制

正統的做法是呼叫該網站提供的服務介面。

方法四

1 user agent 偽裝和輪換

2 使用代理 ip 和輪換

3 cookies 的處理,有的網站對登陸使用者政策寬鬆些

方法五

儘可能的模擬使用者行為:

1、UserAgent經常換一換;

2、訪問時間間隔設長一點,訪問時間設定為隨機數;

3、訪問頁面的順序也可以隨機著來

方法六

網站封的依據一般是單位時間內特定IP的訪問次數.我是將採集的任務按 目標站點的IP進行分組 通過控制每個IP 在單位時間內發出任務的個數,來避免被封.當然,這個前題是你採集很多網站.如果只是採集一個網站,那麼只能通過多外部IP的方式來實現了.

方法七

1,對爬蟲抓取進行壓力控制;
2,可以考慮使用代理的方式訪問目標站點。
學會這七個方法,再也不用擔心賬號被封