1. 程式人生 > >使用億牛雲爬蟲代理常見問題的解決方案

使用億牛雲爬蟲代理常見問題的解決方案

tps 超時 demo 導致 信息 自動跳轉 影響 錯誤 dem

(1) 代理使用失敗
讓對方截圖看看代理代碼,代理信息是否提取配置正確。重點註意必須使用代理域名,不能是代理服務器IP。
要求對方復制demo,然後加上ua隨機優化,按照所開代理的請求數,按照300毫秒為單位進行管理,運行程序後統計錯誤信息和http的狀態碼。
代理鏈接失敗
原因:對方是否有防火墻,導致無法鏈接我們服務器;對方開的代理是否過期。
http狀態碼407
原因:代理認證信息失敗,讓對方嚴格按照demo配置代理信息
http狀態碼429
原因:請求超過代理限制,嚴格按照所開代理的請求數,按照300毫秒為單位進行管理。如果限制之後,既然大量429,需要優化爬蟲策略,應該是目標網站返回的錯誤提示。
http狀態碼302
原因:訪問的是https網站,會自動跳轉一次,正常現象;訪問的http網站,網站拒絕服務,大量302需要優化爬蟲策略
http狀態碼403或504
原因:少量不影響,大量403或504需要優化爬蟲策略
http請求超時
原因:http請求的超時設置為10秒,尤其是對方訪問國外網站的時候。
(2) 沒法確認代理是否使用
要求對方直接復制demo,訪問http://httpbin.org/ip,看看返回的IP,如果是我們的代理IP,就表示代理鏈接成功
(3) 爬蟲代理使用成功,請求失敗率較高
統計錯誤信息和http的狀態碼,將200和各自錯誤信息進行統計,看看比例分布,參考第(1)項裏面的http狀態碼進行解答。

使用億牛雲爬蟲代理常見問題的解決方案