1. 程式人生 > >爬蟲代理IP池的實現

爬蟲代理IP池的實現

使用代理髮送請求:

  • requests.get(url,proxies={協議:協議+ip+埠})
  • 正向代理:客戶端知道最終伺服器的地址
  • 反向代理:客戶端不知道最終伺服器的地址
    怎樣合理的使用代理:
  • 準備一堆的ip地址,組成ip池,隨機選擇一個ip來時用
  • 如何隨機選擇代理ip,讓使用次數較少的ip地址有更大的可能性被用到
    • {"ip":ip,"times":0}
    • [{},{},{},{},{}],對這個ip的列表進行排序,按照使用次數進行排序
    • 選擇使用次數較少的10個ip,從中隨機選擇一個

  • 檢查ip的可用性
    • 可以使用requests新增超時引數,判斷ip地址的質量
    • 線上代理ip質量檢測的網站

歡迎交流