1. 程式人生 > >乾貨|Python爬蟲如何設定代理IP

乾貨|Python爬蟲如何設定代理IP

在學習Python爬蟲的時候,經常會遇見所要爬取的網站採取了反爬取技術導致爬取失敗。高強度、高效率地爬取網頁資訊常常會給網站伺服器帶來巨大壓力,所以同一個IP反覆爬取同一個網頁,就很可能被封,這裡講述一個爬蟲技巧,設定**代理IP**。
配置環境

  • 安裝requests庫
  • 安裝bs4庫
  • 安裝lxml庫

具體程式碼
在這裡插入圖片描述
函式get_ip_list(url, headers)傳入url和headers,最後返回一個IP列表,列表的元素類似122.114.31.177:808格式,這個列表包括國內髙匿代理IP網站首頁所有IP地址和埠。
函式get_random_ip(ip_list)傳入第一個函式得到的列表,返回一個隨機的proxies,這個proxies可以傳入到requests的get方法中,這樣就可以做到每次執行都使用不同的IP訪問被爬取的網站,有效地避免了真實IP被封的風險。
proxies的格式是一個字典:{‘http’: ‘

http://122.114.31.177:808‘},可以將下面的執行也封裝為方法。
代理IP的使用
執行上面的程式碼會得到一個隨機的proxies,把它直接傳入requests的get方法中即可
在這裡插入圖片描述