為反反爬蟲，打造一個自己的IP池？Python獲取西刺代理IP並驗證！

阿新 • • 發佈：2018-11-17

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。

為反反爬蟲，打造一個自己的IP池？Python獲取西刺代理IP並驗證！

這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。

為反反爬蟲，打造一個自己的IP池？Python獲取西刺代理IP並驗證！

分析原始碼後，發現數據非常的明瞭，都是存在表格裡面，一行一行的展示，因此，我們只需要把這些資料存下來即可。為了防止IP被封，我們通過設定獲取網頁睡眠時間和隨機選取header的方法。同時，我們通過百度來驗證這些IP是否可用，可用的話，就存起來。

 1import requests
 2import re
 3import time
 4import random
 5from bs4 import BeautifulSoup
 6import pandas as pd
 7keys = [
 8 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19',
 9 'Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30',
10 'Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',
11 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0',
12 'Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0',
13 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36',
14 'Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19',
15 'Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3',
16 'Mozilla/5.0 (iPod; U; CPU like Mac OS X; en) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/3A101a Safari/419.3'
17]
18def get_ip_list(k):
19 ip_list = []
20 print("正在獲取代理列表...")
21 for i in range(1,k+1):
22 try:
23 url = 'http://www.xicidaili.com/nn/' + str(i)
24 header = {'User-Agent': keys[random.randint(0, len(keys) - 1)]}
25 html = requests.get(url=url, headers=header).text
26 soup = BeautifulSoup(html, 'lxml')
27 ips = soup.find(id='ip_list').find_all('tr')
28 for j in range(1, len(ips)):
29 ip_info = ips[j]
30 tds = ip_info.find_all('td')
31 ip = tds[1].text + ':' + tds[2].text
32 # 用這個網頁去驗證，遇到不可用ip會拋異常
33 url = "https://www.baidu.com/"
34 try:
35 proxies = {'http': 'http://' + ip}
36 res = requests.get(url, headers=header, proxies=proxies).text
37 ip_list.append('http://' + ip)
38 except Exception as e:
39 print (e)
40 continue
41 print("第{}頁代理列表抓取成功.".format(i))
42 time.sleep(5 + float(random.randint(1,100)) /20)
43 except Exception as e:
44 print('error:',e)
45 return ip_list
46ip_list = get_ip_list(20)
47
48pd.DataFrame(columns = ['ip'], data = ip_list).to_csv('ip_list.csv',encoding='utf-8',index = False)
49print('一共獲得{}個IP地址'.format(len(ip_list)))

不足五十行的程式碼，我們就獲取2000個可用IP，在以後需要爬取其他網頁，就可以隨時調取一個來使用。值得注意的是，這些IP可能會過期，建議驗證後使用，若失效則從IP池裡刪除。

為反反爬蟲，打造一個自己的IP池？Python獲取西刺代理IP並驗證！

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。分

建立自己的IP代理池[爬取西刺代理]

一:基本引數和匯入的包 import requests import re import random url = 'http://www.xicidaili.com/nn' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)

Python爬蟲西刺代理IP的獲取代理IP

首先介紹一下爬蟲為什麼要使用代理IP 在爬蟲的過程中，我們經常會遇見很多網站採取了防爬取技術，或者說因為自己採集網站資訊的強度和採集速度太大，給對方伺服器帶去了太多的壓力。如果你一直用同一個代理ip爬取這個網頁，很有可能ip會被禁止訪問網頁，所以基本上做爬蟲的

文件操作，路徑操作，StringIO和BytesIO，序列化反序列化，正則表達式與python中使用

基於關系判斷目錄 java、優先 errors 情況下 water des 文件操作打開操作open(file, mode=‘r‘, buffering=-1, encoding=None, errors=None, newline=None, closefd=Tr

華為榮耀黑科技，打造震撼AI智慧機

2018年10月31日，備受期待的榮耀未來超旗艦榮耀Magic2在北京正式釋出。暌違2年，歷經684天，榮耀Magic2深度詮釋了榮耀對科技理想主義的探索。完美的蝶式五軌滑屏結構，集六項世界第一於一體的麒麟980，以智慧生命體YOYO為核心及靈魂的全新AI系統，全球首款AI六攝，石墨烯散熱技術、40

SpringBoot整合WebSocket，打造一個聊天室

本文，我們來講下SpringBoot整合WebSocket，打造一個聊天室。 WebSocket 是什麼？ WebSocket 是一種網路通訊協議，RFC6455 定義了它的通訊標準。瞭解計算機網路協議的人應該都知道，HTTP 協議是一種無狀態

藉助baidu的jsonp介面，做一個自己的候選片語件

先觀察對介面進行提煉：https://sp0.baidu.com/5a1Fazu8AA54nxGko9WTAnF6hhy/su?wd=關鍵詞&cb=回撥函式簡單測試一下： <!DOCTYPE html> <html> <head>

【練習題】編寫一個名為is_palindrome的函式，判斷一個人名是否為迴文，如‘BOB’是迴文

#編寫一個名為is_palindrome的函式，判斷一個人名是否為迴文，如‘BOB’是迴文 #方法一： def is_palindrome(name): low = 0 high =

定義一個二維陣列，內容為三個學生的四門課成績，求出每個學生四門課的平均分並輸出，再求出每門課三個學生的平均分並輸出！

DREP首席商務Belinda：DREP將瞄準聲譽量化變現，打造DAPP共享資料池

2018年4月5-6日，De / Centralize 2018在新加坡金沙會展中心成功舉辦，包括SGInnovate、Athena Capital、Zcash、Draper Associates、Kenetic Capital、Bluzelle Networks、Sentinel Protocol

python 爬蟲獲取西刺網免費高匿代理ip

import chardet import requests from scrapy.selector import Selector import random from telnetlib import Telnet ip_list = [] def g

看完這篇文章，包你懂得如何用Python實現聚類演算法的層次演算法！

什麼是聚類將物理或抽象物件的集合分成由類似的物件組成的多個類的過程被稱為聚類。由聚類所生成的簇是一組資料物件的集合，這些物件與同一個簇中的物件彼此相似，與其他簇中的物件相異。聚類分析又稱群分析，它是研究（樣品或指標）分類問題的一種統計分析方法。聚類分析起源於分類學，但是聚

Cron 的在ubuntu 定時執行自己的程式&& Python獲取當前指令碼檔案的路徑。

首先 crontab -e 在裡面加入自己的要執行的語句。上面的含義是每隔15分鐘執行一次。。後面的命令我用的是絕對路徑。修改完這裡之後需要重啟 cron，重啟的命令是 sudo service cron restart crontab -l 可以打印出

[blockchain-046] 搭建一個單獨的同步節點獲取eos鏈上資料並進行查詢

0.準備工作兩臺ecs，安全組開通 9876和5555和8888埠分別建立eos.data目錄和logging.json，此處參考 eos效能測試。 1. 在np節點執行 ./nodeos -d ~/eos.data/producer_node --config-

從西刺代理爬取代理ip，並驗證是否可用

最近又重新拾起了久違的爬蟲，寫了一個代理ip的爬取，驗證和儲存器。 1.爬取網站是西刺代理，使用了requests+beautifulsoup庫 2.驗證的網站使用了京東和淘寶的首頁，用了urllib+beautifulsoup庫 3.將爬取後的程式碼存入本地的資料庫中，

爬蟲入門到放棄系列05：從程式模組設計到代理IP池

## 前言上篇文章吧啦吧啦講了一些有的沒的，現在還是回到主題寫點技術相關的。本篇文章作為基礎爬蟲知識的最後一篇，將以爬蟲程式的模組設計來完結。在我漫(liang)長(nian)的爬蟲開發生涯中，我通常將爬蟲程式分為四大模組。 ![程式模組設計](https://img-blog.csdnimg.cn/

編寫一個函式判斷一個整數是否為迴文數。如果一個屬從正的方向讀和從反的方向讀的結果相同，則該數就是迴文數。

bool palindrome(int b){ 　　int k = 0; 　　char a[1000]; 　　do { 　　　　int c; 　　　　c = b % 10; 　　　　char d; 　　　　for (int i = 0; i <= 9; i++) { 　　　　　　if (c == i

$.jBox是一個好的提示效果介面，他的幾種使用反式為以下幾種，

$.jBox.tip("正在提交……", 'loading'); $.jBox.info('請輸入使用者名稱！', '提示'); $.jBox.success'註冊失敗', '成功'); $.jBox.error('註冊失敗', '提示');

用爬蟲和Flask打造屬於自己的電影網站，完整教程送上！

alt mysql服務器學習安裝友好點擊沒有網易 sql安裝也許你曾經為了一部電影找遍全網卻沒發現任何有用的資源，也許你曾經被披著電影外衣的網站忽悠進去而染上×××病毒。一部小小的電影搞得你心力交瘁，懷疑人生。不過，作為一名合格的程序員，一向以write th

用python擷取螢幕特定位置（具體class）的圖片（多用於爬蟲時遇到的驗證碼擷取，再進行反反爬）

比如在爬蟲時遇到頁面顯示驗證碼驗證環節，需要先擷取到驗證碼，再識別、輸入驗證碼，完成識別過程。以爬取zhipin.com 為例。遇到的反爬頁面顯示如下：擷取思路： 1，用selenium開啟該反爬的頁面，截全屏 2，定位到驗證碼處，截圖儲存即可程式碼如下： fr

為反反爬蟲，打造一個自己的IP池？Python獲取西刺代理IP並驗證！

相關推薦