利用Python爬取可用的代理IP

阿新 • • 發佈：2018-02-28

strip() color 地址 read main urn try exc head

前言

就以最近發現的一個免費代理IP網站為例：http://www.xicidaili.com/nn/。在使用的時候發現很多IP都用不了。

所以用Python寫了個腳本，該腳本可以把能用的代理IP檢測出來。

 1 #encoding=utf8
 2 import urllib2
 3 from bs4 import BeautifulSoup
 4 import urllib
 5 import socket
 6   
 7 User_Agent = ‘Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0‘
 8 header = {}
 
 9 header[‘User-Agent‘] = User_Agent
10   
11 ‘‘‘
12 獲取所有代理IP地址
13 ‘‘‘
14 def getProxyIp():
15  proxy = []
16  for i in range(1,2):
17   try:
18    url = ‘http://www.xicidaili.com/nn/‘+str(i)
19    req = urllib2.Request(url,headers=header)
20    res = urllib2.urlopen(req).read()
21    soup = BeautifulSoup(res)
 
22    ips = soup.findAll(‘tr‘)
23    for x in range(1,len(ips)):
24     ip = ips[x]
25     tds = ip.findAll("td")
26     ip_temp = tds[1].contents[0]+"\t"+tds[2].contents[0]
27     proxy.append(ip_temp)
28   except:
29    continue
30  return proxy
31    
32 ‘‘‘
33 驗證獲得的代理IP地址是否可用
34 ‘‘‘
35 def validateIp(proxy):
 
36  url = "http://ip.chinaz.com/getip.aspx"
37  f = open("E:\ip.txt","w")
38  socket.setdefaulttimeout(3)
39  for i in range(0,len(proxy)):
40   try:
41    ip = proxy[i].strip().split("\t")
42    proxy_host = "http://"+ip[0]+":"+ip[1]
43    proxy_temp = {"http":proxy_host}
44    res = urllib.urlopen(url,proxies=proxy_temp).read()
45    f.write(proxy[i]+‘\n‘)
46    print proxy[i]
47   except Exception,e:
48    continue
49  f.close()
50   
51      
52 if __name__ == ‘__main__‘:
53  proxy = getProxyIp()
54  validateIp(proxy)

總結

這只是爬取的第一頁的IP地址，如有需要，可以多爬取幾頁。同時，該網站是時時更新的，建議爬取時只爬取前幾頁的即可。

利用Python爬取可用的代理IP

strip() color 地址 read main urn try exc head 前言就以最近發現的一個免費代理IP網站為例：http://www.xicidaili.com/nn/。在使用的時候發現很多IP都用不了。所以用Python寫了個腳本，該腳本可以把能用

Python 抓取可用代理IP

問題描述在做資料抓取的時候，經常會碰到有些網站對同一IP的訪問頻率做限制。遇到這種情況一般只有兩種解決方案：降低抓取頻率。這種方法在資料變化不頻繁，資料量不大的情況下還好，但是，如果資料變化頻繁或者資料量龐大，此方法明顯不能滿足需求。使用代理IP。抓取的過程中，經常更換代理I

Python 正則練習(一) 爬取國內代理ip

取代替代 use -a int 5.0 tdi col 則表達式簡單的正則表達式練習，爬取代理 ip。僅爬取前三頁，用正則匹配過濾出 ip 地址和端口，分別作為key、value 存入 validip 字典。如果要確定代理 ip 是否真的可用，還需要再對代理

利用python爬取IP地址歸屬地等資訊！

import requests url = "http://m.ip138.com/ip.asp?ip=" try: r = requests.get(url + '202.204.80.112') r.raise_for_status()

利用python爬蟲批量獲取代理IP並驗證可用性

# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import urllib2 import httplib import threading import sys reload(sys) sys.setdefaultencoding('utf-8'

python定向爬蟲——爬取某代理Ip網站上的所有ip

爬取一個網站的基本過程確定目標 –> 分析目標 –> 編寫程式 -> 執行爬蟲分析目標： url 格式資料格式網頁編碼分析目標資料在原始碼裡的結構，以便在獲取整個頁面原始碼後，可以利用正則進行匹配。

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

利用python爬取糗事百科的用戶及段子

我們什麽 roo urlopen gen 文件 addheader find 正則匹配最近正在學習python爬蟲，爬蟲可以做很多有趣的事，本文利用python爬蟲來爬取糗事百科的用戶以及段子，我們需要利用python獲取糗事百科一個頁面的用戶以及段子，就需要匹配兩次，

python: 抓取免費代理ip

python 抓取免費代理ip通過抓取西刺網免費代理ip實現代理爬蟲： from bs4 import BeautifulSoup import requests import random import telnetlib requests = requests.session() ip_list = []

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

沒有內涵段子可以刷了，利用Python爬取段友之家貼吧圖片和小視頻(含源碼)

python 興趣爬蟲職業由於最新的視頻整頓風波，內涵段子APP被迫關閉，廣大段友無家可歸，但是最近發現了一個“段友”的app，版本更新也挺快，正在號召廣大段友回家，如下圖，有興趣的可以下載看看（ps：我不是打廣告的，沒收廣告費的）同時，之前同事也發了一個貼吧的段子聚居地，客官稍等，馬

今天你教高考生一個裝逼神技！利用Python爬取歷年高考成績！

mongo tle one 展示 com .text color rep mon 2.爬取數據 1.獲取各省的分數線信息獲取各省份的鏈接： # 獲取分數線 def get_score(url): web_data = requests.get(url, hea

PHP簡單爬蟲爬取免費代理ip 一萬條

img mys i++ .com log mage top100 dai code 目標站：http://www.xicidaili.com/ 代碼： <?php require ‘lib/phpQuery.php‘; require ‘lib/QueryList.

利用Python爬取幾百萬github數據！這些源碼都是我的囊中之物！

.py .com exchange 非阻塞問題判斷 recursion 異步調用 direct 進群：548377875 即可獲取數十套PDF哦！看到這麽簡單的流程，內心的第一想法就是先簡單的寫一個遞歸實現唄，要是性能差再慢慢優化，所以第一

python 爬取可用

lag kit main 訪問 nbsp tip sts www. lse #coding:utf-8 from bs4 import BeautifulSoup import time import threading import random import tel

最後輕松一夏，周末利用python爬取“陳翔六點半”搞笑視頻！

多看獲取數據也會程序員 copy 是什麽查看 ima 周末覺得程序員再忙也需要給自己安排一點娛樂時間，對自己好點，自己對自己不好，誰會？自己娛樂一般會有：跑步、看電影、小視頻，而小視頻是最家常的娛樂方式，看得最多的小視頻是「陳翔六點半」，咦！拍得搞笑

Python3 爬取有效代理ip

代理顯示 txt 復制粘貼 https 分享圖片 img 有效可能用python 3.0寫了一個爬取代理ip地址的小工具，提供給需要代理ip地址制作爬蟲的人。 Proxy_IPv0.1的功能有兩個：　　1.顯示代理（響應速度快，但不能保證全部有效）; 　　2.顯示

利用Python爬取500萬以上的國產自拍小電影哦！

宣告：本專案旨在學習Scrapy爬蟲框架和MongoDB資料庫，不可使用於商業和個人其他意圖。若使用不當，均由個人承擔。 PornHubBot PornHubBot專案主要是爬取全球最大的小電影網站PornHub的視訊標題、時長、mp4連結、封

利用Python爬取了1600個崗位！原來一個程式設計師的年薪可以這麼高！

Python學了這麼久，相信很多小夥伴都想知道錢途如何，全國各大城市招聘Python的崗位有多少，都招哪些職位，年薪如何等等，我爬取了拉勾近1600個Python相關的職位，我們用資料說話！進群：548377875 即可獲取數十套PDF哦！ &nb

利用Python爬取可用的代理IP

相關推薦