爬蟲代理設定--爬取ip池、驗證ip是否可用、驗證代理ip是否能用

阿新 • • 發佈：2019-02-03

昨天在爬取大眾點評的時候，剛開始還好好的，但一會就把我的ip給封啦，所以我就想給自己弄一個ip池，這樣我就可以繼續爬啦。網上找了一堆程式碼，發現好多都是python2的，它們請求使用urllib2的庫，這個庫在python3中合併成urllib，所以很多方法呼叫都出現錯誤，所以我還是決定用requests。

一、獲得代理ip

def get_ip_list(obj):
    ip_text = obj.findAll('tr', {'class': 'odd'})   # 獲取帶有IP地址的表格的所有行
    ip_list = []
    for i in range(len(ip_text)):
        ip_tag = ip_text[i].findAll('td')   
        ip_port = ip_tag[1].get_text() + ':' + ip_tag[2].get_text() # 提取出IP地址和埠號
        ip_list.append(ip_port)
    print("共收集到了{}個代理IP".format(len(ip_list)))
    print(ip_list)
    return ip_list
url = 'http://www.xicidaili.com/'
headers = {
    'User-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36'}
request = Request(url, headers=headers)
response = urlopen(request)
bsObj = BeautifulSoup(response, 'lxml')     # 解析獲取到的html
lists=get_ip_list(bsObj)

二、驗證是否可用

def valVer(proxys):
    badNum = 0
    goodNum = 0
    good=[]
    for proxy in proxys:
        try:
            proxy_host = proxy
            protocol = 'https' if 'https' in proxy_host else 'http'
            proxies = {protocol: proxy_host}
            response = requests.get('http://www.baidu.com', proxies=proxies, timeout=2)
            if response.status_code != 200:
                badNum += 1
                print (proxy_host, 'bad proxy')
            else:
                goodNum += 1
                good.append(proxies)
                print (proxy_host, 'success proxy')
        except Exception as e:
            print( e)
            # print proxy_host, 'bad proxy'
            badNum += 1
            continue
    print ('success proxy num : ', goodNum)
    print( 'bad proxy num : ', badNum)
    return good

三、檢查代理ip是否可用

res =requests.get('http://icanhazip.com/', proxies=go[0])
print (res.content)

注：我在找資料的時候我發現一個庫fake_useragent，這個庫可以偽裝請求頭，具體用法

from fake_useragent import UserAgent
ua = UserAgent()
#ie瀏覽器的user agent
print(ua.ie)

#opera瀏覽器
print(ua.opera)

#chrome瀏覽器
print(ua.chrome)

#firefox瀏覽器
print(ua.firefox)

#safri瀏覽器
print(ua.safari)

#最常用的方式
#寫爬蟲最實用的是可以隨意變換headers，一定要有隨機性。支援隨機生成請求頭
print(ua.random)
print(ua.random)
print(ua.random)

這樣就可以偽裝自己。

爬蟲代理設定--爬取ip池、驗證ip是否可用、驗證代理ip是否能用

昨天在爬取大眾點評的時候，剛開始還好好的，但一會就把我的ip給封啦，所以我就想給自己弄一個ip池，這樣我就可以繼續爬啦。網上找了一堆程式碼，發現好多都是python2的，它們請求使用urllib2的庫，這個庫在python3中合併成urllib，所以很多方法呼叫都出現錯誤，所

爬取西刺代理IP存入本地txt檔案作為代理IP池（未加入是否可用驗證）

執行環境：Python3.5.3、Windows 10 RS4、Pycharm 2017.2.4 前言我們在爬取資料時，經常會因為請求太過頻繁導致反爬機制生效，不少伺服器的反爬機制

PythonScript_002_設定代理進行爬取

#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib.request import os # os是電腦環境、sys是Python環境 ''' 構建代理-進行請求特點：免費的不穩定 Python 3.7.0 ''' # 代理

python urllib設定代理伺服器爬取資料

瞭解到爬蟲在爬取時，有時會受到ip一定時間內訪問數量的限制，按照網上大神的說法，應當設定通過代理伺服器訪問網頁。我還沒有爬取過那麼龐大的資料，當前沒遇到這個問題。這裡只是把方法記錄整體步驟為：1、設定代理伺服器2、爬取資料設定代理伺服器的方法為import urllib.re

【爬蟲】Scrapy 爬取excel中500個網址首頁，使用Selenium模仿使用者瀏覽器訪問，將網頁title、url、文字內容組成的item儲存至json檔案

建立含有網址首頁的excel檔案 host_tag_網站名稱_主域名_子域名.xlsx 編輯讀取excel檔案的工具類專案FileUtils 新建專案FileUtils 編輯file_utils.py # -*- coding: utf-8 -*- """

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

利用splash爬取京東商品資訊一、環境window7python3.5pycharmscrapyscrapy-splashMySQL二、簡介為了體驗scrapy-spla

【學習】06 爬蟲使用代理地址爬取搜狗微信文章

實現功能根據登陸後的cookie製作header，請求搜尋微信文章url需要使用urlencode拼接使用代理避免IP被封使用pyquery解析得到需要的欄位資訊爬取文章詳情頁並存儲到M

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

爬蟲實例——爬取python百度百科相關一千個詞條

管理器 name 詞條 enc aik lib cnblogs response ons 調度器： import url_manager,html_downloader,html_parser,html_outputer class SpiderMain(object

爬蟲練習3 爬取堆糖網校花照片

ring http 正在 usr sts 多線程 src 技術 strings 知識點：多線程的實現圖片的下載及寫入字符串高級查找了解動態加載和jsonrequest 的用法獲取數據的api‘https://www.duitang.com/napi/blog/lis

Scrapy爬取豆瓣電影top250的電影數據、海報，MySQL存儲

p地址 rom gin ani char 代碼 pipeline print 關閉數據庫從GitHub得到完整項目（https://github.com/daleyzou/douban.git）1、成果展示數據庫本地海報圖片2、環境（1）已安裝Scrapy的Pycharm

【Python3 爬蟲】14_爬取淘寶上的手機圖片

head 並且淘寶網 pan coff urllib images 圖片列表 pic 現在我們想要使用爬蟲爬取淘寶上的手機圖片，那麽該如何爬取呢？該做些什麽準備工作呢？首先，我們需要分析網頁，先看看網頁有哪些規律打開淘寶網站http://www.taobao.com/

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

python3爬蟲-快速入門-爬取圖片和標題

瀏覽器 ebr tle path requests itl edi 大致應用直接上代碼，先來個爬取豆瓣圖片的，大致思路就是發送請求-得到響應數據-儲存數據，原理的話可以先看看這個 https://www.cnblogs.com/sss4/p/7809821.html

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

Python 爬蟲入門(一)——爬取糗百

upa ext win comment 地址 odi 批量爬蟲程序 article 爬取糗百內容 GitHub 代碼地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公眾號：【智能制造專

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

爬蟲代理設定--爬取ip池、驗證ip是否可用、驗證代理ip是否能用

相關推薦