爬蟲1-urllib，Request，opener，proxy

阿新 • • 發佈：2018-12-11

一, urllib (直接請求網址）

from urllib import request
with request.urlopen('http://www.runoob.com') as f:
    if f.status == 200:  #200 f.status返回狀態碼；f.reason:OK
        data=f.read()  # 讀取返回的主體內容,資料格式為位元組碼
            #print(data.decode())
            #print(f.getheaders()) # 讀取返回的頭資訊，頭資訊格式為元祖列表
            # for k,v in f.getheaders():
            #      print(k,v)

        try:     # 把爬到的資料裝入檔案
            with open('first.html', 'w+') as fp:
                fp.write(data.decode())
                fp.close()
        except Exception as ex:
            print(ex)

二, Request (模仿不同瀏覽器，不同的請求頭)

如果我們要想模擬瀏覽器傳送GET請求，就需要使用Request物件，

通過往Request物件新增HTTP頭，我們就可以把請求偽裝成瀏覽器

用不同的瀏覽器在傳送請求的時候，會有不同的User-Agent頭。

from urllib import request,parse
import random

url='http://www.runoob.com'
query_obj={"s":"js"}
query_string=parse.urlencode(query_obj)# get提交資料 要對資料urlencode()
url=url+"/?"+query_string
  # print(url)  http://www.runoob.com/?s=js

req=request.Request(url)
ua_list = [  不同瀏覽器的頭部
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]

user_agent=random.choice(ua_list)# 隨機讀取列表
req.add_header('User-Agent',user_agent) #隨機模仿一個瀏覽器

# print(dir(req))
# print(req.full_url) 獲取請求的完整地址
# print(req.headers['User-agent']) #獲取請求頭資訊 req.get_header('User-agent')

with request.urlopen(req) as f:
    data=f.read()
    print(data.decode())

三,opener (使ip從不同的出口出去)

opener是 urllib.OpenerDirector 的例項，

我們之前一直都在使用的urlopen，它是一個特殊的opener（也就是模組幫我們構建好的）

但是基本的urlopen()方法不支援代理、cookie等其他的HTTP/HTTPS高階功能。

from urllib import request,parse,error
import random
import json
import ssl
ssl._create_default_https_context = ssl._create_unverified_context #用於解決https不能爬取的問題

url="https://www.meishij.net/chufang/diy/wancan/?&"

qs={
    "page":2
}
url=url+parse.urlencode(qs)
req=request.Request(url)

ua_list = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]

# 隨機讀取列表
user_agent=random.choice(ua_list)
req.add_header('User-Agent',user_agent)

# 構建一個HTTPHandler 處理器物件，支援處理HTTPS請求
http_handler = request.HTTPSHandler(debuglevel=1)

# 呼叫request.build_opener()方法，建立支援處理HTTP請求的opener物件
opener = request.build_opener(http_handler)  # 使ip從不同的出口出去

try:
    with opener.open(req) as f:   # 原來這裡是request.urlopen(req)
        data = f.read()            # 這裡data為位元組碼

        with open('ttt.json', 'wb') as fp: #若用w+ 括號裡寫encoding='utf-8' 下面data要data.decode()
            fp.write(data)
            fp.close()

except error.HTTPError as err: #若http出錯
    pass
except error.URLError as err:  #若url出錯
    pass
except Exception as err:
    pass

四,proxy(代理ip)

ProxyHandler處理器（代理設定）

使用代理IP，這是爬蟲/反爬蟲的第二大招，通常也是最好用的。

很多網站會檢測某一段時間某個IP的訪問次數(通過流量統計，系統日誌等)，如果訪問次數多的不像正常人，它會禁止這個IP的訪問。

所以我們可以設定一些代理伺服器，每隔一段時間換一個代理，就算IP被禁止，依然可以換個IP繼續爬取。

會有時間延遲網速要好

from urllib import request,parse,error
import random
import json
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

url="https://www.meishij.net/chufang/diy/wancan/?&"

qs={
    "page":2
}

url=url+parse.urlencode(qs)
req=request.Request(url)

ua_list = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2",
    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]

# 隨機讀取列表
user_agent=random.choice(ua_list)
req.add_header('User-Agent',user_agent)


proxy_list = [
    {"https" : "116.192.167.32:32267"},
    {"https" : "14.117.176.252:808"},
    {"https" : "121.31.140.130:8123"}

]

# 隨機選擇一個代理
proxy = random.choice(proxy_list)

http_handler = request.ProxyHandler(proxy)
opener = request.build_opener(http_handler)

try:
    with opener.open(req) as f:
        data = f.read()
        with open('a.json', 'wb') as fp:
            fp.write(data)
            fp.close()
except error.HTTPError as err:
    print(err)
except error.URLError as err:
    print(err)
except Exception as err:
    print(err)

爬蟲1-urllib，Request，opener，proxy

一, urllib (直接請求網址） from urllib import request with request.urlopen('http://www.runoob.com') as f: if f.status == 200: #200 f.

爬蟲的原理（基本流程，Request與Response，怎麼解決JavaScript渲染的問題，怎麼儲存資料）

什麼是爬蟲？爬蟲就是請求網站並提取資料的自動化程式。爬蟲基本流程 1.發起請求：通過HTTP庫向目標站點發起請求，即傳送一個Request，請求可以包含額外的headers等配置資訊，等待伺服器響應。 2.獲取響應內容：如果伺服器能正常響應，會得到一個Response，其中的內容

（新手向）爬蟲的原理（基本流程，Request與Response，怎麼解決JavaScript渲染的問題，怎麼儲存資料）

什麼是爬蟲？爬蟲就是請求網站並提取資料的自動化程式。爬蟲基本流程 1.發起請求：通過HTTP庫向目標站點發起請求，即傳送一個Request，請求可以包含額外的headers等配置資訊，等待伺服器響應。 2.獲取響應內容：如果伺服器能正常響應，會得到一個Res

Error:Unable to tunnel through proxy. Proxy returns "HTTP/1.1 400 Bad Request 報錯，原因以及解決方法

Android studio出現Error:Unable to tunnel through proxy. Proxy returns "HTTP/1.1 400 Bad Request"的解決辦法原因：AS 自帶的gradle 版本太低。第一步：下載對的 gredel

python 爬蟲1 開始，先拿新浪微博開始

大括號版本 install esp con data- 定位 ble Language 剛剛開始學。目的地是兩個。一個微博，一個貼吧存入的話，臨時還沒想那麽多。先存到本地目錄吧分詞和推薦後面在整合 mysql mongodb hadoop redius 後面在用

Urllib庫的詳解（urlopen，response，request，Headler，異常處理，URL解析）

簡介 Urllib是Python內建的HTTP請求庫。它包含四個模組： urllib.request ：請求模組 urllib.error ：異常處理模組 urllib.parse url ：解析模組 urllib.robotparser ：robots.

從第一個爬蟲建立起做蟲師的心，request物件，簡單使用，構造簡單的裝置請求頭，爬蟲簡單案例篇（2）

from urllib.request import urlopen from urllib.request import Request url ='http://www.baidu.com/' h

python爬蟲——使用urllib設定代理出現由於目標計算機積極拒絕，無法連線

先說結論結論 1、檢查自己有沒有被封 3、檢查程式碼，將urllib替換為requests庫，或者不讓urllib全程使用代理問題分析出現這個問題第一反應是被封，但隨即否定，自己設定了較合理的等待時間，並且在學校內部，一般網站不會輕易禁掉學校的I

總結最近學習python爬蟲遇到的問題（selenium+Chrome，urllib，requests）

最近學習了一下爬蟲，興趣使然吧！（注：以下均在python3的環境下實驗） 1.基本庫，先說一下基本庫有，urllib和requests兩個庫：基本庫的作用是：傳送頁面請求，處理異常，解析連結，分析Robots協議。基本用法urllib有: f

換了個地方，來北京工作，面試了4家python爬蟲，寫一些這四家（記得的）筆試題（1）

1、請簡要說明檢視的作用資料庫檢視，隱藏資料複雜性；有利於使用者對於資料庫中某些列資料的訪問使使用者查詢變得簡單 2、列舉您使用過的python網路爬蟲所用到的網路資料包（最熟悉的在前）： requests,urllib2,urllib 3、列舉您使用過的python

python爬蟲—練習題（re，request&BeautifulSoup,selenium）

一、使用正則獲取51job職位資訊網頁分析（python3.x環境） import re #匯入re模組 import xlwt import chardet from urllib

項目期復習總結1：背景圖合並，hack，瀏覽器內核前綴，偽類after before

標準 after 不同 fixed cli 條件人員 tle ble 文件夾： 1、背景圖合並和CSS Spirit 2、PS基本快捷鍵 3、hack技術基本書寫，為什麽不用？ 4、內核前綴 5、偽類afterbefore 1、背景

1到n的整數中，1出現的次數

cnblogs void tro 出現 ref get count line http 參考鏈接：https://discuss.leetcode.com/topic/18054/4-lines-o-log-n-c-java-python 1到n的整數中，1出現的次數，

設計四個線程，當中共兩個線程每次對j添加1，另外兩個線程每次對j降低1。循環100次，寫出程序。

public read 設計 test6 ng- -m popu div for package cn.usst.DataTest6; /** * 設計四個線程，當中共兩個線程每次對j添加1，另外兩個線程每次對j降低1。循環100次，寫出程序。 * @ * *

windows10定時1分鐘執行php腳本，不使用windows的.bat文件

bat .cn log png cnblogs 環境畫面接下來意思第一步：確認windows上是否配置好了php環境變量，我用xampp安裝的lamp環境，默認已經配置好了php的環境變量。在CMD中執行php -v 顯示相應的php版本如果顯示上圖中畫面

JSP基本語法總結【1】（jsp工作原理，腳本元素，指令元素，動作元素）

ins 檢驗 welcome 域配置 ces 跳轉頁面 classes filter java代碼　　時隔半年，回頭對jsp復習整理一下，溫故而知新。 jsp工作原理：　　jsp服務器管理jsp頁面分兩個階段：轉換階段（translation phase）和執行階段

Tigase-02 tigase-server7.1.0使用git 克隆下來，並在eclipse 上運行調試

包括完成資源方法 window 出現依賴 clip spark 繼 Tigase-01 使用spark或spi登錄Tigase服務器，這節說明下使用 eclipse git克隆 tigase-server7.1.0,並運行調試！最近有不少同學嘗試去git

php利用simple_html_dom類，獲取頁面內容，充當爬蟲角色

contents names mac tro upd tool one mit 一個 PHP腳本扮演爬蟲的角色，可能大家第一時間想到可能會是會正則，個人對正則的規則老是記不住，表示比較難下手，今天工作中有個需求需要爬取某個網站上的一些門店信息無意間在網上看到一個比較好的

慕課網Java入門第二季6.1 達達租車系統，使用到繼承、重寫、多態、toString函數

ati next println 構造方法 static class days 慕課網 mage 為了方便理解，畫了個UML圖，可以參考一下為了方便理解，畫了個UML圖，可以參考一下定義Car類型：載人+載貨 public class Car { int id;

MIS的趨勢必定是圍繞機器取代人手，分工越來越細（小餐廳都支持微信自助點餐，結賬時就打個折，相當於省了1、2個人手，SQL發明以後，程序員的工作更多了）

nbsp 我認公司點餐管理系特定組裝 bsp 適合最後，我還想簡略的談談MIS及MIS快速開發工具的未來。MIS的趨勢必定是圍繞機器取代人手，分工越來越細。比如：現在有些小型的咖啡廳裏的財務子系統就簡單到不需要使用者有會計知識，相當於省了會計人手；有些小餐廳都支

爬蟲1-urllib，Request，opener，proxy

一, urllib (直接請求網址）

二, Request (模仿不同瀏覽器，不同的請求頭)

三,opener (使ip從不同的出口出去)

四,proxy(代理ip)

相關推薦