[Python]網路爬蟲（四）：Opener與Handler

阿新 • • 發佈：2019-02-02

在開始後面的內容之前，先來解釋一下urllib2中的兩個個方法：info and geturl

urlopen返回的應答物件response(或者HTTPError例項)有兩個很有用的方法info()和geturl()

1.geturl()：

geturl()返回獲取的真實的URL，這個很有用，因為urlopen(或者opener物件使用的)或許會有重定向。獲取的URL或許跟請求URL不同。

以人人中的一個超級連結為例,

我們建一個urllib2_test10.py來比較一下原始URL和重定向的連結：

from urllib2 import Request, urlopen, URLError, HTTPError
old_url = 'http://rrurl.cn/b1UZuP'
req = Request(old_url)
response = urlopen(req)
print'Old url :' + old_url
print'Real url :' + response.geturl()

執行之後可以看到真正的連結指向的網址：

2.info()：

info()返回物件的字典物件，該字典描述了獲取的頁面情況。通常是伺服器傳送的特定頭headers。

經典的headers包含"Content-length"，"Content-type"，和其他內容。

我們建一個urllib2_test11.py來測試一下info的應用：

from urllib2 import Request, urlopen, URLError, HTTPError
old_url = 'http://www.baidu.com'
req = Request(old_url)
response = urlopen(req)
print'Info():'
print response.info()

執行的結果如下，可以看到頁面的相關資訊：

下面來說一說urllib2中的兩個重要概念：Openers和Handlers。

一、opener

urllib2.urlopen()函式不支援驗證、cookie或者其它HTTP高階功能。要支援這些功能，必須使用build_opener()（可以用於讓python程式模擬瀏覽器進行訪問，作用你懂得~）函式建立自定義Opener物件。

用法如下

build_opener([handler1 [ handler2, ... ]])

引數handler是Handler例項，常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。
build_opener ()返回的物件具有open()方法，與urlopen()函式的功能相同。
如果要修改http報頭，可以用：

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
opener.open('http://www.example.com/')

install_opener(opener)

安裝不同的opener物件作為urlopen()使用的全域性opener。

密碼驗證（HTTPBasicAuthHandler）

HTTPBasicAuthHandler()處理程式可用add_password()來設定密碼。

h.add_password(realm,uri,user,passwd)

realm是與驗證相關聯的名稱或描述資訊，取決於遠端伺服器。uri是基URL。user和passwd分別指定使用者名稱和密碼。

import urllib2
auth=urllib2.HTTPBasicAuthHandler()
auth.add_password('Administrator','http://www.example.com','Dave','123456')
opener=urllib2.build_opener(auth)
u=opener.open('http://www.example.com/evilplan.html')

Cookie處理(HTTPCookieProcessor)

import urllib2,cookielib
cookie=cookielib.CookieJar()
cookiehand=urllib2.HTTPCookieProcessor(cookie)
opener=urllib2.build_opener(cookiehand)

代理(ProxyHandler)

ProxyHandler(proxies)引數proxies是一個字典，將協議名稱（http，ftp）等對映到相應代理伺服器的URL。

proxy=ProxyHandler({'http':'http://someproxy.com:8080'})
auth=HTTPBasicAuthHandler()
auth.add_password()
opener=build_opener(auth,proxy)

也可以在urlopen中使用代理

import urllib2  
proxy = 'http://%s:%[email protected]%s' % ('userName', 'password', 'proxy')  
inforMation = urllib2.urlopen("http://www.example.com", proxies={'http':proxy})

二、Handler

handler用於處理URL，例如HTTP重定向、HTTP cookies等。
如果你希望建立一個特定的openers，例如獲取一個能處理cookie的opener，或者獲取一個不重定向的opener，就需要用到自定義handler。

Basic Authentication 基本驗證

為了展示建立和安裝一個handler，我們將使用HTTPBasicAuthHandler。
通常驗證時，伺服器傳送一個header(401錯誤碼) 請求驗證。這個指定了scheme 和一個‘realm’，其格式為：www-authenticate: SCHEME realm="REALM".
舉個例項：www-authenticate: Basic realm="cPanel Users"

客戶端必須使用新的請求，並在請求頭裡包含正確的姓名和密碼。
為了簡化這個過程，我們可以建立一個HTTPBasicAuthHandler的例項，並讓opener使用這個handler就可以啦。
HTTPBasicAuthHandler使用一個密碼管理的物件來處理URLs和realms來對映使用者名稱和密碼。
如果你知道realm(從伺服器傳送來的頭裡)是什麼，你就能使用HTTPPasswordMgr。
如果不關心realm是什麼，就可以使用HTTPPasswordMgrWithDefaultRealm。

程式碼如下：

# -*- coding: utf-8 -*-
import urllib2
# 建立一個密碼管理
password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()
# 新增使用者名稱和密碼
top_level_url = "http://example.com/foo/"
password_mgr.add_password(None, top_level_url,'why', '1223')
# 建立了一個新的handler
handler = urllib2.HTTPBasicAuthHandler(password_mgr)
# 建立 "opener" (OpenerDirector 例項)
opener = urllib2.build_opener(handler)
a_url = 'http://www.baidu.com/'
# 使用 opener 獲取一個URL
opener.open(a_url)
# 安裝 opener.
# 現在所有呼叫 urllib2.urlopen 將用我們的 opener.
urllib2.install_opener(opener)

注意：除了HHTPBasicAuthHandler以外，ProxyHandler，UnknownHandler，HTTPHandler，HTTPDefaultErrorHandler， HTTPRedirectHandler，FTPHandler， FileHandler， HTTPErrorProcessor均會返回Handler。

歡迎收聽我的微信公眾號

[Python]網路爬蟲（四）：Opener與Handler

一、opener

install_opener(opener)

密碼驗證（HTTPBasicAuthHandler）

Cookie處理(HTTPCookieProcessor)

代理(ProxyHandler)

二、Handler

Basic Authentication 基本驗證

[Python]網路爬蟲（四）：Opener與Handler

Python網路爬蟲（四）：視訊下載器

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

[Python]網路爬蟲（一）：抓取網頁的含義和URL基本構成

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

[Python]網路爬蟲（五）：urllib2的使用細節與抓站技巧

Python網路爬蟲（三）：chromdriver.exe與chrome版本對映及下載連結

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

[Python]網路爬蟲（二）：利用urllib通過指定的URL抓取網頁內容

Python網路爬蟲（七）：解決ImportError:DLL load failed：作業系統無法執行問題

[Python]網路爬蟲（三）：使用cookiejar管理cookie 以及模擬登入知乎

Python高階爬蟲（四）：動態載入頁面的解決方案與爬蟲代理

python爬蟲（四）：scrapy 【1. 快速上手】

python爬蟲（四）：scrapy 【2. 其他重要部分】

【網路爬蟲】【java】微博爬蟲（四）：資料處理——jsoup工具解析html、dom4j讀寫xml

網路爬蟲（六）：Python中的正則表示式教程

python網路爬蟲（一）

Windows網路程式設計（四）：建立UDP連線和收發訊息

手把手教你寫網路爬蟲（2）：迷你爬蟲架構

手把手教你寫網路爬蟲（8）：徹底解決亂碼問題

[Python]網路爬蟲（四）：Opener與Handler

一、opener

install_opener(opener)

密碼驗證（HTTPBasicAuthHandler）

Cookie處理(HTTPCookieProcessor)

代理(ProxyHandler)

二、Handler

Basic Authentication 基本驗證

相關推薦