1. 程式人生 > >【python爬蟲自學筆記】-----urllib庫的基本使用

【python爬蟲自學筆記】-----urllib庫的基本使用

urllib是python內建的http請求庫包含以下模組:

urllib.request 請求模組,用來開啟和讀取url;

urllib.error 異常處理模組 ,包含request產生的錯誤,可以使用try進行捕捉處理;

urllib.parse url解析模組,包含一些解析url的方法;

urllib.robotparser robots.txt解析模組,它提供了一個單獨的RobotFileParser類,通過該類提供的can_fetch()方法測試爬蟲是否可以下載一個頁面;

使用urllib.request.urlopen()函式開啟一個網站,讀取並列印

from urllib import request
response = request.urlopen('http://www.baidu.com')
html = response.read()
print(html)

urlopen

urllib.request.urlopen(url,data=None,[timeout]*,cafile=None,capath=None,cadefault=False,context=None)

使用的三個只要引數為url,data,timeout,使用response.read()可以獲取到網頁的內容

data引數的使用

import urllib.parse
data = bytes(urllib.parse.urlencode({'word':'hello'}),encoding='utf8')
print(data)
response = urllib.request.urlopen('http://httpbin.org/post',data=data)
print(response.read())

b'word=hello'
b'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "word": "hello"\n  }, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Connection": "close", \n    "Content-Length": "10", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.6"\n  }, \n  "json": null, \n  "origin": "121.17.200.18", \n  "url": "http://httpbin.org/post"\n}\n'

通過 bytes(urllib.parse.urlencode())可以將post資料進行轉換放到urllib.request.urlopen的data引數中,這樣就完成了一次post請求。

如果新增data引數的時候就是post請求,如果沒有data引數就是get請求。

timeout引數使用

在某些網路情況不好或者伺服器端異常的情況下會出現請求慢的情況,或者請求異常,此時需要設定一個超時時間。

from urllib import request
response = request.urlopen('http://httpbin.org/get',timeout=1)
html = response.read()
print(html)

b'{\n  "args": {}, \n  "headers": {\n    "Accept-Encoding": "identity", \n    "Connection": "close", \n    "Host": "httpbin.org", \n    "User-Agent": "Python-urllib/3.6"\n  }, \n  "origin": "121.17.200.18", \n  "url": "http://httpbin.org/get"\n}\n'

將超時引數改為0.1

from urllib import request
response = request.urlopen('http://httpbin.org/get',timeout=0.1)
html = response.read()
print(html)

Traceback (most recent call last):
  File "D:\develop\Anaconda3\lib\urllib\request.py", line 1318, in do_open
    encode_chunked=req.has_header('Transfer-encoding'))
  File "D:\develop\Anaconda3\lib\http\client.py", line 1239, in request
    self._send_request(method, url, body, headers, encode_chunked)
  File "D:\develop\Anaconda3\lib\http\client.py", line 1285, in _send_request
    self.endheaders(body, encode_chunked=encode_chunked)
  File "D:\develop\Anaconda3\lib\http\client.py", line 1234, in endheaders
    self._send_output(message_body, encode_chunked=encode_chunked)
  File "D:\develop\Anaconda3\lib\http\client.py", line 1026, in _send_output
    self.send(msg)
  File "D:\develop\Anaconda3\lib\http\client.py", line 964, in send
    self.connect()
  File "D:\develop\Anaconda3\lib\http\client.py", line 936, in connect
    (self.host,self.port), self.timeout, self.source_address)
  File "D:\develop\Anaconda3\lib\socket.py", line 724, in create_connection
    raise err
  File "D:\develop\Anaconda3\lib\socket.py", line 713, in create_connection
    sock.connect(sa)
socket.timeout: timed out

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "D:/thislove/pythonworkspace/blogspark/baidu.py", line 13, in <module>
    response = urllib.request.urlopen('http://httpbin.org/get', timeout=0.1)
  File "D:\develop\Anaconda3\lib\urllib\request.py", line 223, in urlopen
    return opener.open(url, data, timeout)
  File "D:\develop\Anaconda3\lib\urllib\request.py", line 526, in open
    response = self._open(req, data)
  File "D:\develop\Anaconda3\lib\urllib\request.py", line 544, in _open
    '_open', req)
  File "D:\develop\Anaconda3\lib\urllib\request.py", line 504, in _call_chain
    result = func(*args)
  File "D:\develop\Anaconda3\lib\urllib\request.py", line 1346, in http_open
    return self.do_open(http.client.HTTPConnection, req)
  File "D:\develop\Anaconda3\lib\urllib\request.py", line 1320, in do_open
    raise URLError(err)
urllib.error.URLError: <urlopen error timed out>

出現異常timed out

對異常進行抓取

import  socket
import urllib.error
from urllib import request
try:
    response = request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error.URLError as e:
    if isinstance(e.reason,socket.timeout):
        print('TIME OUT')

TIME OUT

request

響應    響應型別、狀態碼、響應頭

import urllib.request
response = urllib.request.urlopen('http://www.python.org')
print(type(response))

<class 'http.client.HTTPResponse'>

可以使用response.status、response.getheaders()、response.getheader('server')來獲取狀態碼以及頭部資訊;使用response.read()獲得響應體內容;

設定headers:許多網站為了防止程式爬蟲導致網站癱瘓,會需要攜帶一些headers頭部資訊才能訪問,常見的是user-agent引數;

from urllib import  request,parse
url = 'http://httpbin.org/post'
headers = {
    'User-Agent':'Mozilla/4.0(compatible;MSIE 5.5; Windows NT)',
    'Host':'httpbin.org'
}
dict = {
    'name':'zhaofan'
}
data = bytes(parse.urlencode(dict),encoding='utf8')
req = request.Request(url=url,data=data,headers=headers,method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "zhaofan"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Connection": "close", 
    "Content-Length": "12", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/4.0(compatible;MSIE 5.5; Windows NT)"
  }, 
  "json": null, 
  "origin": "121.17.200.18", 
  "url": "http://httpbin.org/post"
}

高階用法代理,ProxyHandler

通過urllib.request.ProxyHandler()可以設定代理,網站它會檢測某一段時間某個IP的訪問次數,如果訪問次數過多會禁止訪問,這個時候需要通過設定代理來爬取資料。

#設定代理
import urllib.request

proxy_handler = urllib.request.ProxyHandler({
    'http': 'http://127.0.0.1:9743',
    'https': 'https://127.0.0.1:9743'
})
opener = urllib.request.build_opener(proxy_handler)
response = opener.open('http://httpbin.org/get')
print(response.read())

HTTP的put和delete方法

http協議有六種請求方法:get,head,put,delete,post,options。

PUT:HTML表單不支援,本質上,PUT和POST極為相似,都是向伺服器傳送資料,他們之間的區別是:put通常指定資源的存放位置,而POST沒有,POST的資料存放位置由伺服器自己決定。

delete:刪除某一個資源。

cookie,HTTPCookieProcessor

cookie(某些網站為了辨別使用者的身份進行session跟蹤而儲存在使用者本地終端上的資料(通常經過加密))中儲存常見的登入資訊,有時候爬取網站需要攜帶cookie資訊訪問,需要用到http.cookiejar,用於獲取cookie以及儲存cookie.

import http.cookiejar,urllib.request
cookie = http.cookiejar.CookieJar()
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:
    print(item.name+"="+item.value)

BAIDUID=8BCB78D1239C83CD668FA5041F9DF6DE:FG=1
BIDUPSID=8BCB78D1239C83CD668FA5041F9DF6DE
H_PS_PSSID=26937_1454_21115_26350_20929
PSTM=1533277719
BDSVRTM=0
BD_HOME=0
delPer=0

可以使用兩種方式http.cookiejar.MozillaCookieJar()和http.cookiejar.LWPCookieJar()將cookie儲存到檔案中。

#cookie儲存_MozillaCookieJar
import http.cookiejar,urllib.request
filename = 'cookie.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True,ignore_expires=True)


# Netscape HTTP Cookie File
# http://curl.haxx.se/rfc/cookie_spec.html
# This is a generated file!  Do not edit.

.baidu.com	TRUE	/	FALSE	3680761905	BAIDUID	131B96C4501657370132B6349EF07E9C:FG=1
.baidu.com	TRUE	/	FALSE	3680761905	BIDUPSID	131B96C4501657370132B6349EF07E9C
.baidu.com	TRUE	/	FALSE		H_PS_PSSID	1431_26911_21103_26923_22160
.baidu.com	TRUE	/	FALSE	3680761905	PSTM	1533278258
www.baidu.com	FALSE	/	FALSE		BDSVRTM	0
www.baidu.com	FALSE	/	FALSE		BD_HOME	0
www.baidu.com	FALSE	/	FALSE	2479358237	delPer	0

#cookie儲存_LWPCookieJar
import http.cookiejar,urllib.request
filename = 'cookie.txt'
cookie = http.cookiejar.LWPCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_expires=True,ignore_discard=True)

#LWP-Cookies-2.0
Set-Cookie3: BAIDUID="5710DAB0383E5F73EE44B471E68D0FB5:FG=1"; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2086-08-21 09:56:25Z"; version=0
Set-Cookie3: BIDUPSID=5710DAB0383E5F73EE44B471E68D0FB5; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2086-08-21 09:56:25Z"; version=0
Set-Cookie3: H_PS_PSSID=1439_21100_20719; path="/"; domain=".baidu.com"; path_spec; domain_dot; discard; version=0
Set-Cookie3: PSTM=1533278539; path="/"; domain=".baidu.com"; path_spec; domain_dot; expires="2086-08-21 09:56:25Z"; version=0
Set-Cookie3: BDSVRTM=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
Set-Cookie3: BD_HOME=0; path="/"; domain="www.baidu.com"; path_spec; discard; version=0
Set-Cookie3: delPer=0; path="/"; domain="www.baidu.com"; expires="2048-07-26 06:41:57Z"; version=0

如果需要使用檔案中的cookie獲取網頁使用load方法,使用哪種方式寫入就使用哪種方式讀取。

#讀取cookie
cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie.txt',ignore_discard=True,ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))

異常處理

URL可能產生的原因有以下幾種

  • 網路無連線,即本機無法上網
  • 連線不到特定的伺服器
  • 伺服器不存在
#異常處理
from urllib import request,error
try:
    response = request.urlopen('http://pythonsite.com/1111.html')
except error.URLError as e:
    print(e.reason)

Not Found
from urllib import request,error
try:
    response = request.urlopen('http://www.baibai.com')
except error.URLError as e:
    print(e.reason)
[Errno 11002] getaddrinfo failed

這種錯誤包含一個錯誤號和一個錯誤資訊。

urllib庫中有兩個異常,一個是URLError,另一個是HTTPError,其中HTTPError是URLError的子類。

URLError中只有一個屬性:reason,即抓取異常時列印錯誤資訊;

HTTPError中有三個屬性:code,reason,headers,即抓取異常的時候可以獲得code,reason,headers三個資訊;

#HTTPError,URLError屬性
from urllib import request,error
try:
    response = request.urlopen('http://pythonsite.com/1111.html')
except error.HTTPError as e:
    print(e.reason)
    print(e.code)
    print(e.headers)
except error.URLError as e:
    print(e.reason)
else:
    print('request successful')

Not Found
404
Date: Fri, 03 Aug 2018 07:01:53 GMT
Server: Apache
Vary: Accept-Encoding
Content-Length: 207
Connection: close
Content-Type: text/html; charset=iso-8859-1

HTTP狀態碼:HTTP協議所返回的響應狀態。預設的處理器處理重定向(300以外號碼),並且100-299範圍的號碼指示成功,所以只能看到400-599的錯誤號碼。

  • 100:繼續  客戶端應當繼續傳送請求。客戶端應當繼續傳送請求的剩餘部分,或者如果請求已經完成,忽略這個響應。
  • 101: 轉換協議  在傳送完這個響應最後的空行後,伺服器將會切換到在Upgrade 訊息頭中定義的那些協議。只有在切換新的協議更有好處的時候才應該採取類似措施。
  • 102:繼續處理   由WebDAV(RFC 2518)擴充套件的狀態碼,代表處理將被繼續執行。
  • 200:請求成功      處理方式:獲得響應的內容,進行處理
  • 201:請求完成,結果是建立了新資源。新建立資源的URI可在響應的實體中得到    處理方式:爬蟲中不會遇到
  • 202:請求被接受,但處理尚未完成    處理方式:阻塞等待
  • 204:伺服器端已經實現了請求,但是沒有返回新的信 息。如果客戶是使用者代理,則無須為此更新自身的文件檢視。    處理方式:丟棄
  • 300:該狀態碼不被HTTP/1.0的應用程式直接使用, 只是作為3XX型別迴應的預設解釋。存在多個可用的被請求資源。    處理方式:若程式中能夠處理,則進行進一步處理,如果程式中不能處理,則丟棄
  • 301:請求到的資源都會分配一個永久的URL,這樣就可以在將來通過該URL來訪問此資源    處理方式:重定向到分配的URL
  • 302:請求到的資源在一個不同的URL處臨時儲存     處理方式:重定向到臨時的URL
  • 304:請求的資源未更新     處理方式:丟棄
  • 400:非法請求     處理方式:丟棄
  • 401:未授權     處理方式:丟棄
  • 403:禁止     處理方式:丟棄
  • 404:沒有找到     處理方式:丟棄
  • 500:伺服器內部錯誤  伺服器遇到了一個未曾預料的狀況,導致了它無法完成對請求的處理。一般來說,這個問題都會在伺服器端的原始碼出現錯誤時出現。
  • 501:伺服器無法識別  伺服器不支援當前請求所需要的某個功能。當伺服器無法識別請求的方法,並且無法支援其對任何資源的請求。
  • 502:錯誤閘道器  作為閘道器或者代理工作的伺服器嘗試執行請求時,從上游伺服器接收到無效的響應。
  • 503:服務出錯   由於臨時的伺服器維護或者過載,伺服器當前無法處理請求。這個狀況是臨時的,並且將在一段時間以後恢復。

同時可以對異常進行進一步的判斷

#深入分析e.reason
import socket
from urllib import error,request
try:
    response = request.urlopen('http://www.pythonsite.com/',timeout=0.001)
except error.URLError as e:
    print(type(e.reason))
    if isinstance(e.reason,socket.timeout):
        print('time out')

<class 'socket.timeout'>
time out

URL解析

urlparse:用於分解URL String

urllib.parse.urlparse(urlstring,scheme='',allow_fragments=True)

from urllib.parse import urlparse
result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(result)

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

也可以指定協議型別,但是如果url中有協議型別,會按照url中的型別,scheme中指定的協議型別就不會生效。

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment',scheme='https')

ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

urlunparse:與urlparse的功能相反,用於拼接URL string

from urllib.parse import urlunparse
data = ['http','www.baidu.com','index.html','user','a=123','commit']
print(urlunparse(data))

http://www.baidu.com/index.html;user?a=123#commit

urljoin 拼接功能

from urllib.parse import urljoin
print(urljoin('http://www.baidu.com','FAQ.html'))
print(urljoin('http://www.baidu.com','https://pythonsite.com/FAQ.html'))
print(urljoin('http://www.baidu.com/about.html','https://pythonsite.com/FAQ.html'))
print(urljoin('http://www.baidu.com/about.html','https://pythonsite.com/FAQ.html?question=2'))
print(urljoin('http://www.baidu.com?wd=abc','https://pythonsite.com/index.php'))
print(urljoin('http://www.baidu.com','?category=2#comment'))
print(urljoin('www.baidu.com','?category=2#comment'))
print(urljoin('www.baidu.com','?category=2'))

http://www.baidu.com/FAQ.html
https://pythonsite.com/FAQ.html
https://pythonsite.com/FAQ.html
https://pythonsite.com/FAQ.html?question=2
https://pythonsite.com/index.php
http://www.baidu.com?category=2#comment
www.baidu.com?category=2#comment
www.baidu.com?category=2

拼接的時候後面的優先順序高於前面的url

urlencode  將字典轉換為url引數

from urllib.parse import urlencode
params = {
    'name':'flee',
    'age':21
}
base_url = 'http://www.baidu.com?'
url = base_url+urlencode(params)
print(url)

http://www.baidu.com?name=flee&age=21