【Python3網路爬蟲】 requests庫的使用

阿新 • • 發佈：2019-02-07

1.requests庫可以使Cookies,登陸驗證，代理設定更加簡單。

一段程式碼，去對比urllib庫的使用：

import requests
r = requests.get('https://wwww.baidu.com')
print(type(r))
print(r.status_code)
print(type(r.text))
print(r.cookies)

這些可以體現在請求上的相對整潔與直白類似的POST請求與PUT還有DELETE都是直接使用對應的方法。

2.GET請求

import requests
r = requests.get('http://httpbin.org/get')
print(r.text

網頁返回型別是str型別，但是它很特殊，是JSON格式，所以如果想解析返回結果，得到一個字典格式的話，可以直接呼叫json()方法。

但是如果返回結果不是JSON格式，便會出現解析錯誤，丟擲json.decoder.JSONDecodeError異常。

抓取網頁配合正則表示式就可以提取想要的網頁了但是在抓取知乎一樣的話一定要新增headers 不然會被拒絕訪問

抓取二進位制資料圖片、音訊、視訊這些檔案的本質就是二進位制碼組成、由於特定的儲存格式和對應的解析方式，我們才可以看到形形色色的多媒體/所以要抓取二進位制資料就需要拿到他們的二進位制碼。

import requests

r = requests.get("http://gethub.com/favicon.ico")
with open('favicon','wb') as f:
    f.write(r.content)

這裡使用了open方法，它的第一個引數是檔名稱。第二個引數代表以二進位制的形式開啟，可以想檔案裡寫入二進位制資料。

3.POST請求

與GET請求的使用非常相似

4.響應

傳送請求後，得到的自然是響應。有很多對應的屬性和方法

高階用法

1.檔案上傳

我們知道requests可以模擬提交一些資料，假如網站上需要上傳檔案，我們也可以用它來實現。

import requests

files = {'file':open('favicon.ico','rb')}
r = requests.post('http://httpbin.org/post',files = files)
print(r.text)

上傳的檔案會在字典 file 鍵對應下是二進位制資料

2.Cookies

使用urllib庫處理過Cookies，寫法比較複雜，而使用requests，獲取和設定Cookies只需要簡單的的一步即可完成。

import requests

r = requests.get('https://www.baidu.com')
print(r.cookies)
for key value in r.cookies.items():
    print(key+'='+value)

這裡首先呼叫cookies屬性既可以成功獲取Cookies，可以發現它是RequestCookieJar型別

然後用items()方法將其轉化為元組組成列表，遍歷輸出每一Cookie的名稱和值，實現Cookie的遍歷解析。

當然我們可以直接用Cookie來維持登陸狀態，登陸的時候測試了一下教務線上。發現完全可以複製下Cookies然後在請求的時候新增到Headers中。

3.會話維持

在requests中，如果直接利用get()和post()等方法的卻可以做到模擬網頁的請求，但是實際上是相當於不同的會話，也可以說相當於你用了兩個瀏覽器打開了不同的頁面。

若想維持同一個會話。可以設定一樣的cookies但是會比較繁瑣，有一個新的利器Session物件。

示例：

import requests

requests.get('http://httpbin.org/cookies/set/number/123456789')
r = requests.get('http://httpbin.orh/cookies')
print(r.text)

這樣並不能獲取到設定的cookies

import requests

s = requests.Session()
s.get('http://httpbin.org/cookies/set/number/123456789')
r = s.get('http://httpbin.org/cookies')
print(r.text)

成功獲取

所以Session可以做到模擬同一個會話而不用擔心Cookies的問題，它通常用於模擬登陸成功之後再進行下一步的操作。

Session在平常用得非常廣泛，可以用於模擬在一個瀏覽器中開啟同一站點的不同頁面，後面會有專門的章節來講解這部分內容。

4.SSL證書驗證

此外，requests還提供了證書驗證的功能。當傳送HTTP請求的時候，它會檢查SSL證書，我們可以使用verify引數控制是否檢查此證書。其實如果不加verify引數的話。預設是True ，會自動驗證。

前面我們提到過，12306證書沒有被官方CA機構信任，會出現證書驗證錯誤的結果，我們現在訪問它都可以看到一個證書問題的頁面。

import requests
response = requests.get('https://www.12306.cn',verify = False)
print(response.status_code)

可以發現報了一個警告，它建議我們給它指定證書。可以通過設定忽略警告的方式來遮蔽警告。

import requests
from requests.packages import urllib3

urllib3.disable_warnings()
response = requests.get('https://www.12306.cn',verify = False)
print(response.status_code)

或者通過捕獲警告到日誌的方式忽略警告：

import requests
import logging

logging.captureWarnings(True)
response = requests.get('http://www.12306.cn',verify = False)
print(response.status_code)

當然我們也可以指定一個本地證書用作客戶端證書，這可以是單個檔案（包含金鑰和證書）或一個包含兩個檔案路徑的元組：

import requests
response = requests.get('https://12306.cn',cert=('/path/server.crt','/path/key'))
print(response.status_code)

當然上面的程式碼是演示例項，我們需要crt和key檔案，並且指定它們的路徑。注意，本地私有證書必須是解密狀態，加密狀態的key是不支援的。

5.代理設定

大規模爬取的時候，很多網站可能會彈出驗證碼，或者跳轉到登陸頁面，更有甚者會直接封禁客戶端的IP，導致一定時間段內無法訪問。

為了防止這種情況的發生就需要設定代理來解決這個問題，這就需要用到代理來解決這個問題，這就需要用到proxies引數。

可以使用這樣的方式設定：

import requests

proxies = {
    "http":"http://10.10.1.10:3128",
    "https":"http://10.10.1.10:1080"
 }
requests.get("https://www.taobao.com",proxies = proxies)

當然直接執行這個例項可能無效，因為這個代理可能是無效的，要換成有效的代理，才可以得到。

若代理需要使用HTTP Basic Auth 可以使用類似http://user:[email protected]:port這樣的語法來設定代理。

示例：

import requests
proxies = {
    "http":"http://user:[email protected]:3128"
    
}
requests.get("https://www.taobao.com",proxies = proxies)

除了基本的HTTP代理外，requests還支援SOCKS協議的代理，示例如下：

import requests

proxies = {
    'http':'socks://user:[email protected]:port',
    'https':'socks://user:[email protected]:port'
 }
requests.get("https://www.taobao.com",proxies = proxies)

6.超時設定

和urllib庫裡的設定類似，但是在超時設定中。實際上timeout是可以分為兩個階段的，一個是連線（connect），一個是讀取（read）,可以傳入到一個元組中。如果想永久等待們可以選擇不設定或者將timeout設定為None.

7.身份認證

在訪問網站的時候。可能會出現認證頁面。此時可以使用requests自帶的身份認證功能。示例如下：

import requests
from requests.auth import HTTPBasicAuth

r = requests.get('http://localhost:5000',auth=HTTPBasicAuth('username','password'))
print(r.status_code)

如果認證成功，則會返回200狀態碼，如果認證失敗，則返回401狀態碼。

當然如果引數都傳入一個HTTPBasicAuth類，就顯得有點煩瑣了，所以requests提供了一個更加簡單的寫法，可以直接傳入一個元組，它會預設使用HTTPBasicAuth這個類來認證。

所以上面的程式碼可以簡寫為：

import requests

r = requests.get('http://localhost:5000',auth=('username','password'))
print(r.status_code)

此外，requests還提供了其他認證方式，如OAuth認證，不過此時需要安裝oauth包。具體等我要用到的時候再去看吧。

8.Prepare Request（不是很懂具體是用來幹什麼的）

前面介紹urllib時，我們可以將請求表示為資料結構，其中各個引數都可以通過一個Request物件來表示。這在requests裡同樣可以做到，這個資料結構就叫Prepared Request 。

from requests import Request,Session

url = 'http://httpbin.org/post'
data = {
    'name'：'Zen'
 }
headers = {
    'User-Agent':' 超級牛逼的什麼什麼瀏覽器，我就不說了'
}
s = Session()
req  = Request('POST',url,data=data,headers = headers)
prepped = s.prepare_request(req)
r = s.send(prepped)
print(r.text)

這裡我們引入了Request ,然後用url、data、headers引數構造了一個Request物件，這時需要再呼叫Session的prepare_request()方法將其轉換為一個Prepared Request物件，然後呼叫send()方法傳送即可。

有了Request這個物件，就可以將請求當作獨立的物件來看待，這樣在進行佇列排程時會非常方便。

requests庫相比urllib庫的話，就方便直白很多了。

【Python3網路爬蟲】 requests庫的使用

【Python3網路爬蟲】 requests庫的使用

【Python爬蟲】Requests庫的安裝

【爬蟲】Requests 庫的入門學習

【爬蟲】Requests 庫的入門學習

【轉載】【python3.x爬蟲】設定IP代理

Python網路爬蟲之requests庫Scrapy爬蟲比較

Python3網路爬蟲：requests+mongodb+wordcloud 爬取豆瓣影評並生成詞雲

Python3網路爬蟲：requests爬取動態網頁內容

【Python網路爬蟲】Python維基百科網頁抓取（BeautifulSoup+Urllib2）

【Pyhton網路爬蟲】網路請求使用的urllib模組

【筆記】3、初學python3網路爬蟲——urllib庫的使用

Python3網路爬蟲開發實戰】3-基本庫的使用 2-使用requests 1-基本用法

Python3 解決中文亂碼 requests庫中文亂碼問題【別的部落格好多都是都是然並卵的教程】

【筆記】5、初學python3網路爬蟲——正則表示式的基本使用

【專欄】- Python3網路爬蟲入門

【網路爬蟲】：Python：url基礎：urllib

urllib庫的學習總結（python3網路爬蟲開發實戰專案）

解析庫使用（xPath）〈Python3網路爬蟲開發實戰〉

【python 爬蟲】BeautifulSoup4 庫的介紹使用

【python介面自動化-requests庫】【一】requests庫安裝

【Python3網路爬蟲】 requests庫的使用

相關推薦