python爬蟲之requests庫詳解（一，如何通過requests來獲得頁面資訊）

阿新 • • 發佈：2019-01-03

前言：

爬蟲的基礎是與網頁建立聯絡，而我們可以通過get和post兩種方式來建立連線，而我們可以通過引入urllib庫[在python3的環境下匯入的是urllib；而python2的環境下是urllib和urllib2]或者requests庫來實現,從程式的複雜度和可讀性考慮，requests庫顯然更能滿足程式設計師的需求，但是我沒有找到這個庫詳細的中文講解，這也是我寫這篇文章的原因。
文中可能有一些拓展知識，不喜歡可以略讀過去。

一，如何使用requests庫

1，首先我們需要匯入requests包：

import requests

2，然後我們可以通過get或者post（兩者有一定的區別，請根據自己的需求合理的選擇）來請求頁面：

req_1 = requests.get('https://m.weibo.cn/status/4278783500356969')
req_2 = requests.post('https://m.weibo.cn/status/4278783500356969')

A:這裡多說一下我們通過這兩個方式得到了什麼？

Now, we have a Response object called req_1/req_2. We can get all the information we need from this object.
#這是官方文件中給出的說明，我們得到的是一個物件，裡面包含了我們請求的頁面的程式碼（可以print出來看一下）及相關資訊，
#而我們可以通過'.'操作符來訪問這個物件內的資訊，在文末我會詳細的歸納出來【注1】.

B:再拓展一下我們對一個url還有哪些操作？

 req = requests.put('http://httpbin.org/put', data = {'key':'value'})
 req = requests.delete('http://httpbin.org/delete')
 req = requests.head('http://httpbin.org/get')
 req = requests.options('http://httpbin.org/get')

3，我們多數情況下還需要在請求中新增一些引數，如果你接觸過urllib的話，你就會驚歎於requests的方便：

A：先說一下如何將引數/表單，或者其它資訊新增到請求中

傳遞引數/表單：

get:

payload = {'key1': 'value1', 'key2': 'value2'}
req = requests.get('http://httpbin.org/get', params=payload)

這裡的value可以為一個列表

post:

yourData = {'key':'value'}
req = requests.post('http://httpbin.org/post', data=yourData)

#下面兩個例子是展示表單中可以有多種型別的值

#例1
payload_tuples = [('key1', 'value1'), ('key1', 'value2')]
r1 = requests.post('http://httpbin.org/post', data=payload_tuples)
payload_dict = {'key1': ['value1', 'value2']}
r2 = requests.post('http://httpbin.org/post', data=payload_dict)
print(r1.text)
{
  ...
  "form": {
    "key1": [
      "value1",
      "value2"
    ]
  },
  ...
}

#例二
r1.text == r2.text
True


#這個例子是說明表單的編碼的形式是多樣的，比如以json來傳遞

#寫法一
import json
url = 'https://api.github.com/some/endpoint'
payload = {'some': 'data'}
req = requests.post(url, data=json.dumps(payload))

#寫法二
url = 'https://api.github.com/some/endpoint'
payload = {'some': 'data'}
req = requests.post(url, json=payload)

傳遞header

get:

headers = {'user-agent': 'my-app/0.0.1'}
req = requests.get(url, headers=headers)

post:

header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
data = {'_xsrf': xsrf, 'email': '郵箱', 'password': '密碼',
        'remember_me': True}
session = requests.Session()
result = session.post('https://www.zhihu.com/login/email', headers=header, data=data) #這裡的result是一個json格式的字串，裡面包含了登入結果

傳遞cookies

get:

 url = 'http://httpbin.org/cookies'
 req = requests.get(url, cookies=dict(cookies_are='working'))

post:

import requests
r = requests.get(url1)  # 你第一次的url
headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding':'gzip, deflate, sdch',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Connection':'keep-alive',
    'Cache-Control':'no-cache',
    'Content-Length':'6',
    'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
    'Host':'www.mm131.com',
    'Pragma':'no-cache',
    'Origin':'http://www.mm131.com/xinggan/',
    'Upgrade-Insecure-Requests':'1',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36',
    'X-Requested-With':'XMLHttpRequest'
}  # headers的例子，看你的post的headers
headers['cookie'] = ';'.join([headers['cookie'], ['='.join(i) for i in r.cookies.items()]])
r = requests.post(url2, headers=headers, data=data)  # 你第二次的url

傳遞檔案

post:

#低階版：
url = 'http://httpbin.org/post'
files = {'file': open('report.xls', 'rb')}

req = requests.post(url, files=files)
req.text
{
  ...
  "files": {
    "file": "<censored...binary...data>"
  },
  ...
}

#進階版：
url = 'http://httpbin.org/post'
files = {'file': ('report.xls', open('report.xls', 'rb'), 'application/vnd.ms-excel', {'Expires': '0'})}

req = requests.post(url, files=files)
req.text
{
  ...
  "files": {
    "file": "<censored...binary...data>"
  },
  ...
}

#字串也可以上傳：
url = 'http://httpbin.org/post'
files = {'file': ('report.csv', 'some,data,to,send\nanother,row,to,send\n')}

req = requests.post(url, files=files)
req.text
{
  ...
  "files": {
    "file": "some,data,to,send\\nanother,row,to,send\\n"
  },
  ...
}

B：再拓展一下get和post的函式原型，可以讓大家對引數有一個更加全面的瞭解：

get:

def get(url, params=None, **kwargs):
    r"""Sends a GET request.

    :param url: URL for the new :class:`Request` object.
    :param params: (optional) Dictionary or bytes to be sent in the query string for the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response
    """

    kwargs.setdefault('allow_redirects', True)
    return request('get', url, params=params, **kwargs)

post:

def post(url, data=None, json=None, **kwargs):
    r"""Sends a POST request.

    :param url: URL for the new :class:`Request` object.
    :param data: (optional) Dictionary (will be form-encoded), bytes, or file-like object to send in the body of the :class:`Request`.
    :param json: (optional) json data to send in the body of the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response
    """

    return request('post', url, data=data, json=json, **kwargs)

C:然後拓展一個打印出添加了引數的之後的url的方法：

print(req.url)

D:我們需要注意的另一個事情是編碼問題：

你如果使用print(req.text)，那麼requests會自動幫你編碼來顯示結果（原檔案是以二進位制形式返回的，而urllib則需要手動編碼），如果你想改變編碼方式也很簡單：

req.encoding = 'ISO-8859-1'

而如果你想要得到一個二進位制的結果：

 req.content()

另外你如果想要一個json格式的結果：

req.json()
# ！一定要做異常的處理，很有可能請求的網頁與json不適配或者壓根請求就出問題

如果你想要一個未經過處理的response：

req = requests.get('https://api.github.com/events', stream=True)
req.raw
<urllib3.response.HTTPResponse object at 0x101194810>

req.raw.read(10)
'\x1f\x8b\x08\x00\x00\x00\x00\x00\x00\x03'

#當然，我們需要做一些異常的處理
with open(filename, 'wb') as fd:
    for chunk in r.iter_content(chunk_size=128):
        fd.write(chunk)

4.如果你需要獲取response的資訊的話：

req.headers
{
    'content-encoding': 'gzip',
    'transfer-encoding': 'chunked',
    'connection': 'close',
    'server': 'nginx/1.0.4',
    'x-runtime': '148ms',
    'etag': '"e1ca502697e5c9317743dc078f67693f"',
    'content-type': 'application/json'
}

req.headers['Content-Type']
'application/json'

req.headers.get('content-type')
'application/json'

5.如何取得cookies並使用：

#基本取出
>>> url = 'http://example.com/some/cookie/setting/url'
>>> r = requests.get(url)

>>> r.cookies['example_cookie_name']
'example_cookie_value'
#基本使用
>>> url = 'http://httpbin.org/cookies'
>>> cookies = dict(cookies_are='working')

>>> r = requests.get(url, cookies=cookies)
>>> r.text
'{"cookies": {"cookies_are": "working"}}'


#使用cookiesJar來完成兩個過程
>>> jar = requests.cookies.RequestsCookieJar()
>>> jar.set('tasty_cookie', 'yum', domain='httpbin.org', path='/cookies')
>>> jar.set('gross_cookie', 'blech', domain='httpbin.org', path='/elsewhere')
>>> url = 'http://httpbin.org/cookies'
>>> r = requests.get(url, cookies=jar)
>>> r.text
'{"cookies": {"tasty_cookie": "yum"}}'

6，其它內容（挖坑以後填）：

A:狀態碼

B:超時

C:異常和錯誤的處理

python爬蟲之requests庫詳解（一，如何通過requests來獲得頁面資訊）

前言：爬蟲的基礎是與網頁建立聯絡，而我們可以通過get和post兩種方式來建立連線，而我們可以通過引入urllib庫[在python3的環境下匯入的是urllib；而python2的環境下是urllib和urllib2]或者requests庫來實現,從程式的複雜度和可讀性

Python爬蟲系列-Urllib庫詳解

Urllib庫詳解 Python內建的Http請求庫: * urllib.request 請求模組 * urllib.error 異常處理模組 * urllib.parse url解析模組 * urllib.robotparser robots.txt解析模組 #### 相比在python2基礎上的變化

梳理Python 框架之中介軟體詳解（用途和機制）

什麼是中介軟體？中介軟體是一個Python程式設計師用來處理Django的請求和響應的框架級別的鉤子，它是一個輕量，低級別的外掛系統，用於全域性範圍內改變Django的輸入，輸出。每個中介軟體元件都負責做一些特定的功能。說的直白一點是中介軟體就是幫我們程式設計

Python安裝MySQL庫詳解（解決Microsoft Visual C++ 9.0 is required ）

前面我們介紹的Python網路爬蟲通常將抓取的資料儲存至TXT或CSV檔案，而當資料量增加之時，就需要將其儲存至本地資料庫了。Python訪問資料庫需要對應的介面程式，我們可以把介面程式理解為Pytho

Python C AP的使用詳解（一）

nds 項目 namespace 以及 int float 數據大小 mem else 簡介介紹一下Python虛擬機的初始化及退出，Python基本數據類型的對象創建以及C和Python之間的數據類型互相轉換。 Python虛擬機的初始化及退出初始化Python虛擬機

三維深度學習之pointnet系列詳解（一）

三維深度學習之pointnet系列詳解（一）置頂 2018年05月09日 23:25:06 痛並快樂著呦西閱讀數：4429 標籤： pointnet 三維深度學習更多個人分類： 3D Deep Learning

爬蟲資料提取方法詳解（一）

爬蟲中資料的分類：結構化資料（json,xml等）處理方式是直接轉化為python型別，jsonpath,xpath,bs4等. 非結構化資料（HTML）處理方式是正則表示式，xpath，bs4等. 資料提取

JDK中正則表示式類庫詳解（一）

二、以下是自己對正則表示式的一些理解。 [size=medium]1. 正則表示式規則1.1 普通字元字母、數字、漢字、下劃線、以及後邊章節中沒有特殊定義的標點符號，都是"普通字元"。表示式中的普通字元，在匹配一個字串的時候，匹配與之相同的一個字元。舉例1：表示式 "c"，在匹配字串 "

Android程式設計之DialogFragment原始碼詳解（一）

DialogFragment是Fragment家族成員之一，如果你把它簡單的理解成Dialog，那就錯了。它的確可以做作dialog顯示，還可以顯示出自己定義的Dialog或者AlertDialog，但它同時也是一個Fragment。按照官方的話來理解就是，你既可以把它當

跟我學Kafka之Controller控制器詳解（一）

我們的kafka原始碼分享已經進行過很多期了，主要的內容也都分享的差不多了，那麼那麼在今後的分享中，主要集中在kafka效能優化和使用 Kafka叢集中的其中一個Broker會被選舉為Controller，主要負責Partition管理和副本狀態管理，也會執行類似於重分配Partition之類的管理任務

MySQL之SQL優化詳解（一）

目錄慢查詢日誌 1. 慢查詢日誌開啟 2. 慢查詢日誌設定與檢視 3.日誌分析工具mysqldumpslow 序言：在我面試很多人的過程中，很多人談到S

Android OTA升級包製作指令碼詳解（一，引數解析）

寫在前面： “build/tools/releasetools/ota_from_target_files -u lk.bin -n target.zip update.zip”這是製作整包的命令，很顯然這裡支援lk升級。本系列博文主要對該命令的執行流程及原理進

python爬蟲學習筆記二：Requests庫詳解及HTTP協議

Requests庫的安裝：https://mp.csdn.net/postedit/83715574 r=requests.get(url,params=None,**kwargs) 這個r是Response物件 url ：擬獲取頁面的url連結 params：url中的額外引數

Python爬蟲系列-Requests庫詳解

Requests基於urllib，比urllib更加方便，可以節約我們大量的工作，完全滿足HTTP測試需求。例項引入 import requests response = requests.get('https://www.baidu.com/') print(type(response))

Python爬蟲之selenium庫使用詳解

Python爬蟲之selenium庫使用詳解什麼是Selenium selenium 是一套完整的web應用程式測試系統，包含了測試的錄製（selenium IDE）,編寫及執行（Selenium Remote Control）和測試的並行處理（Selenium Grid）。Seleni

Python3爬蟲學習筆記（2.Requests庫詳解)

Requests庫功能相比Urllib庫更強大，也許是自帶的如果沒有，cmd輸入pip install requests獲取即可例項： import requests response = r

python3 2018分散式爬蟲教程 -4 requests 庫詳解

2.requests 庫 2018分散式爬蟲視訊（崔慶才）+原始碼+電子書下載：https://download.csdn.net/download/qymufeng/10842007 安裝命令： pip install requests requests：基於 urllib，採⽤

STM32 之標準外設版USB驅動庫詳解（架構+檔案+函式+使用說明+示例程式）

寫在前面目前，ST的USB驅動有兩套，一套是早期的獨立版USB驅動，官方培訓文件中稱為Legacy library，最新版為2.2.0；一套為針對其Cube系列的驅動，根據晶片不同可能有區別，具體見對應晶片的Cube驅動包，官方培訓文件中稱為Cube li

Windows滲透利器之Pentest BOX使用詳解（一）

內存標簽配置 ram 添加概覽測試環境功能 ruby 內容概覽：知識科普優缺點總結功能參數詳解翻譯：控制臺參

豹哥嵌入式講堂：ARM Cortex-M開發之文件詳解（7）- 反匯編文件(.s/.lst/.dump)

work cfi text1 翻譯 memory 進制數補充就是 datatable 　　大家好，我是豹哥，獵豹的豹，犀利哥的哥。今天豹哥給大家講的是嵌入式開發裏的反匯編文件(.s, .lst, .dump)。　　豹哥在第四、五、六節課分別介紹了編譯器/鏈接器生成的

python爬蟲之requests庫詳解（一，如何通過requests來獲得頁面資訊）

前言：

一，如何使用requests庫

相關推薦