python爬蟲學習筆記二：Requests庫詳解及HTTP協議

阿新 • • 發佈：2018-11-19

Requests庫的安裝：https://mp.csdn.net/postedit/83715574

r=requests.get(url,params=None,**kwargs)

這個r是Response物件

url ：擬獲取頁面的url連結

params：url中的額外引數，字典或位元組流格式，可選

**kwargs：12個控制訪問的引數

Requests庫的2個重要物件

Requests庫的7個主要方法


方法	說明
requests.request()	構造一個請求，支撐一下各方法的基礎方法
requests.get()	獲取HTML網頁的主要方法，對應於HTTP的GET
requests.head()	獲取HTML網頁頭資訊的方法，對應於HTTP的HEAD
requests.post()	向HTML網頁提交POST請求的方法，對應於HTTP的POST
requests.put()	向HTML網頁提交PUT請求的方法，對應於HTTP的PUT
requests.patch()	向HTML網頁提交區域性修改請求，對應於HTTP的PATCH
requests.delete()	向HTML頁面提交刪除請求，對應於HTTP的DELETE

Response物件包含爬蟲返回的內容

Response物件屬性：

r.status_code HTTP請求的返回狀態，200表示連結成功，404表示失敗，返回不為200都是失敗的

r.text HTTP響應內容的字串形式，即url對應的頁面內容

r.encoding 從HTTP header中猜測的響應內容編碼方式

r.apparent_encoding 從內容中分析出響應內容編碼方式（備選編碼方式）

r.content HTTP響應內容的二進位制形式

理解Requests庫的異常

異常	說明
requests.ConnectionError	網路連線錯誤異常，如DNS查詢失敗、拒絕連線等
requests.HTTPError	HTTP錯誤異常
requests.URLRequired	URL缺失異常
requests.TooManyRedirects	超過最大重定向次數，產生重定向異常
requests.ConnectTimeout	連線遠端伺服器超時異常
requests.Timeout	請求URL超時，產生超時異常

理解Response物件非常重要。

理解Requests庫的異常，通用程式碼框架：

r.raise_for_status() 如果不是200，產生異常requests.HTTPError ，用這個結合try catch可以丟擲異常，寫在try裡面，判斷網站的響應狀態，如果未響應丟擲異常，執行catch裡面的方法。

import requests
def getHTMLText(url)
    try:
        r=requests.get（url，timeout=30）
        r.raise_for_status()    #如果狀態不是200，引發HTTPError異常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "產生異常"
if _name_=="_main_"：
    url="http://www.baidu.com"
    print(getHTMLText(url))

HTTP協議

url格式：http://host[:port][path]

port：埠號，預設埠為80

path：請求資源的路徑

url是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源

HTTP協議對資源的操作

方法說明

GET 請求獲取URL位置的資源

HEAD 請求獲取URL位置資源的響應訊息報告，即獲取該資源的頭部資訊

POST 請求向URL位置的資源後附加新的資料

PUT 請求向URL位置儲存一個資源，覆蓋原URL位置的資源

PATCH 請求區域性更新URL位置的資源，即改變該處資源的部分內容

DELETE 請求刪除URL位置儲存的資源

理解PATCH和PUT的區別！

head和get是最常用到的！

python爬蟲學習筆記二：Requests庫詳解及HTTP協議

Requests庫的安裝：https://mp.csdn.net/postedit/83715574 r=requests.get(url,params=None,**kwargs) 這個r是Response物件 url ：擬獲取頁面的url連結 params：url中的額外引數

python爬蟲學習筆記1：requests庫及robots協議

The Website is the API requests庫 requests庫的7個主要方法 requests.request 構造一個請求 requests.request(method,url,[**kwarges]) me

Python3爬蟲學習筆記（2.Requests庫詳解)

Requests庫功能相比Urllib庫更強大，也許是自帶的如果沒有，cmd輸入pip install requests獲取即可例項： import requests response = r

python爬蟲學習筆記五：Re庫的介紹和使用

Re庫介紹 Re庫是Python的標準庫，主要用於字串匹配。呼叫方式： import re 正則表示式的表示型別 *raw string 型別（原生字串型別）： re庫採用raw string型別表示正則表示式，表示為：r'text' 例如：r'[1-9]\d{5}

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤，就可以很好的解析怎麼使用BeautifulSoup庫？ from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser'）例如： import

Python 爬蟲學習筆記二： xpath 模組

Python 爬蟲學習筆記二： xpath from lxml 首先應該知道的是xpath 只是一個元素選擇器，在python 的另外一個庫lxml 中，想要使用xpath 必須首先下載lxml 庫 lxml 庫的安裝：很簡單，具體請檢視 http:

python爬蟲學習實踐(一)：requests庫和正則表示式之淘寶爬蟲實戰

使用requests庫是需要安裝的，requests庫相比urllib 庫來說更高階方便一點，同時與scrapy相比較還是不夠強大，本文主要介紹利用requests庫和正則表示式完成一項簡單的爬蟲小專案----淘寶商品爬蟲。有關於更多requests庫的使用方法請參考：官方文件第一步：我們先開啟淘寶網頁然後搜

Python3爬蟲學習筆記（1.urllib庫詳解）

1.什麼是爬蟲：略，到處都有講解。雖然是入門，不過沒有Python基礎的同學看起來可能費勁，建議稍學下Python 之前學習前端知識也是為了能看懂HTML，便於爬蟲學習，建議瞭解下前端知識 2.re

Python3爬蟲學習筆記（4.BeautifulSoup庫詳解）

這是一個功能強大的庫，可以代替很多需要寫正則的地方這是一個第三方解析庫，常規安裝方法：調出cmd：pip install bs4 簡單瞭解： html = """ <html lang=

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

python網路爬蟲與資訊提取學習目錄： the website is the API Requests：自動爬取HTML頁面自動網路請求提交 robots.txt：網路爬蟲排除標準 Beautiful Soup：解析HTML頁面正則表示式詳解，提取頁面關鍵資訊Re

python爬蟲學習筆記6：正則表示式及re庫

正則表示式語法常用操作符 re庫 import re re庫的主要功能函式 re.search() re.search(pattern,string,f

python爬蟲學習筆記3：bs4及BeautifulSoup庫學習

Beuatiful Soup bs類對應一個HTML/xml文件的全部內容 from bs4 import BeautifulSoup import bs4 soup=BeautifulSoup('<p>data</p>','ht

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

hibernate框架學習筆記11：Criteria查詢詳解

code 關系 style 獲得排序 void 技術 private lap 創建實體類對象： package domain; import java.util.HashSet; import java.util.Set; //客戶實體 public class

linux初級學習筆記五：bash特性詳解！(視頻序號：03_2，3)

可執行文件文件名通配符內核引用完成 -c family man 文件本節學習的命令：history，alias，ualias，\CMD 本節學習的技能：　　　　　　 bash的特性　　　　　　光標跳轉　　　　　　查看命令歷史　　　　　　命令歷史的使用技巧　　

Python爬蟲學習筆記（二）——requests庫的使用

pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記準備工作 requests庫不是python自帶的庫，可以用pip安裝。在使用時導入requests即可。基本用法 GET請求 r = requests.get(url) print(r.tex

python爬蟲學習筆記——使用requests庫編寫爬蟲（1）

首先感謝http://python.jobbole.com ，我是看了此站的文章之後才有寫此文的想法，本人也是開始學python不久，此文僅僅是記錄一些學習過程中遇到的問題，邊學邊寫，初次寫這樣的博文，差錯在所難免，如有差錯也請指出，感激不盡。

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

【Python爬蟲學習筆記8-2】MongoDB數據庫操作詳解

參考資料 adding ocl 切換 username 詳解 top .com min 上一篇學習筆記8-1中介紹了MySQL和MongoDB的安裝、啟動和配置，本節我們接著學習有關MongoDB的一些概念、基本操作和在python中的使用。 MongoDB常用概念為更好

python爬蟲學習筆記二：Requests庫詳解及HTTP協議

Requests庫的7個主要方法

理解Requests庫的異常

HTTP協議對資源的操作

相關推薦