【爬蟲】Requests 庫的入門學習

阿新 • • 發佈：2018-12-20

此為北理嵩天老師mooc課程【網路爬蟲與資訊提取】的課程學習筆記。

1安裝 Requests 庫

使用命令列輸入：

pip install requests

或者：

python -m pip install requests

2 requests 的常用方法

方法名稱	說明
requests.request()	最基礎的，構造請求，支撐其他方法的使用
.get()	獲取 html 網頁的主要方法，對應GET
.head()	獲取html網頁頭資訊，對應HEAD
.post()	向html網頁提交post請求
.put()	向網頁提交PUT請求
.patch	向網頁提交區域性修改的請求
.delete()	向網頁提交刪除的請求

獲取資料可以使用head和get 傳送修改可以使用ppost、patch、put等方法。 patch 和 put的區別在於patch可以只提交需要更新的資料，而put需要將所有欄位資料重新提交，不更改的會被刪除。

get方法

構造向伺服器請求資源的requests物件，返回的的為response物件，包含各種資訊。

requests.get(url, params=None, **kwargs)

包含頁面連結、URL額外引數字典或位元組流格式、其他訪問控制可選引數。 Response 返回的常見屬性：非函式無（）

屬性名稱	說明
r.status_code	Http 請求的返回狀態，200成，404或其他為失敗。
r.text	Http相應內容的字串形式，url的頁面內容
r.encoding	從HTTP的header中猜測的內容編碼方式，一般不含中文
r.apparent_encoding	從內容中分析出相應內容的編碼方式，便於解析出中文
r.content	HTTP相應內容的二進位制形式

連線異常

常用的requests庫的異常，注意不是函式，無（）

異常內容	說明
requests.ConnectionError	網路連線異常，dns查詢失敗，伺服器防火牆拒絕連線
requests.HTTPError	Http錯誤異常
requests.URLRequired	URL缺失異常
requests.TooManyRedirects	使用者訪問url重定向次數過多
requests.ConnectTimeout	僅指與遠端伺服器連線時的超時異常
requests.Timeout	發起到獲得URL整個過程的超時異常

判斷返回的response型別的狀態是不是200，如果返回的不是200說明有錯誤，在程式中產生requests.HTTPError異常

r.raise_for_status()

爬取網頁的通用程式碼框架：

import requests
def getHTMLText(url):
    try:
        r = requests.get(url , timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "產生異常"

if __name__ == "__main__":
    url = "https://www.csdn.net/"
    print(getHTMLText(url))

【爬蟲】Requests 庫的入門學習

此為北理嵩天老師mooc課程【網路爬蟲與資訊提取】的課程學習筆記，附帶一些其他書籍部落格的資料。 1、安裝 Requests 庫使用命令列輸入： pip install requests 或者： python -m pip install requests 2

【爬蟲】Requests 庫的入門學習

此為北理嵩天老師mooc課程【網路爬蟲與資訊提取】的課程學習筆記。 1安裝 Requests 庫使用命令列輸入： pip install requests 或者： python -m pip install requests 2 requests 的常用

【Python爬蟲】Requests庫的安裝

comm AS imp pypi pan span douban OS host 1.按照普通的pip不能行，說find不能有位小傑控的大牛說了一句：換一個國內的更新源吧， pip install requests -i http://pypi.douban.com/si

【Python3網路爬蟲】 requests庫的使用

1.requests庫可以使Cookies,登陸驗證，代理設定更加簡單。一段程式碼，去對比urllib庫的使用：import requests r = requests.get('https://www

【04】蒙特卡洛樹入門學習筆記

alter ike cnblogs append 最大的有趣的控制理論空間 nod 蒙特卡洛樹學習筆記 1. 強化學習（RL）概念 ? 強化學習是機器學習中的一個領域，強調如何基於環境而行動，以取得最大化的預期利益。其靈感來源於心理學中的行為主義理論，即有機體如何

【python介面自動化-requests庫】【一】requests庫安裝

1.概念　　requests 是用Python語言編寫，基於 urllib，採用 Apache2 Licensed 開源協議的 HTTP 庫。它比 urllib 更加方便，可以節約我們大量的工作，完全滿足 HTTP 測試需求。 2.安裝　　2.1 通過pip安裝　　->開啟命令列，wind

【python接口自動化-requests庫】【一】requests庫安裝

col python blog http 技術 install python-re .org 自動化 1.概念　　requests 是用Python語言編寫，基於 urllib，采用 Apache2 Licensed 開源協議的 HTTP 庫。它比 urllib 更加方便

【總結整理】javascript基礎入門學習（慕課網學習）

節點 confirm pro remove prompt 例如 ref 存儲基礎入門 https://www.imooc.com/learn/36 註意: javascript作為一種腳本語言可以放在html頁面中任何位置，但是瀏覽器解釋html時是按先後順序的，所以前面

【爬蟲】002 python3 +beautifulsoup4 +requests 爬取靜態頁面

bgcolor img err 預覽政府 bold 技術貴的頁面元素實驗環境: win7 python3.5 bs4 0.0.1 requests 2.19 實驗日期：2018-08-07 爬取網站：http://www.xhsd.cn/ 現在的網站大多有復雜

python—【爬蟲】學習_2(正則表示式篇）_2(practice)

習題來源：hackerrank Matching Anything But a Newline(.的用法） answer ： regex_pattern = r"^(.{3}\.){3}.{3}$" Matching Digits &am

python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。 r標識代表後面是正則的語句二、正則表示式中常用的字元含義 1、普通字元和

python—【爬蟲】學習_1(基本知識篇）

首先介紹下urllib的用法 urllib提供了一系列用於操作URL的功能。常用的模組： urllib.request 請求模組 urllib.error 異常處理模組 urllib.parse url解析模組 request（） urllib的ruquest模組可以非常方便地

【資料售賣平臺】—— Vue2.0入門學習專案爬坑

前言：這個專案是我從零學習Vue2.0時用於練習基礎知識的入門專案，包含了Vue2.0幾乎所有專案都會用到的基礎功能，是新手用來練手的好專案，這裡溫故知新對功能點做一個總結。平臺首頁登入註冊

【python 爬蟲】BeautifulSoup4 庫的介紹使用

有部分內容為北理嵩天老師的爬蟲教程的個人學習筆記，結合其他部落格整理學習。前言：資訊標記形式 html是將聲音、影象、音訊嵌入到文字中，是Internet上的主要資訊組織、傳遞形式，通過預定義的標籤< >…</ >將不同型別的資訊組織起來。國際上標準的資訊標

python—【爬蟲】學習_3(異常處理）

1.URLError 首先解釋下URLError可能產生的原因：網路無連線，即本機無法上網連線不到特定的伺服器伺服器不存在在程式碼中，我們需要用try-except語句來包圍並捕獲相應的異常。 2.HTTPError HTTPError是URLErr

python—【爬蟲】學習_2(正則表示式篇）3.re模組函式的深入理解

1. re.complie() 作用：如果需要重複地使用某個正則表示式，那麼你可以先將該正則表示式編譯成模式物件。complie（）函式就幫助我們將正則表示式，編譯成為一個pattern物件。 2.re.search(pattern ,string) regex.search(strin

嵩天教授的Python網路爬蟲與資訊提取課程筆記——單元1. requests庫入門

本文目錄 Requests庫介紹 requests.get(url, params, **kwargs)方法及其他請求方法介紹 Response類屬性簡介 Reponse類中的encoding與app

【資源】100頁機器學習入門完整版，初學者必備！

【導讀】近日，作者Andriy Burkov放出了他撰寫的《The Hundred-Page Machine Learning Book》的這本書的最新版，只有100頁，目標是任何只要有基礎數學知識的人都能看懂的機器學習書籍。這本書的十一個章節最新版都已經在網站上公開，本書將涵蓋監督學習和非監督學習

【Python爬蟲】Requests 請求並讀寫、儲存到excel檔案中

爬取前程無憂職位資訊此次我們用簡單的爬蟲來展示如何把爬到提取出的資訊儲存的excel檔案中.（ps：首先你要安裝好模組openpyxl否則就點選右上角離開，百度搜素安裝.）選前程無憂的網頁作為案例是因為主編最近在看看工作的訊息，想想就順手寫了一個為方便尋找滿足自己要

【Python Gui】Tkinter 的入門學習

一、前面的話 Python 提供了多個圖形開發介面的庫，幾個常用 Python GUI 庫如下： Tkinter： Tkinter 模組(Tk 介面)是 Python 的標準 Tk GUI 工具包的介面 .Tk 和 Tkinter 可以在大多數的 Unix 平臺下使用

【爬蟲】Requests 庫的入門學習

1安裝 Requests 庫

2 requests 的常用方法

get方法

連線異常

相關推薦