爬蟲-相關庫知識整理(更新)

阿新 • • 發佈：2019-03-24

超文本 ram 可選 header 報告 exceptio ppa head 遠程

requests庫主要方法

import requests

requests.request(method, url, **kwargs)    """構造一個請求，支撐下面各種基礎方法"""
# **kwarg包括params, data, json, headers, cookies, auth, files, timeout, proxies(設代理服務器),
# allow_redirexts, stream, verify 12個訪問控制參數

requests.get(url, params=None, **kwargs)           """獲取html網頁的主要方法，對應HTTP的GET"""

requests.head(url, **kwargs)        """獲取html網頁頭信息的方法，對應HTTP的HEAD"""

requests.post(url, data=None, json=None, **kwargs)        """向html頁面提交POST請求"""

requests.put(url, data=None, **kwargs)          """向html頁面提交PUT請求"""

requests.patch(url, data=None, **kwargs)        """向html頁面提交局部修改請求"""

requests.delete(url, **kwargs)        """向html頁面提交刪除請求"""

1.requests.get(url, params=None, **kwargs)

　　　　url:你獲取頁面的url鏈接；

　　　　params：url中額外參數，字典或字節流格式，可選；

　　　　**kwargs：12個控制訪問的參數；

　　r = requests.get(url)返回一個包含服務器資源的Response對象r，r包含了爬蟲返回的全部內容。其中r有5中常用的屬性

r.status_code                """返回HTTP請求的狀態碼, 200表示成功，404表示失敗"""

r.text                            """HTTP響應內容的字符串形式，url對應頁面內容"""

r.encoding                     """從HTTP header中猜測的相應內容編碼方式"""

r.apparent_encoding       """從內容中分析出的響應內容編碼方式"""

r.content                        """HTTP響應內容的二進制形式"""

 
r.raise_for_status　　　　　　"""判斷狀態碼是否正確，如果不是200就raise HTTPException"""

2.requests庫的異常類型

requests.ConnectionError        """網絡連接異常，DNS查詢失敗，拒絕連接等"""

requests.HTTPError                 """HTTP連接錯誤"""

requests.URLRequired             """URL缺失異常"""

requests.TooManyRedirects      """超過最大重定向次數，產生重定向異常"""

requests.ConnectTimeout        """連接遠程服務器時超時"""

requests.Timeout                    """請求URL超時"""

　　通過以上兩點一般的爬取通用框架就可以大致勾畫出來

 1 import requests
 2 
 3 def getHTMLText(url):
 4     try:
 5         r = requests.get(url, timeout=30)
 6         r.raise_for_status()　　　　# 如果狀態碼錯誤，則拋出異常
 7         r.encoding = r.apparent_encoding
 8         return r.text
 9     except:
10         return "產生異常"
11 
12 if __name__ == "__main__":
13     url = "https://i.cnblogs.com/EditPosts.aspx?opt=1"
14     print(getHTMLText(url))

3.HTTP協議

超文本傳輸協議（HTTP）是一種基於”請求與響應“模式的、無狀態的應用層協議。HTTP協議一般采用URL作為網絡定位的標識。（http://host[:port][path]）

而URL就是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源。

HTTP協議對資源的操作方法(method)主要有：GET, HEAD, POST, PUT, PATCH, DELETE對應requests庫的幾個方法，功能也一致。

GET：請求獲得URL位置的資源；

HEAD：請求獲取URL位置資源的響應消息報告，即該資源的頭部信息

POST：請求向URL位置的資源後附加新的數據

PUT：請求向URL位置存儲一個資源，覆蓋原URL位置的資源

PATCH：請求局部更新URL位置的資源，改變該資源的部分內容

DELETE：請求刪除URL位置存儲的資源

爬蟲-相關庫知識整理(更新)

超文本 ram 可選 header 報告 exceptio ppa head 遠程 requests庫主要方法 import requests requests.request(method, url, **kwargs) """構造一個請求，支撐下面各種

python爬蟲相關庫的下載配置

BeautifulSoup4 : 解析HTML //安裝： pip install beautifulsoup4 lxml : 解析HTML 1.安裝lxml: pip install lxml 2.wheel下載找到lxml的位置，會看到一系列.wh

資料庫相關理論知識整理複習

什麼是DBMS？ Database Management System（DBMS）資料庫管理系統是一個為儲存和管理資料庫的軟體包。資料庫技術發展歷史（1）從資料模型的發展來看：無管理（60年代之前）：科學計算檔案系統：簡單的資料管理資料管

python爬蟲相關知識整理

1.徹底理解cookie,session,token 2.反爬蟲技巧 3.python（字元編碼）檔案以什麼編碼儲存的，就以什麼編碼方式開啟。而檔案編碼儲存時候使用的編碼方式是右下角的編碼方式，而解碼的時候是使用文件開頭申明的編碼方式，兩種編碼不同的時

javascript基礎知識整理（不定時更新）

nsh firefox 可用 splice mage true size -1 對數 1.js中真與假的定義：　　真：true，非零數字，非空字符串，非空對象　　假：false，數字零，空字符串，空對象（null），undefined 2.使用for循環對json進

JSON相關知識整理

數據帶寬逗號使用 t對象 n) 防止一個 ava JSON 全稱：JavaScript Object Notation ,一種輕量級的數據交換格式示例：{"name":"eric","age":24} {"first":{"name":"eric","

爬蟲相關知識（二）xpath

點名節點 style 路徑 name 相對路徑 span 名稱格式 #xpath表達式的基本格式 # 斜杠（/）作為路徑內部的分割符。 # 同一個節點有絕對路徑和相對路徑兩種寫法。 # 絕對路徑（absolute path）必須用"/"起首，後面緊跟根節點，比如

UBNT ex-r +netgear gs105e v2 +ap 設置vlan 步驟記錄及相關知識整理

style list read 地址 img net 重復 dns 進入設備連接：路由器ex-r的eth0 連接光貓撥號，eth3連接交換機gs105e，交換機gs105e的eth3連接無線ap 需求：路由器撥號上網，通過不同ssid的無線網絡可以連接不同vlan，且交

JS基礎知識整理（持續更新......

資料型別先宣告一些變數 var arr = [1,2,3]; var obj = {};

貝葉斯網路（belief network）及相關知識整理

貝葉斯網路（belief network）及相關知識頻率派：認為theta是個固定的未知常數。認為樣本是隨機的，重點研究樣本分佈貝葉斯派：認為theta是不確定的未知數。認為樣本是固定的，重點研究引數theta的分佈貝葉斯的思考方式不同於傳統“非黑即白，非0即1”的思考方

【Python3 爬蟲學習筆記】部署相關庫的安裝

如果想要大規模抓取資料，那麼一定會用到分散式爬蟲。對於分散式爬蟲來說，我們需要多臺主機，每臺主機有多個爬蟲任務，但是原始碼其實只有一份。對於Scrapy來說，它有一個擴充套件元件，叫作Scrapyd，我們只需要安裝該擴充套件元件，即可遠端管理Scrapy任務

Bitmap 優化與相關知識整理

Bitmap圖片佔用記憶體計算: Bitmap圖片在載入到記憶體的時候是按照：寬*高*畫素點位數來計算的。你可以把圖片看成是由width行、height列的矩陣組成，每一個矩陣元素代表一個畫素點，每一個畫素點都是1byte整數倍的資料，這個資料越大，表示的色彩就越豐富,圖片的顯示質量就越高。Bi

連結串列相關知識整理

標語：如果懼怕前面跌宕的山岩，生命永遠只能是死水一潭連結串列定義：連結串列是一種物理儲存單元上非連續、非順序的儲存結構，資料元素的邏輯順序是通過連結串列中的指標連結次序實現的。比較：陣列連結串列如何建立連結串列頭插法

Centos系統相關知識整理

1: man 線上查詢 man ls 2: ls 顯示本目錄下的檔案及目錄 ls -a 顯示本目錄下的所有檔案及目錄（包括隱藏目錄和檔案）ls -l 顯示本目錄下所有檔案的屬性ls -l | grep ^d 只顯示目錄名ls -l | grep ^f 只顯示檔名ls -G 以顏色

boost相關小知識(長期頂置更新)

2.boost throw_exception unresolved在專案中(windows VS環境)增加了一些boost庫，導致一個連結報錯，throw_exception unresolved (link error)可以修改vs的工程屬性，/EH 和 /GX屬性修改方法見：1.boost::nonco

python基礎知識整理5——類方法、靜態方法和繼承相關問題

類方法和靜態方法 method - 通過例項呼叫 - 可以引用類內部的任何屬性和方法 classmethod - 無需例項化 - 可以呼叫類屬性和類方法 - 無法取到普通的成員屬性和方法 staticmethod - 無需例項化 - 無法渠道類內部的任何

spring相關知識整理

一.spring ioc容器容器的功能：載入配置檔案中定義的bean，將所有bean 集中在一起（存在一個hashMap中），當有需求的時候分配bean（通過bean的去map 中get(key)）。 1.BeanFactory容器(最簡單) 1）適用於輕量級的應用程

【整理】【轉載】爬蟲相關

（1）抓取小說--轉 import requests import re from bs4 import BeautifulSoup if __name__=='__main__'

mongodb服務遷移相關知識整理

因為遷移專案中用到的mongodb這個資料庫。這裡整理一下。常用操作 show dbs; use 資料庫名： show collections; db.表名.find() db.表名.find().count() db.表名.find().limit(5);查看錶的前5條資料。

工業相機標定相關知識整理

相機標定內參和外參在影象測量過程以及機器視覺應用中，為確定空間物體表面某點的三維幾何位置與其在影象中對應點之間的相互關係，必須建立相機成像的幾何模型，這些幾何模型引數就是相機引數。在大多數條件下這些

爬蟲-相關庫知識整理(更新)

相關推薦