1. 程式人生 > >自學Python爬蟲(一)認識爬蟲

自學Python爬蟲(一)認識爬蟲

1、爬蟲的概念

這裡就不解析了,可自行百度 拋連結:
https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin

2、爬蟲的基本流程

2.1發起請求
通過HTTP庫向目標站點發起請求,即傳送一個Request,請求可以包含額外的headers等資訊,等待伺服器響應。
2.2獲取響應內容
如果伺服器能正常響應,會得到一個Response,Response的內容便是所要獲取的頁面內容,型別可能有HTML、JSON字串、二進位制資料(如圖片視訊)等型別。
2.3解析內容


得到的內容可能是HTML,可以用正則表示式、網頁解析庫進行解析,可能是Json,可以直接轉為Json物件解析,可能是二進位制檔案,可以做儲存或進一步的處理。
2.4儲存資料
儲存形式多樣,可以儲存為文字,也可以儲存至資料庫,或者儲存為特定格式的檔案。

3、Request

3.1請求方式
主要有GET、POST兩種型別,另外還有HEAD、PUT、DELETE、OPTIONS等。
3.2請求URL
URL全稱統一資源定位符,如一個網頁文件、一張圖片、一個視訊等都可以用URL來唯一確定。
3.3請求頭
包含請求時的頭部資訊,如User-Agent、Host、Cookies等資訊。
3.4請求體


請求時額外攜帶的資料,如表單提交時的表單資料。

4、Response

4.1響應狀態
有多種響應狀態,如200代表成功,301代表跳轉、404找不到頁面、502伺服器錯誤。
4.2響應頭
如內容型別、內容長度、伺服器資訊、設定Cookie等等。
4.3響應體
最主要的部分,包含了請求資源的內容、如網頁HTML、圖片、二進位制資料等。

5、解析方式

5.1直接處理
5.2Json解析
5.3正則表示式
5.4BeautifulSoup
5.5PyQuery
5.6XPath
**********************************我是華麗的分割線**********************************


接下來知識點部分將全部以程式碼的形式進行講解,重點內容基本上都會在註釋裡,具體實戰專案中的問題會在部落格裡講到,但更詳細的內容在原始碼註釋裡!