1. 程式人生 > >爬蟲的基本流程

爬蟲的基本流程

尊重 爬蟲 則表達式 形式 解析 headers 網頁解析 響應 進制

爬蟲的基本流程

1:發起請求

通過HTTP庫向目標站點發起請求,即發送一個request,請求可以包含額外的headers等信息等待服務器的響應

2: 獲取響應的內容

如果服務器能響應,會得到一個response,Response的內容便是所要獲得的野,頁面的內容,類型有

可能有HTML,Json字符串,二進制數據(如圖片視頻)等類型

3:解析內容

得到的內容可能是HTML,可以是正則表達式,網頁解析庫進行解析。可能是二進制數據,可以做保存或進一步的處理

4:保存數據

保存形式多樣,可以存為文本,也可以保存至數據庫,或者保存特定的格式的文件。

(請尊重知識,轉摘需經本人許可,並請註明出處)

爬蟲的基本流程