1. 程式人生 > >小白python爬蟲之路——初識爬蟲原理

小白python爬蟲之路——初識爬蟲原理

接收 gpo 手動 url 循環調用 bsp 互聯 程序 res

爬蟲主要做兩件事

①模擬計算機對服務器發起Request請求

②接收服務器端的Response內容並解析,提取所需的信息

互聯網頁面錯綜復雜,一次請求不能獲取全部信息。就需要設計爬蟲的流程。

本書主要介紹兩種流暢①多頁面爬蟲流程②跨頁面爬蟲流程

多頁面爬蟲流程:

(1)手動翻頁並觀察各頁面的URL構成特點,構造出所有頁面的URL存入列表

(2)根據URL列表依次循環取出URL

(3)定義爬蟲函數

(4)循環調用爬蟲函數,存儲數據。

(5)循環結束,結束爬蟲程序。

跨頁面的爬蟲程序:

(1)定義爬取函數爬取頁面中(列表頁)的專題URL

(2)將專題URL存入列表中作為種子URL

(3)定義爬蟲函數

(4)根據種子URL循環調用爬蟲函數,存儲數據。

(5)循環結束,結束爬蟲程序。

兩種流程區別:自己構造URL列表,爬取頁面URL列表

小白python爬蟲之路——初識爬蟲原理