1. 程式人生 > >【每天堅持學一點之python爬蟲】2、什麼是爬蟲

【每天堅持學一點之python爬蟲】2、什麼是爬蟲

【本文是《python3網路爬蟲開發實戰》一書的學習筆記,原書作者崔慶才】

1、個人理解

    爬蟲就是從網路上獲取資訊並儲存展示的一種自動化的程式,而非人工搜尋。例如各大搜索引擎就是網路爬蟲的應用。

 

2、爬蟲分類

    從用途上來分類的話可分為兩類,通用爬蟲和聚焦爬蟲。

    通用爬蟲,就是無差別搜尋資料,獲取並存儲,搜尋引擎就是屬於這一類。

    聚焦爬蟲,有針對性的,針對某一特定領域,比如說蒐集房產行情,股市行情等等,針對某些特定主題資料採集進行編寫的爬蟲。

 

3、流程

     a、獲取網頁,爬蟲爬取資訊第一步就是獲取網頁,也就是網頁的原始碼。也就是在http基本原理中所說的向一個URL發起請求,伺服器成功對你返回的響應,就是網頁的原始碼。

    b、提取資訊,爬蟲獲取了網頁之後就要從網頁原始碼中提取出對自己有用的資訊,比如說一個表格,幾張圖片,幾段文字等等。提取資訊是爬蟲工作流程中最重要的環節。

    c、儲存資訊,爬蟲提取到了我們需要的資訊之後就要將資訊進行儲存,以便我們後續使用這些資訊。儲存的形式,從最簡單的txt,json到資料庫,甚至是遠端伺服器等等,都可以。

 

4、注意

    關於javascript渲染,現在很多網頁的原始碼和你實際看到的網頁內容可能不太一樣。因為使用了ajax等等技術,通過javascript渲染出來的網頁,而網頁的html原始碼可能只是一個空殼,只引用了某個js檔案。