1. 程式人生 > >【Python爬蟲】Python安裝

【Python爬蟲】Python安裝

 pip 是一個現代的,通用的 Python 包管理工具。提供了對 Python 包的查詢、下載、安裝、解除安裝的功能。

 IDLE 是一個Python Shell,一個純 Python下自帶的簡潔的整合開發環境(IDE)。IDLE是跟Python一起安裝的,不過要確保安裝時選中了“Tcl/Tk”元件。

 

 

瀏覽器就是作為客戶端從伺服器端獲取資訊,然後將資訊解析,並展示給我們的。我們可以在本地修改HTML資訊,為網頁”整容”,但是我們修改的資訊不會回傳到伺服器,伺服器儲存的HTML資訊不會改變。重新整理一下介面,頁面還會回到原本的樣子。

1.審查元素

在瀏覽器的位址列輸入URL地址,在網頁處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,Chrome瀏覽器叫做檢查,Firefox瀏覽器叫做檢視元素,但是功能都是相同的)。

我們在頁面的哪個位置點選審查元素,瀏覽器就會為我們定位到相應的HTML位置,進而就可以在本地更改HTML資訊。

 

 

 

2.獲取整個網頁HTML資訊

爬蟲的第一步,獲取整個網頁的HTML資訊,我們已經完成。

 

3.解析HTML提取感興趣內容

接下來就是爬蟲的第二步,解析HTML資訊,提取我們感興趣的內容。

 

 

 

 

參考文件:

Python3網路爬蟲快速入門實戰解析

18個Python爬蟲實戰案例(已開源)

開源爬蟲框架各有什麼優缺點