1. 程式人生 > >Python 網路爬蟲 004 (程式設計) 如何編寫一個網路爬蟲,來下載(或叫:爬取)一個站點裡的所有網頁

Python 網路爬蟲 004 (程式設計) 如何編寫一個網路爬蟲,來下載(或叫:爬取)一個站點裡的所有網頁

爬取目標站點裡所有的網頁

使用的系統:Windows 10 64位
Python語言版本:Python 3.5.0 V
使用的程式設計Python的整合開發環境:PyCharm 2016 04

一 . 首先你要知道如何編寫一個可以下載一個網頁的網路爬蟲

請見部落格:如何編寫一個可以 下載一個網頁 的網路爬蟲。

二 . 教你三種方法,來爬取目標站點中所有的網頁

方法一: 使用 目標站點的網路地圖檔案 來爬取裡面的所有連結的網頁。

方法二: 使用 網頁的ID索引號 來爬取一個站點子目錄下的所有網頁。

方法三: 使用 正則表示式 來爬取一個網頁裡面包含的所有連結網頁。