1. 程式人生 > >編寫第一個網路爬蟲

編寫第一個網路爬蟲

3 種爬取網站的常見方法:

  • 下載網頁

首先需要把網頁下載下來,使用Python 的urllib 2 模組下載URL。

不過這樣子的無法處理一些異常情況,如網頁不存在,可以加入異常處理機制。

有時候伺服器過載返回503 Service Unavailable錯誤是臨時性的,我們可以嘗試重新下載,並設定重試下載次數。

實驗結果。。。