1. 程式人生 > >網路爬蟲(二)urllib包使用

網路爬蟲(二)urllib包使用

隨著網路的快速發展,全球資訊網成為了大量資訊的載體,如何有效地獲取那些對我們而言有用的資訊呢?一種可行的工具就是網路爬蟲。

網路爬蟲

可以把全球資訊網想象成一張“蜘蛛網”, 全球資訊網 我們日常訪問的京東百度土豆電影天堂等等網站都在這上面,網路爬蟲就像一隻蜘蛛,按照我們指定的規則在這張奇大無比的“蜘蛛網”上抓取資訊。

官方點的解釋就是: 網路爬蟲(又被稱為網頁蜘蛛,網路機器人),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。

舉個例子來說,有一天,當你看到: 電影天堂

覺得好多電影都不錯,於是決定全都下載下來。仔細一看才發現,竟然有三十部,而每部電影都要點選進入,檢視下載地址, 黑豹

然後就是複製地址進行下載……如此重複三十遍。

很麻煩呀!有沒有簡單的方法呀?當然有,用網路爬蟲就行啦,我們可以讓爬蟲提取每部電影的下載地址(這就是我們當前指定的規則),然後自己開啟迅雷(個人喜好)下載……

那麼,具體怎麼做呢?不著急,讓我們先學點基礎知識。