1. 程式人生 > >用Python分分鐘爬取豆瓣本周口碑榜,就是有這麽秀!

用Python分分鐘爬取豆瓣本周口碑榜,就是有這麽秀!

再看 bsp 小夥伴 網址 cap 本周 提取 統一 ext

平常在生活中,不知道大家是怎麽找電影的,反正小編是通過電影本周口碑榜來找的,個人感覺通過這種方式找來的電影都挺不錯的。既然提到口碑榜,不如我們來爬下豆瓣電影本周口碑榜上的電影吧,怎麽爬嘞,當然是用我們的Python爬蟲啦!下面開始簡單的介紹如何寫爬蟲。

技術分享圖片

在寫爬蟲前,我們首先簡單明確兩點:

1. 爬蟲的網址;

2. 需要爬取的內容(數據)。

技術分享圖片

技術分享圖片

  1. 鼠標點擊需要爬取的數據,這裏我們點“看不見的客人”,如圖所示。
技術分享圖片

  1. 看到大紅色框框裏的東西,是不是和我們最“重要”的代碼有很多相似的地方。
  2. 再看來最後一行代碼中最“重要”的部分。
  3. ‘//td[@class=”title”]//a/text()’
  • //td :這個相當於指定是大目錄;
  • [@class=”title”]:這個相當於指定的小目錄;
  • //a :這個相當於最小的目錄;
  • /text():這個是提取其中的數據。

爬蟲介紹結束,看完你也該試試手了。

試試爬“即將上映”

技術分享圖片

這個只需將最後一行代碼改成

result=tree.xpath(‘//li[@class="title"]//a/text()‘)1

如圖所示“即將上映”的電影就被你爬下來了。

是不是覺得爬蟲真的很簡單,已經完全學會了。然而現實中,爬蟲會面臨很多問題的,比如:

1. 頁面規則不統一;

2. 爬下來的數據處理;

3. 反爬蟲機制。

等等很多很多類似的各種問題,想要成為真的Python爬蟲大神,還是得一步一步來的,飯要一口一口吃的嘛!

技術分享圖片

以上就是本文的全部內容,希望對各位小夥伴們有所幫助!

寫在最後:

有想學Python或者對Python感興趣的老鐵,可以加群571799375,群裏有適合Python初學者學習的資料(2018最新版Python資料),免費送給大家!

本文來自網絡,如有侵權,請聯系小編刪除!

用Python分分鐘爬取豆瓣本周口碑榜,就是有這麽秀!