1. 程式人生 > >Python 爬蟲速成教程,還有35個實戰專案送給你

Python 爬蟲速成教程,還有35個實戰專案送給你

前兩天,有個小夥伴問了黑馬哥這樣一個問題:Python可以爬到視訊網站上vip才能看到的視訊嗎?聽到這個問題,你是什麼反應?我當時的內心:開玩笑,還有Python爬不到的東西嗎?

今天黑馬哥就給大家總結了一些Python爬取各種東西的案例,讓你看看Python到底有多強大,而且黑馬哥還給大家準備了原始碼或者是專案地址哦,是不是對我的愛又多了幾分。

既然要在網路上爬取資源,首先要了解下基本的爬蟲工作原理。

爬蟲是怎麼工作的?

想象你是一隻蜘蛛,現在你被放到了互聯“網”上。那麼,你需要把所有的網頁都看一遍。怎麼辦呢?沒問題呀,你就隨便從某個地方開始,比如說人民日報的首頁,這個叫initial pages,用$表示吧。

在人民日報的首頁,你看到那個頁面引向的各種連結。於是你很開心地從爬到了“國內新聞”那個頁面。太好了,這樣你就已經爬完了倆頁面(首頁和國內新聞)!暫且不用管爬下來的頁面怎麼處理的,你就想象你把這個頁面完完整整抄成了個html放到了你身上。

突然你發現, 在國內新聞這個頁面上,有一個連結鏈回“首頁”。作為一隻聰明的蜘蛛,你肯定知道你不用爬回去的吧,因為你已經看過了啊。所以,你需要用你的腦子,存下你已經看過的頁面地址。這樣,每次看到一個可能需要爬的新連結,你就先查查你腦子裡是不是已經去過這個頁面地址。如果去過,那就別去了。

  • 理論上如果所有的頁面可以從initial page達到的話,那麼可以證明你一定可以爬完所有的網頁。
  • 基本的http抓取工具,scrapy
  • 如果需要大規模網頁抓取,你需要學習分散式爬蟲的概念。
  • rq和Scrapy的結合:darkrho/scrapy-redis · GitHub
  • 後續處理,網頁析取 ( grangier/python-goose · GitHub),儲存(Mongodb)

今天的福利時刻

35個專案實戰:連結:https://pan.baidu.com/s/1htA3p3I 密碼:pt3r

黑馬哥還給大家準備了Python的Scrapy教程,其中包括:

http://yun.itheima.com/course/258.html?stt​yun.itheima.com

 

資料連結:https://pan.baidu.com/s/1eTSiguu 密碼:cb66

 

這個分享,小夥伴們是否滿意呢?滿意的話動一動小手吧。Thanks♪(・ω・)ノ