1. 程式人生 > >零基礎入門Python爬蟲(一)

零基礎入門Python爬蟲(一)

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

閱讀本篇大概需要 4 分鐘。

前言

很多人都或多或少聽說過 Python 爬蟲,我也一直很感興趣,所以也花了一個下午入門了一下輕量級的爬蟲。為啥是輕量級的爬蟲呢,因為有的網頁是比較複雜的,比如需要驗證碼、登入驗證或者需要證書才能訪問,我們瞭解爬蟲的概念和架構,只需要做一些簡單的爬取工作即可,比如爬取百度百科這種純資訊展示的網頁,這些都是不需要登入的靜態網頁。即便再複雜的爬蟲網頁和爬蟲框架,實際上都離不開這一套基本的爬蟲架構。

爬蟲簡介

爬蟲是一段自動抓取網際網路資訊的程式。每個網頁都有一個URL,從一個網頁入口開始,通過各種URL的跳轉形成一個相互指向的關係,最終可以形成一種網狀結構,這就是網際網路。理論上來說,一個龐大的網頁專案,從入口開始,總能通過某種跳轉路徑到達專案系統中的任何一個網頁,當我們人工的從網頁上獲取資訊的時候,只能跟著步驟,一步一步的點選跳轉,最終獲取到我們希望得到的資訊。

比如典型的,我昨天想領養一隻貓咪,我先點開同城網站,然後找到寵物分類,再找到貓咪分類,再選擇一些條目,比如是領養而不是購買,年齡在半歲以下,狸花貓等等這些特性,最後點選搜尋,網頁給了我具體的條目列表,我通過人工的方式,獲取了我想要的資訊。雖然定位精準,但不免很浪費人力時間。

而爬蟲就是一個這樣的自動程式,我們設定好我們需要的主題和目標,比如「貓咪」、「6個月」等標籤,爬蟲會從某個特定URL入手,自動的訪問它所關聯的URL,並且提取出我們需要的資料。可以說爬蟲就是自動訪問網際網路,並且提取價值資料的程式。

爬蟲的價值就在於此,可以獲取將網際網路上巨量的資料都為我所用,有了這些資料,我們就可以進行學習和分析,或者利用資料做出相關的產品。

爬取 GitHub 中一天瀏覽量和 star 提升數最高的專案,有了這個資料,就可以做出一個 GitHub 開源專案推薦的專案。

現在各大網站的歌曲都有版權保護,下載歌曲不太方便,可以通過歌曲名字,爬取網上所有免費下載連結,這樣就可以輕易做出一個歌曲搜尋下載的聚類工具。

可以說,只要有資料,沒有做不到的,只有你想不到的,資料就在放在網際網路上,通過爬蟲我們可以讓資料發揮更大的作用和價值,在大資料時代,爬蟲毋庸置疑是一門一線技術。

爬蟲基本架構

我們先來看一下簡單的爬蟲架構圖

0?wx_fmt=jpeg

首先我們需要一個爬蟲排程端來啟動和停止爬蟲,同時也要通過它來監視爬蟲的狀態,並通過它提供介面來作具體的資料應用。這個部分不屬於爬蟲本身。

圖中陰影方框中的部分就是我們爬蟲程式。因為有的頁面的入口有很多,我們可以通過不同的URL排程路徑來訪問這個介面,那麼作為一個智慧的爬蟲軟體,當遇到我們已經爬取過的URL的時候,應該選擇過濾,而不是再次爬取。URL管理器就是用來儲存已經爬取URL和將要爬取URL的工具的。

從URL管理器中選擇一個待爬取的URL,將其傳送給網頁下載器,下載器會把網頁以字串的形式下載下來,並把這個字串交給網頁解析器去解析,網頁解析器一方面會把你需要獲取的價值資訊提取出來歸還給排程器,另一方面,如果遇到該網頁有新的URL待爬取,就會把這個URL傳送給URL管理器。從此,這三個模組進行迴圈,直到該網頁相關的所有URL都爬取完畢。

更加清晰的動態執行流程,可以用一個時序圖來表示。大家可以對照著上面的步驟理解下。

0?wx_fmt=jpeg

題外話,時序圖是我最喜歡的一種幫助梳理邏輯的圖,大家可以學習一下,在工作和學習過程中會幫助很大~

最近在後臺很多同學問我,我現在也是在學習Python,到底應該是學2還是學3呢,其實這個問題我在往期的歷史文章已經有過分享,但是就最近的情況,我覺得應該有必要再講一下:

看到很多新同學在學習Python的過程中,猶豫學習Python 2還是學習Python 3而遲遲不行動,白白地浪費了大把時間,錯過了升職加薪的機會,我真心覺得非常遺憾。所以,我忍不住想對大家粗暴一次,給大家一個粗暴而又正確的答案:

應該學習Python 2還是Python 3?

都要學!

這個答案可能很出乎意料,也很容易反駁,例如:

  • Python 3 才是Python的未來

  • Python 官方都建議指直接學習Python 3

  • Python 2 只維護到2020年

真的是這樣嗎?作為一個還在一線網際網路公司奮鬥的技術專家,也是一個多年的Python老手,大家不妨來看看我這麼說的理由。

為什麼還要學習Python 2

Python 2只維護到2020年不應該成為你拒絕Python 2的理由

所有糾結學習Python 2還是Python 3的朋友都知道,按照Python官方的計劃,Python 2只支援到2020年。可能大家接觸Python的時間還不長,不知道Python官方曾經還說過,Python 2只支援到2015年(https://github.com/python/peps/blob/master/pep-0373.txt)。所以,大家可以看到,跳票不是中國人的特權,Python官方也是會跳票的。

如果大家關注科技新聞的話,會注意到,就在前幾天,微軟剛宣佈將在2020年對Win 7停止任何技術支援,之後即使遇到BUG和安全問題,他們也不會再修復,就像現在的XP一樣。但是,大家看看我們周圍的同事、朋友、親戚,到底是用Win 7的多還是用Win 10的多?這些用Win 7的人有吵著說我要升級Windows的嗎?用Win 10的人有吵著讓用Win 7的人升級嗎?

但是,在Python這個圈子,就是有很多人吵著要讓別人升級Python 3。很多時候使用者並不關心自己用的是Python 2還是Python 3,只要能用就行。所以,用Python 2的人並沒有什麼動力去升級到Python 3。

如果你覺得,Python 3才是Python的未來,不希望接觸Python 2的專案。那麼,問題來了,女神跟你說,晚上來我家給我修下電腦唄,但是我的電腦是Windows XP的,你是去還是不去?

Python官方建議學習Python 3只是一種一廂情願的行為

我們來看一下Python 2和Python 3的下載統計資料(http://www.randalolson.com/2016/09/03/python-2-7-still-reigns-supreme-in-pip-installs/):

0?wx_fmt=jpeg

Python 2的使用量遠遠超過Python 3。而且,大家注意豎軸的單位,是指數!簡單換算一下就知道,僅從下載量來說,Python 2.7的下載量是總下載量的90%!所以,學習Python,想直接拋棄Python 2學習Python 3,幾乎是不可能的事情。

上面的資料是全球範圍的統計資料,我們來看看中國網際網路的情況。為了寫這篇文章,我專門在同學群裡面發了紅包,邀請了來自百度、阿里、騰訊、網易、美團、華為、招行、建行、eBay、美圖、Oracle等公司的一線技術專家,統計了各大公司使用Python的情況。

統計資料如下:

  • 10% 使用 Python 3

  • 20% 既使用Python 2也使用Python 3,Python 2用的更多

  • 70% 使用Python 2

統計資料基本與pypi的全球範圍的統計資料吻合。所以,如果你說,我一開始學的就是Python 3,Python 3也是Python的未來,我不想去了解和學習Python 2。那麼,你可能要和大半個中國網際網路失之交臂了。或許你也不在乎,但是,如果有人拿錢砸你讓你維護Python 2的程式碼呢?

Python 2還會存在很長一段時間

不知道大家有沒有想過,為什麼Python官方極力讓大家使用Python 3,而Python 2依然處於統治地位呢?

其實答案很簡單也很粗暴:因為絕大多數人,你給他什麼,他就用什麼。據我說知,儘管Python 3在2008年12月就已經發布了,但是,目前Python 3仍然不是任何作業系統的預設Python直譯器,這是Python 3使用不廣泛的主要原因。

我們都知道,在任何一家公司,升級伺服器的作業系統版本都是一個很慎重事情。所以,我們有理由相信,Python 2還會存在很長一段時間。很長是多長呢?至少比2020年還要長。

這個世界並不是非黑即白的,Python也不是

有了前面的資料做支撐,我們不是應該學習Python 2嗎,為什麼Python 2和Python 3都要學呢?

首先,這個世界並不是非黑即白的,Python也不是。在學習Python 2和學習Python 3中間,其實有一個很好的平衡,那就是同時相容Python 2和Python 3。為了做到同時相容Python 2和Python 3,需要深用到Python的

__future__

庫。

__future__

庫裡面包含了不少從Python 3 backport 到Python 2的特性,充分使用

__future__

庫,可以很好的相容Python 2和Python 3。

其次,Python 2和Python 3確實有一些差異,但是,並沒有大家想象的那麼大,Python 2和Python 3之間的差異不到Python語法的10%,我們可以快速地瞭解哪些Python 2裡面的語法在Python 3中已經被棄用,在我們寫程式碼的過程中,規避掉這一部分語法即可。在Python的最佳實踐中,Python 3裡棄用的Python語法,在Python 2裡面也不推薦使用,不然也不會被棄用了。如果你知道並堅持Python的最佳實踐,那麼,對你來說,Python 2和Python 3的差異就更小了。

最後,我們可以參考優秀的開源軟體的做法,如OpenStack,努力做到程式碼同時相容Python 2和Python 3(https://wiki.openstack.org/wiki/Python3),也可以藉助一些開軟的庫(如six)來同時相容。如果能夠做到同時相容Python 2和Python 3,我們的使用者將更廣泛,我們的程式碼也將更有價值。

stop talking, just do it

前面說了我對學習Python 2還是Python 3的一些觀點,希望能夠幫助大家少走彎路,另外,關於Python的版本問題,我這裡還有一些良心建議:

  • 學習Python前,先了解在Python 3裡面已經棄用的Python 2語法,對這些部分簡單帶過不要花太多時間

  • 使用Python 2,不要使用Python 2.7以前的版本

  • 使用Python 3,不要使用Python 3.4以前的版本

  • 多瞭解Python 2的

    __future__

  • 對同一份程式碼,不要為Python 2和Python 3分別維護分支,努力在一套程式碼中相容Python 2和Python 3

這篇文章詳細的說明了為什麼要同時學習Python 2和Python 3,如何在Python 2和Python 3中找到一個平衡。但是,重要的不是糾結學習Python 3還是Python 2,而是“stop talking, just do it!”。新的一年,不妨給自己定個小目標吧,比如,在18年精通Python?

為你準備的Python學習交流群,和千人一起學習Python。

0?wx_fmt=jpeg