大資料時代，如何蒐集有效資料？

阿新 • • 發佈：2019-01-18

在上一篇文章《大資料時代，引數怎麼降維？》（傳送門）[1]中，小編從阿爾茲海默症成病機理出發，提到了如何對模型引數降維的問題。我們先來複（Yù）習（Xí）一下那張圖表：

經過復（Yù）習（Xí）後，這張圖似乎不再那麼催人入眠了！不僅如此，而且我們可以使用資訊幾何，這一自內而外散發著高格調的技術，達到引數降維的目的。正所謂——

一聲驚雷劃冬去，兩鳴鴻雁遊春來。

三月桃花映山紅，四處玉蘭擬雪白。

五味醇釀溫心海，六色晨光覆陰霾。

七刻餘暉寓暖陽，八方雲動照英才。

冬去春來，良辰美景，更何況突然有了解決難題的思路，心情大好，正該不醉不歸！但回頭仔細一想，讀者們會發現還有另一個大問題——資料從什麼地方得來呢？巧婦難為無米之炊，就算理論演算法再高屋建瓴天花亂墜，若沒有實驗資料的支援，那也無異於紙上談兵。大資料時代，資訊（資料）

的蒐集可是極其重要的。資訊（資料）通常來源於網路，而如何過濾掉無用的資料，提取有效成分，這也是公認的難題。下圖是一個例子：

提取有效資訊的過程

因此提取有效資料的關鍵在於準確地抓住資訊的特點，或者關鍵詞（keywords）。當我們把關鍵詞輸入到搜尋引擎（百度、谷歌等）後，這些搜尋引擎就會以一定的優先順序返回我們想要的資訊。那麼搜尋引擎是怎麼展開搜尋的呢？答案：網路爬蟲或者網路蜘蛛（web crawler或web spider，以下簡稱爬蟲）。

一、網頁的本質

網是靜態的，但爬蟲是動態的，所以爬蟲的基本思想就是沿著網頁（蜘蛛網的節點）上的連結的爬取有效資訊。當然網頁也有動態（一般用PHP或ASP等寫成，例如使用者登陸介面就是動態網頁）

的，但如果一張蛛網搖搖欲墜，蜘蛛會感到不那麼安穩，所以動態網頁的優先順序一般會被搜尋引擎排在靜態網頁的後面。

知道了爬蟲的基本思想，那麼具體如何操作呢？這得從網頁的基本概念說起（本文只討論靜態網頁）。一個網頁有三大構成要素，分別是html檔案、css檔案和JavaScript檔案。如果把一個網頁看做一棟房子，那麼html相當於房子外殼；css相當於地磚塗料，美化房子外觀內飾；JavaScript則相當於傢俱電器浴池等，增加房子的功能。從上述比喻可以看出，html才是網頁的根本，畢竟地磚顏料在市場上也有，傢俱電器都可以露天擺設，而房子外殼才是獨一無二的。

下面就是一個簡單網頁的例子：

而在爬蟲眼裡，這個網頁是這樣的：

因此網頁實質上就是超文字（hypertext），網頁上的所有內容都是在形如“<>...</>”這樣的標籤之內的。如果我們要蒐集網頁上的所有超連結，只需尋找所有標籤中前面是"href="的字串，並檢視提取出來的字串是否以"http"（超文字轉換協議，https表示安全的http協議）開頭即可。如果超連結不以"http"開頭，那麼該連結很可能是網頁所在的本地檔案或者ftp或smtp（檔案或郵件轉換協議），應該過濾掉。

二、爬蟲例項

既然知道了網頁的本質，相信讀者們已經躍躍欲試了。為了使讀者更好地理解爬蟲的工作原理，小編將用兩種方式編寫一個最簡單的爬蟲，用以獲取谷歌首頁上的所有超連結（以http://或https://開頭，過濾掉本地檔案），並把它們存到電子表格（Excel）中。

從第一節的分析可以看出，超連結出現在標籤"<a href="...">... </a>"中，所以我們只需要匹配關鍵詞"href="即可。考慮到python是最簡單且使用最廣泛的多用途語言，小編以python 3.6版本為例寫了如下爬蟲，詳細註解都在圖片中，有興趣的讀者可以親自嘗試，看看會出來什麼結果：

如果採用過程式編寫思路，程式碼還會更短一些。為圖簡單，小編沒有使用異常處理手段（Exceptional Handling，一般指try-exception語句，或者條件語句加flag值），這種語句可以用於檢查網路連結是否異常、蒐集檔案的過程是否成功甚至本地檔案讀寫是否正常等。這種手段常常被經常做計算機模擬的科研工作者忽視，以至於當小編把自己寫的程式和一些教授討論時，常常被評論說我的程式“很花哨，沒必要寫得像商業程式”。儘管這種手段並非必須，但經小編大量實踐後發現，當編寫的程式碼過長時，這種手段實則可以有效提高程式查錯（debug）的效率。尤其是在計算機模擬中，程式中的bug經常來自於記憶體錯誤（陣列長度溢位、指標錯誤等），若不採用異常處理手段，這種bug會非常棘手。就像戀愛中的少女一樣，因記憶體錯誤造成的程式崩潰可以發生在任意時刻任意地點，全由計算機的心情而定。

或許不瞭解程式設計讀者會表示異議：“這程式碼有足足32行，哪裡簡單了！”其實去掉空行和評論後也就21行，也不算太多。什麼，還嫌多？好吧，為了造福更多讀者，也為了讓大家感受一下21世紀之前的程式設計師前輩們是如何碼程式碼的，小編又用Unix的外殼指令碼（shell script）把這個爬蟲重新寫了一遍，並命名為"crawler.sh"。同樣，詳細註釋盡在圖中（這是所有Unix系統都有的emacs文件編輯器）：

從21行簡化到只有8行！執行後，得到的電子表格內容是這樣的：

如果經過了嘗試和對比，讀者可以發現使用外殼指令碼比python多蒐集了很多網址，而且還去掉了重複的連結。這是因為“wget”命令不僅蒐集了谷歌主頁面上的所有連結，而且直接把谷歌根目錄裡能訪問到的檔案全都爬了個遍。有了這一項技術，我們可以大大豐富電腦E盤中“三個代表重要思想”、“黨章黨規全集”和“日本現代史研究”等文件的內容，從而精神境界得到極大提高。

有經驗的讀者可能注意到了，小編明明用的是Windows系統的命令指示符（cmd），又沒有安裝虛擬機器，怎麼變成了Unix的外殼指令碼呢？從歷史角度來講，Unix和Windows完全是兩個不同派系，兩者理應是互不相容的。但事實上2015年自Win10釋出以後，微軟官方就宣佈Win10可以很簡易地安裝蘋果的終端（蘋果OS系統是Unix系統的一個分支，具體方式見文獻[2]或點選連結），並通過“bash”命令實現從cmd到蘋果終端的轉變，從此告別了Unix虛擬機器的時代！值得一提的是，vim文件編譯器可以在Windows下直接使用；emacs由於功能較多，需要輸入“sudo apt-get install emacs”命令來安裝。

值得一提的是，因為習慣原因，很多人根深蒂固地認為Windows系統更適合家用，Unix系統才適合程式設計師。其實時代一直在變化，微軟集團也在不斷地對Windows系統進行改進，一方面更好地相容Unix體系，另一方面則開發更為先進的外殼平臺。例如Powershell就是一個很好的例子。小編試著用過Powershell，它的一些語句和Unix外殼指令碼頗為類似，同時也支援物件的定義，而且還有和程式語言一樣的高度可讀性。只是對於習慣了Unix外殼的程式設計師而言，Powershell可能顯得不那麼熟悉。

回到爬蟲的話題。經過兩種方式的對比，我們可以發現外殼指令碼的巨大優勢——可以與計算機硬體直接交流，這就是為什麼程式除錯員往往對外殼指令碼（或組合語言）滾瓜爛熟的原因。當然作為多用途式的程式語言，python的其他優勢也不是外殼指令碼所具有的。在什麼場合使用何種語言，這個判斷十分重要。

三、守規矩的爬蟲才是好爬蟲

當一個爬蟲活動過於頻繁時，會造成網路交通堵塞，因此一些網站很反感陌生的爬蟲。怎麼樣限制陌生爬蟲的行為呢？答案就在目標網站根目錄的"robot.txt"檔案裡面，這個檔案規定了爬蟲應該遵守的條款。當正常的爬蟲開始爬取網頁資訊時，會首先檢查robot.txt的規定並且遵守它。例如百度的robot.txt是這樣的：

可見百度只允許少數幾個搜尋引擎訪問，所以直接用第二節的方法爬取百度首頁是會被拒絕的。如果確實有批量作業的必要，則應該把爬蟲的“User-agent”改為上述任一瀏覽器的字串，以模仿瀏覽器訪問的過程，並且限定爬蟲的活動頻率。

有的壞爬蟲（Bad bots）直接無視掉robot.txt裡的約束，肆無忌憚地爬取網頁資訊，不僅可能造成網路癱瘓，還會出現安全隱患。如何過濾掉這些爬蟲，是網路安全領域的一大課題，尤其是高階的爬蟲會使用分散式技術（多個客戶端分別爬取網頁，用以防止IP被查封）和抓取AJAX（用以模仿JavaScript以爬取動態網頁）等，這就使得反爬蟲的工作變得十分具有挑戰性。

把壞爬蟲抓出來。圖片源自網路

有趣的是，幾乎每個大型網站都會有對應的robot.txt，而這些檔案能在一定程度上反映出不同網站開發者的偏好。有興趣的讀者可以自行分析。

四、完整的搜尋引擎

搜尋引擎要做的當然不止普通爬蟲那麼簡單。讀者可以思考一下，當你在百度上輸入關鍵詞“謝雕英雄傳”時，搜尋出的結果會是“射鵰英雄傳”，怎麼做到的呢？顯然還需要文字和網頁的預處理（Preporcessing）。另一方面，能匹配關鍵詞的網頁太多了，總得有個先後次序吧。這就是網頁的排序（Ranking）問題[3]。

預處理通常有三個步驟，第一是把網頁中的文字編號（indexing），這樣匹配關鍵詞就變成了尋找編號的的問題；第二是關鍵詞溯源（stemming），例如去掉“的”、“我”和標點符號等不重要符號限制；第三是提取網頁中的關鍵資訊。要記住，瀏覽器眼中的網頁永遠都是一堆程式碼，所以需要過濾掉標籤符號、超連結和網頁排版佈局等冗雜資訊。

網頁排序的演算法有很多，不同瀏覽器使用的演算法也有不同，但核心都是一樣的——把網路看作有向圖（小編在《愛因斯坦vs阿爾法狗》[4]中提到過，這裡又出現了，傳送門在此）。網頁是有向圖的節點，如果網頁A上有指向網頁B的連結，那麼就形成了一條節點A到節點B的箭頭，有向圖就這麼被產生了。

可以看出，[4]中的神經網路其實只是網路的一個特例。如果一個網頁（節點）的連結出現在其他很多網頁上，說明這個網頁很受歡迎，理應得到較高的排名。事實上我們可以把這一過程用馬爾可夫鏈（Markov Chain）表示出來。以谷歌的PageRank演算法為例[5]：

由馬爾科夫鏈的遍歷性定理可知，當矩陣A滿足不可約和漸進無週期條件時（irreducible和aperiodic，也就是網路連通，且當經歷的連結夠多時兩個網頁的深度只相差1），以上關於向量P（把P看作向量，分量加起來為1）的方程一定存在穩定解。穩定解（或者收斂性）是計算工作者們的最愛，因為有了穩定解以後，就可以通過迭代演算法把這個穩定解找出來，從而得到網頁排序！

一帆風順的事並沒有那麼多，因為用上面這一方法定義出來的A未必不可約。這就是為什麼要額外加一項d，把右邊這個矩陣活生生地變得不可約。這就是PageRank演算法的精妙之處——看起來很簡單，但簡單的智慧往往可以創造出巨大的功效。這也是小編所希望追求的數學——簡單，但普適性很高。

PageRank大致效果。圖片源自網路。

當然，這只是最原始的PageRank演算法。由於不少網站利用這一演算法的特點，來千方百計增加自己的排名（例如把字型和網頁背景色設定為一樣的顏色以欺騙搜尋引擎），谷歌也不斷在更新自己的演算法，以達到精準和快速兩大目的。兩者之間的相互較量也構成了網路領域的另一個課題，即垃圾連結和垃圾郵件的清理。其中又有很多手段，在此不一一介紹了。

五、總結和其他

如果讀者能夠讀懂整篇文章，那麼恭喜，你已經大體掌握了網頁的本質、簡單爬蟲的實現和搜尋引擎的工作原理這三大網際網路基礎知識，可以準確地蒐集自己想要的資料了。比起滿目琳琅的資料處理和分析手段，資料的蒐集方式簡單粗暴，一學就會！

大資料時代，程式設計師可謂是十分吃香的行業，入門快且收入高，再多繁忙也可一筆勾銷。但不同於傳統學科，計算機語言的發展更新速度十分迅猛，同一種語言的不同版本都可能發生巨大的變化。例如小編在學習計算機系統的經典教材Computer Systems A programmer's Perspective（《深入理解計算機系統》）時，線上程控制（Thread Control）那一章花了不少時間，因為稍不注意就會發生記憶體崩潰。

相信通過這幅圖能找到不少同道中人

後來發現了mpi和openmp這兩個神奇的工具後，就再也沒用過"Ptheread_join"（加入執行緒）和"Ptheread_exit"（退出執行緒）這些老掉牙的命令。和細胞生物學類似（在小編另一篇文章《護膚與保養》[6]中提到過，傳送門在此），計算機語言也具有高度可變性，我們需要與時俱進，做好學習新知識的準備。

作為新時代的弄潮兒，生物和計算機領域的人才需求量是巨大的，這兩個學科之間交相輝映相輔相成，頗有幾分上個世紀數學和物理相互促進共同進步的味道。它們能給21世紀帶來怎樣的變革？我們在拭目以待的同時，也應當做好應對各種變化的準備。古詩云：

李杜詩篇萬口傳，至今已覺不新鮮。
江山代有才人出，各領風騷數百年。

古人尚有此等遠見，更何況這個沐浴在大資料海洋中，充滿了機遇與挑戰的時代？

如果喜歡筆者的文章，就長按下面的二維碼關注筆者的公眾號吧！

參考文獻：

[1] https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&lang=zh_CN&token=1564769556&type=10&appmsgid=100000224&isMul=1

[2] http://www.windowscentral.com/how-install-bash-shell-command-line-windows-10

[3] B. Liu, Exploring Hyperlinks, Contents and Usage Data.

[4] https://mp.weixin.qq.com/s?__biz=MzIyNjc2NzY4OA==&mid=2247483734&idx=1&sn=f2cfa64f6415194afa045816dfd3ba1b&chksm=e86a2771df1dae6793fea4fc55b83575298a9baee0a6cd551bcab4ada5205bee7de2cfeda7e7#rd

[5] L. Page et. al, The PageRank citation ranking: Bringing order to the web.

[6] https://mp.weixin.qq.com/s?__biz=MzIyNjc2NzY4OA==&mid=2247483827&idx=1&sn=c8c519dde272b735703ad623c7ef3de5&chksm=e86a2794df1dae82dba6eedf75a14d51f5972cc1359a4cf0d682503cf188936fcb41505614ec#rd

大資料時代，如何蒐集有效資料？

大資料時代，揭露個人資料洩漏和祕密跟蹤內幕

大資料時代，如何蒐集有效資料？

大資料資訊時代，如何防止資料洩露，大資料防洩漏解決方案

大資料時代，如何提升格局

大資料時代，IT行業的熱門崗位有哪些？

大資料時代，IT行業的熱門崗位有哪些？9大前景分析！

大資料時代，你的角色是什麼？

大資料時代，誰的眼神鎖定你？

大資料時代，資料架構的演繹發展歷程

人工智慧大發展時代，如何利用大資料改變現有商業模式？

大資料時代，Python是最好的語言！

大資料時代，“還原”鏈上資料，傳遞數字價值，從使用Gikee開始

大資料時代，你應該具備的大資料思維

大資料時代，如何快速構建高效能資料庫平臺

大資料時代，區塊鏈在資料安全領域有什麼樣的表現？

大資料時代，資料＝財富！

【運維專家大講堂】雲端計算和大資料時代，資料庫運維工程師發展方向在哪？

大資料時代，為什麼很多JAVA程式設計師會轉型做JAVA大資料

大資料時代，如何成為一個年薪50w的大資料開發工程師？

大資料時代，還不認識這些資料分析工具？

大資料時代，如何蒐集有效資料？

相關推薦