1. 程式人生 > >詳解如何用爬蟲程式採集新聞資訊資料(以中國日報為例)

詳解如何用爬蟲程式採集新聞資訊資料(以中國日報為例)

半個世紀以來,隨著計算機技術全面融入社會生活,資訊爆炸已經積累到了一個開始引發變革的程度。它不僅使世界充斥著比以往更多的資訊,而且其增長速度也在加快,創造出了“大資料(Big Data)”這個概念。如今,這個概念幾乎應用到了所有人類智力與發展的領域中。 

Big Data是近來的一個技術熱點,歷史上,資料庫、資料倉庫、資料集市等資訊管理領域的技術,很大程度上也是為了解決大規模資料的問題。被譽為資料倉庫之父的Bill Inmon早在20世紀90年代就經常提及Big Data。 

21世紀是資料資訊大發展的時代,移動互聯、社交網路、電子商務等極大拓展了網際網路的邊界和應用範圍,各種資料正在迅速膨脹並變大。

近年來網際網路、雲端計算、移動和物聯網的迅猛發展。無所不在的移動裝置、RFID、無線感測器每分每秒都在產生資料,數以億計使用者的網際網路服務時時刻刻在產生巨量的互動。網際網路(社交、搜尋、電商)、移動網際網路(微博)、物聯網(感測器,智慧地球)、車聯網、GPS、醫學影像、安全監控、金融(銀行、股市、保險)、電信(通話、簡訊)都在瘋狂產生著資料:1)全球每秒鐘傳送 2.9 百萬封電子郵件; 2)每天會有 2.88 萬個小時的視訊上傳到Youtube; 3)推特上每天釋出 5 千萬條訊息; 4)每天亞馬遜上將產生 6.3 百萬筆訂單; 4)每個月網民在Facebook 上要花費7 千億分鐘; 5)Google 上每天需要處理24PB 的資料。

我們在一個大資料的時代漩渦中,每天都有是以億計的資料產生,如何獲取這些資料,如何使用這些資料,如何用好這些資料,都是一個難題。之前遇到的一位做語言學研究的小姐姐,研究課題需要建立自己的語言資料庫,每次都要在新聞網站上去搜索關鍵字的文章,然後複製黏貼下來,非常的辛苦和費事費時,我聽說之後非常吃驚,問她這種機械卻又累人的工作,為什麼不讓軟體解決,而要自己一個個手動複製黏貼。她的回答是自己是學文科的,又不會寫程式碼,又搞不懂程式設計,所以她只能自己辛苦一點了。聽完她的回答之後,我很心痛,所以我立馬給他推薦了一款軟體,幫助她從複雜的複製黏貼工作中解脫出來。

這款軟體對小白使用者十分友好,智慧模式只要輸入網址就能幫忙採集了,是谷歌大牛回國寫的一款軟體,而且還是免費採集和匯出的,現在把這個軟體分享出來,希望對大家有所幫助。我會以新聞網站中國日報為例,為大家演示如何通過這款爬蟲軟體自動採集資料。

首先,需要下載安裝軟體,大家可以到官網上下載最新版本的軟體,然後註冊新使用者登入,遊客使用者也可以採集資料,但是可能會丟失,建議還是註冊新使用者。

首先,複製需要採集的網址,開啟軟體輸入網址,新建智慧採集任務。

在智慧模式下,我們輸入網址後軟體即可自動識別出頁面上的資料並生成採集結果,每一類資料對應一個採集欄位,可以右擊欄位進行相關設定,包括修改欄位名稱、增減欄位、處理資料等。

由於在列表頁上只展示了部分的新聞資訊,如果需要採集具體的新聞內容,我們需要右擊連結使用“深入採集”功能,跳轉到詳情頁進行採集。

接著點選“儲存並啟動”按鈕,可在彈出的頁面中進行一些高階設定,包括定時啟動、自動入庫和下載圖片,我們如果沒有用到這些功能,可以直接點選“啟動”執行任務。

資料採集完畢後我們可以匯出資料,這款軟體比較好的一點是不僅採集免費,而是可以匯出多種格式的文件,對匯出也沒有什麼限制。

為方便檢視我們匯出一個Excel2007的表格,我們可以看到資料質量還是挺高的,大家可以直接使用這些資料,也可以在這個基礎上對資料進行加工處理。