爬蟲軟體爬取公開網路資料案例(以大眾點評為例)
原文地址:http://blog.csdn.net/qq_34149805/article/details/69367578
大資料在規劃行業被炒的熱火朝天,但是大多數人還是處於不知所以然的程度,應用於日常和工作更是遙遙無期。
關鍵的大資料被網際網路巨頭、手機運營商、政府機構所壟斷,獲取難之又難。
再看網上免費的資料介面,比如聚合資料,阿里資料,大部分都是收費的,想用於非商業的研究用途,大部分人還是用不起的。
所以,想要獲取有質量並且還要保證數量的資料就要靠我們自己了。
當然如果程式設計能力強的話可以自己寫程式來爬取,我這裡就偷個懶,直接用人家寫好的了。。。
這裡我使用的是火車採集器的免費版,我以爬取大眾點評的資料為例。
下面是我爬取到的一些資料
一、網站分析
首先我們要分析大眾點評的URL
我們發現這些URL都是非常有規律的,這些規律將幫助我們爬取資料!
我們再來審查任意頁面的原始碼
我們觀察每個部分的分佈位置,會縮小我們的爬取範圍,加快爬取速度。
二、網址採集
開啟火車採集器軟體。
新建任務。
我們發現第一步就是設定網址採集規則,這是很重要的一步,這將會關係到我們採集到資料的數量。
我們發現我們爬取的資料都在商戶詳情頁面:
所以,我們要想辦法到達這個頁面!
這裡我選擇分商業區進行爬取(這樣可以細化資料,還可以根據行政區,商戶型別,甚至不選擇條件進爬取)
我們選擇一個商業區作為起始爬取地址。
我們會發現,這個頁面上有15個商戶!
每個商戶會對應一個連線,如果我們是選擇單一連線,我們只會爬取到15條資料,所以我們要想辦法解決分頁的問題。
我們觀察第二頁,第三頁的連線:
點選 嚮導新增 >> 批量網址
將頁碼設定成地址引數,選擇從2開始,每次遞增1次,共14項。
我們在下面的閱覽就能看到我們想看到的連結。
點選網址採集測試,就會得到以下的結果:
我們採集了15個頁面,每頁採集到了15條資料。這就是我們所想要的!
三、內容採集
第二部我們要設定內容採集規則。
這裡我們要採集的資料是:經度,緯度,商戶名稱,位置資訊,口味,環境,服務,點評數量,人均消費。分別進行設定。
我們首先觀察每個部分在原始碼中的特徵,然後填入開頭字串,結尾字串即可。
注意我們最好要保證開頭字串是唯一的,否則將選取第一個進行擷取。
我們先看這一段JS包括了大部分的資料。
經度
商戶名稱
位置資訊
再來看下面幾處比較有特點的原始碼
口味
點評數量
人均消費
這裡內容採集規則基本設定完成了,我們來測試一條資料:
測試成功!
四、內容釋出
內容釋出就是將採集好的資料匯出來,這裡免費版的只支援匯出到txt。
為了轉成excel方便,我們設定如下規則:
標籤建均以英文逗號分隔,每一條資料加一個換行。
基本設定完成,點選右下角儲存並退出。
開始資料採集並匯出!
txt轉換成excel
下面是我們匯出得到的txt資料
看起來雜亂無章,也不方便使用,所以我們將它儲存成excel
開啟excel,點選開啟檔案,選擇所有檔案,找到我們的txt
選擇 分隔符 >> 逗號分隔
點選完成,就得到我們想要的資料格式!
有了這些資料,我們就可以開始我們的資料視覺化之旅了!