1. 程式人生 > >爬蟲軟體爬取公開網路資料案例(以大眾點評為例)

爬蟲軟體爬取公開網路資料案例(以大眾點評為例)

原文地址:http://blog.csdn.net/qq_34149805/article/details/69367578

大資料在規劃行業被炒的熱火朝天,但是大多數人還是處於不知所以然的程度,應用於日常和工作更是遙遙無期。

關鍵的大資料被網際網路巨頭、手機運營商、政府機構所壟斷,獲取難之又難。

再看網上免費的資料介面,比如聚合資料,阿里資料,大部分都是收費的,想用於非商業的研究用途,大部分人還是用不起的。

所以,想要獲取有質量並且還要保證數量的資料就要靠我們自己了。

當然如果程式設計能力強的話可以自己寫程式來爬取,我這裡就偷個懶,直接用人家寫好的了。。。

這裡我使用的是火車採集器的免費版,我以爬取大眾點評的資料為例。

下面是我爬取到的一些資料

這裡寫圖片描述

一、網站分析

首先我們要分析大眾點評的URL

我們發現這些URL都是非常有規律的,這些規律將幫助我們爬取資料!

我們再來審查任意頁面的原始碼

這裡寫圖片描述

我們觀察每個部分的分佈位置,會縮小我們的爬取範圍,加快爬取速度。

二、網址採集

開啟火車採集器軟體。

新建任務。

這裡寫圖片描述

我們發現第一步就是設定網址採集規則,這是很重要的一步,這將會關係到我們採集到資料的數量。

我們發現我們爬取的資料都在商戶詳情頁面:

這裡寫圖片描述

所以,我們要想辦法到達這個頁面!

這裡我選擇分商業區進行爬取(這樣可以細化資料,還可以根據行政區,商戶型別,甚至不選擇條件進爬取)

我們選擇一個商業區作為起始爬取地址。

這裡寫圖片描述

這裡寫圖片描述

我們會發現,這個頁面上有15個商戶!

這裡寫圖片描述

每個商戶會對應一個連線,如果我們是選擇單一連線,我們只會爬取到15條資料,所以我們要想辦法解決分頁的問題。

我們觀察第二頁,第三頁的連線:

點選 嚮導新增 >> 批量網址


這裡寫圖片描述

將頁碼設定成地址引數,選擇從2開始,每次遞增1次,共14項。

我們在下面的閱覽就能看到我們想看到的連結。

點選網址採集測試,就會得到以下的結果:

這裡寫圖片描述

我們採集了15個頁面,每頁採集到了15條資料。這就是我們所想要的!

三、內容採集

第二部我們要設定內容採集規則。

這裡我們要採集的資料是:經度,緯度,商戶名稱,位置資訊,口味,環境,服務,點評數量,人均消費。分別進行設定。

我們首先觀察每個部分在原始碼中的特徵,然後填入開頭字串,結尾字串即可。

注意我們最好要保證開頭字串是唯一的,否則將選取第一個進行擷取。

我們先看這一段JS包括了大部分的資料。


這裡寫圖片描述

經度

這裡寫圖片描述

 商戶名稱

這裡寫圖片描述

 位置資訊

這裡寫圖片描述

再來看下面幾處比較有特點的原始碼


這裡寫圖片描述

口味

這裡寫圖片描述

點評數量

這裡寫圖片描述

 人均消費

這裡寫圖片描述

這裡內容採集規則基本設定完成了,我們來測試一條資料:

這裡寫圖片描述

測試成功!

四、內容釋出

內容釋出就是將採集好的資料匯出來,這裡免費版的只支援匯出到txt。

為了轉成excel方便,我們設定如下規則:

標籤建均以英文逗號分隔,每一條資料加一個換行。

這裡寫圖片描述

這裡寫圖片描述

基本設定完成,點選右下角儲存並退出。

開始資料採集並匯出!

這裡寫圖片描述

txt轉換成excel

下面是我們匯出得到的txt資料

這裡寫圖片描述

看起來雜亂無章,也不方便使用,所以我們將它儲存成excel

開啟excel,點選開啟檔案,選擇所有檔案,找到我們的txt

選擇 分隔符 >> 逗號分隔


這裡寫圖片描述

這裡寫圖片描述

點選完成,就得到我們想要的資料格式!

這裡寫圖片描述

有了這些資料,我們就可以開始我們的資料視覺化之旅了!