還要看攻略？Python100行程式碼帶你分析國內哪些景點爆滿！

Python · 發表 2018-10-06 14:32:07

摘要：舉國歡慶的國慶節馬上就要結束了，你想好去哪裡看人山人海了嗎？還是窩在家裡充電學習呢？說起國慶，塞車與爆滿這兩個詞必不可少，但是如果能提前知道哪些景點爆滿就不用人擠人地去湊熱鬧了。本文即用 Python 抓取了有關國慶出行方面的資料，希望給你的假期提供些幫助。一開始，筆...

舉國歡慶的國慶節馬上就要結束了，你想好去哪裡看人山人海了嗎？還是窩在家裡充電學習呢？說起國慶，塞車與爆滿這兩個詞必不可少，但是如果能提前知道哪些景點爆滿就不用人擠人地去湊熱鬧了。本文即用 Python 抓取了有關國慶出行方面的資料，希望給你的假期提供些幫助。

一開始，筆者以為要抓取出行方面的資料挺簡單，直接去看看攜程旅遊、馬蜂窩這類網站看看有沒有資料抓取就好。但是實際上這些網站並沒有比較好的格式化資料供我們抓取（當然或許是我沒找到辦法......）。但是出行肯定會查詢相關的出行攻略，那麼關鍵詞就是一個突破口，可以查詢百度指數來看看哪些景點被查詢的次數最多，那麼就可以大概知道哪些景點會爆滿了。

01：統計結果

此次的統計結果只是從側面反映景點爆滿的問題，未必是完全準確的，僅供參考。此次統計的景點共有 100 個：

不出意外，桂林、三亞、泰山的搜尋量都是槓槓的，這第一梯隊的地方能不去就別去了，去了也是人山人海的，爆滿是無疑的了。

第二梯隊的搜尋量也不差，日均搜尋量還是上萬的，謹慎行動。

第三梯隊下來就可以考慮考慮，為了避免不必要的塞車與等待，建議大家還是待在家裡吧......

第四梯隊應該沒太大的問題，建議出去溜達溜達。

都到第五梯隊了，就可以放心地玩耍了。經歷了那麼多的煩心事，是該好好放飛一下自己了。

02：爬蟲技術分析及具體實現

本次爬取過程中用的的資料工具如下：

請求庫：selenium

HTML 解析：使用正則匹配

資料視覺化：pyecharts

資料庫：MongoDB

資料庫連線：pymongo

首先是選取爬蟲來源，攜程與馬蜂窩沒有結構化的資料，我們就換一種思路。首先是想到百度指數，如圖：

但是分析原始碼之後，你就會發現問題了......它的資料都是以圖片展示的，你不能直接獲取到原始碼。考慮到國慶馬上就要到來，我換了一個指數平臺，轉戰搜狗指數，這個平臺可以直接獲取到源資料，關鍵是還有微信熱度可以爬取。當然，你執意要使用百度指數也是有方法的，抓取到資料之後，使用影象識別來識別文中的資料即可，這裡就不展開了。

關於資料清洗方面，這裡篩選了資料量過小和資料量異常大的景點：

由於篇幅原因，這就只展示部分主要程式碼：

整篇爬蟲文章分析到這裡就結束了。最後祝大家假期愉快，不用寫程式碼。

還要看攻略？Python100行程式碼帶你分析國內哪些景點爆滿！

您可能也會喜歡…