1. 程式人生 > >Python爬蟲,看看我最近部落格都寫了啥,帶你製作高逼格的資料聚合雲圖

Python爬蟲,看看我最近部落格都寫了啥,帶你製作高逼格的資料聚合雲圖

今天一時興起,想用python爬爬自己的部落格,通過資料聚合,製作高逼格的雲圖(對詞彙出現頻率視覺上的展示),看看最近我到底寫了啥文章。

1.1 爬取文章的標題的聚合

爬取的文章標題的資料聚合

爬取的文章標題的資料聚合

爬取的文章標題的資料聚合

1.2 爬取文章的摘要的聚合

33.jpeg

34.jpeg

1.3 爬取文章的標題+摘要的聚合

21.jpeg

22.jpeg

我最近寫了SpringCloud系列教程,還有一些微服務架構方面,從雲圖上看,基本吻合。你若不信,新航道雅思班可以進我的部落格看看,資料還是非常準確的

  • 開發工具: pycharm
  • 爬蟲技術:bs64、requsts、jieba
  • 分析工具:wordArt

Azure.png

整個爬蟲架構非常簡單:

  • 爬取我的部落格:http://blog.csdn.net/forezp
  • 獲取資料
  • 將資料用“結巴”庫,分詞。
  • 將得到的資料在在artword上製作雲圖。
  • 將製作出來的雲圖展示給使用者。

先根據部落格地址爬去資料:

 
 

解析標題

 
 

解析摘要:

 
 

用“結巴”分詞,"激8"分詞怎麼用,看這裡:https://github.com/fxsjy/jieba/

 
 

因為資料比較少,所以我直接列印在控制檯,並把它複製下來,更好的方法是存在mongodb中。

製作雲圖:
用 artword線上工具,地址:https://wordart.com

首先:


匯入從控制檯複製過來的資料:

Paste_Image.png

令人尷尬的是,這個網站在繪製圖的時候不支援中文,需要你從c:/windows/fonts下選擇一個支援中文的字型,mac 使用者從windows拷下資料夾也可以,或者在網上下。

Paste_Image.png

然後點選Visulize就可以生成高逼格的雲圖了。講解完畢,有什麼需要改進的請大家留言。

原始碼下載:https://github.com/forezp/ZhihuSpiderMan/tree/master/blogspider

五、文章參考

超簡單:快速製作一款高逼格詞雲圖

  • 如何爬取百萬知乎使用者資訊,並做了簡單的分析