1. 程式人生 > >如何利用Python詞雲和wordart可視化工具對朋友圈數據進行可視化展示

如何利用Python詞雲和wordart可視化工具對朋友圈數據進行可視化展示

Python網絡爬蟲 Python開發 可視化 詞雲 wordart

大前天我們通過Python網絡爬蟲對朋友圈的數據進行了抓取,感興趣的朋友可以點擊進行查看,如何利用Python網絡爬蟲抓取微信朋友圈的動態(上)和如何利用Python網絡爬蟲爬取微信朋友圈動態——附代碼(下)。今天小編帶大家通過詞雲去將其進行可視化,具體的教程如下。

1、在Python中做詞雲,需要用到wordcloud庫和jieba分詞庫,沒有安裝的夥伴可以直接pip安裝即可。

技術分享圖片

2、之後你可能還需要一些字體,如simhei.ttf等,這些字體在網上都有,可以直接進行下載,在做詞雲的時候會用得到,如下圖所示。

技術分享圖片

3、在items.py的同級目錄下建立analyse.py文件,定義analyse_words方法,用於實現詞雲可視化,jieba.cut用於得到分詞結果,具體的代碼實現,如下圖所示。因為得到的moment.json數據是以JSON格式存儲的,所以需要在該文件中導入JSON模塊對其進行解析。

技術分享圖片

這個地方需要註意一下,由於我們的memoent.json文件中是中文字符,如果在open()函數中沒有加入encoding=’utf-8’的話會導致gbk編碼錯誤,記得將編碼加上即可。

4、之後運行程序,得到keys.png圖片文件,程序運行的效果如下圖所示。可以看到keys.png已經在items.py目錄下了。

技術分享圖片

5、雙擊keys.png,如下圖所示。

技術分享圖片

6、不得不承認,這個詞雲圖片內容確實豐富,不過也十分的醜。小編利用wordart(一個詞雲網站)將朋友圈數據進行更加美化的可視化。

技術分享圖片

7、比方說用動物的圖案進行可視化,效果圖如下圖所示。

技術分享圖片

8、如果直接將數據進行導入的話,wordart會直接將整段話進行可視化,這樣顯得十分冗余,看上去也不太友好,因此還需要通過Python對數據進行分頻統計,之後再導入到wordart中就可以看到想要的效果了。首先,我們需要對json文件進行處理一下,將文本全部導出來,形成一個moment.txt文件。內容如下圖所示。

技術分享圖片

9、編寫代碼,將文本進行分詞,代碼實現如下所示。

技術分享圖片

10、程序運行完成之後,得到的moment_outputs.txt文件,內容如下圖所示,可以很清楚的看到分詞情況。紅色部分是程序運行的過程。

技術分享圖片

11、繼續編寫代碼,將詞頻進行統計匯總,代碼實現如下圖所示。

技術分享圖片

12、程序運行之後,得到一個txt和Excel文件,裏邊是關於詞頻統計的信息,如下圖所示。紅色部分是程序運行的結果,並沒有報錯。

技術分享圖片

13、將這些關鍵字導入到wordart中進行可視化,如下圖所示。

技術分享圖片

14、設置一下圖案、字體、排版、顏色等等,就可以生成絢麗的詞雲圖了,下圖是汪星人詞雲圖。

技術分享圖片

15、下圖是小雲朵詞雲圖,可以給視覺帶來一場饕餮盛宴。

技術分享圖片

小夥伴們,你們有沒有覺得很神奇呢?喜歡的話歡迎收藏和轉載噢~~

如何利用Python詞雲和wordart可視化工具對朋友圈數據進行可視化展示