如何利用Python詞雲和wordart可視化工具對朋友圈數據進行可視化展示
1、在Python中做詞雲,需要用到wordcloud庫和jieba分詞庫,沒有安裝的夥伴可以直接pip安裝即可。
2、之後你可能還需要一些字體,如simhei.ttf等,這些字體在網上都有,可以直接進行下載,在做詞雲的時候會用得到,如下圖所示。
3、在items.py的同級目錄下建立analyse.py文件,定義analyse_words方法,用於實現詞雲可視化,jieba.cut用於得到分詞結果,具體的代碼實現,如下圖所示。因為得到的moment.json數據是以JSON格式存儲的,所以需要在該文件中導入JSON模塊對其進行解析。
這個地方需要註意一下,由於我們的memoent.json文件中是中文字符,如果在open()函數中沒有加入encoding=’utf-8’的話會導致gbk編碼錯誤,記得將編碼加上即可。
4、之後運行程序,得到keys.png圖片文件,程序運行的效果如下圖所示。可以看到keys.png已經在items.py目錄下了。
5、雙擊keys.png,如下圖所示。
6、不得不承認,這個詞雲圖片內容確實豐富,不過也十分的醜。小編利用wordart(一個詞雲網站)將朋友圈數據進行更加美化的可視化。
7、比方說用動物的圖案進行可視化,效果圖如下圖所示。
8、如果直接將數據進行導入的話,wordart會直接將整段話進行可視化,這樣顯得十分冗余,看上去也不太友好,因此還需要通過Python對數據進行分頻統計,之後再導入到wordart中就可以看到想要的效果了。首先,我們需要對json文件進行處理一下,將文本全部導出來,形成一個moment.txt文件。內容如下圖所示。
9、編寫代碼,將文本進行分詞,代碼實現如下所示。
10、程序運行完成之後,得到的moment_outputs.txt文件,內容如下圖所示,可以很清楚的看到分詞情況。紅色部分是程序運行的過程。
11、繼續編寫代碼,將詞頻進行統計匯總,代碼實現如下圖所示。
12、程序運行之後,得到一個txt和Excel文件,裏邊是關於詞頻統計的信息,如下圖所示。紅色部分是程序運行的結果,並沒有報錯。
13、將這些關鍵字導入到wordart中進行可視化,如下圖所示。
14、設置一下圖案、字體、排版、顏色等等,就可以生成絢麗的詞雲圖了,下圖是汪星人詞雲圖。
15、下圖是小雲朵詞雲圖,可以給視覺帶來一場饕餮盛宴。
小夥伴們,你們有沒有覺得很神奇呢?喜歡的話歡迎收藏和轉載噢~~
如何利用Python詞雲和wordart可視化工具對朋友圈數據進行可視化展示