統計QQ聊天記錄進階版（分詞+統計關鍵字出現的次數+根據詞頻製作詞雲）

阿新 • • 發佈：2019-01-18

繼上個部落格統計關鍵字次數的進階，將關鍵詞的次數製作成詞雲儲存到圖片。之前說過的部分現在就不說了，這裡主要講根據詞頻製作詞雲。

1.安裝wordcloud（這裡要注意坑）

這個安裝的過程比jieba複雜，因為直接用pip install wordcloud會安裝失敗，要先下載對應的python版本對應的wordcloud。這裡因為我之前有單獨裝過python3.7所以第一次我是下載了python3.7對應的wordcloud，然後它提示平臺不支援。後來我想起來我的Anaconda3用的不是python3.7,在Anaconda Navigator中檢視python對應的版本為3.6下載如下

用pip install安裝

2.檔案配置

1.txt為聊天記錄檔案,SimHei.ttf為字型格式、r.jpg為圖片樣式

3.詞雲

詞雲的生成可以按照詞頻以及以通常的方式生成。

詞頻使用 .generate_from_frequencies(字典型別)

通常方法使用.generate（關鍵字字串）

可以設定詞雲的相關屬性：

font_path : string //字型路徑，需要展現什麼字型就把該字型路徑+字尾名寫上，如：font_path = '黑體.ttf'
width : int (default=400) //輸出的畫布寬度，預設為400畫素
height : int (default=200) //輸出的畫布高度，預設為200畫素
prefer_horizontal : float (default=0.90) //詞語水平方向排版出現的頻率，預設 0.9 （所以詞語垂直方向排版出現頻率為 0.1 ）
mask : nd-array or None (default=None) //如果引數為空，則使用二維遮罩繪製詞雲。如果 mask 非空，設定的寬高值將被忽略，遮罩形狀被 mask 取代。除全白（#FFFFFF）的部分將不會繪製，其餘部分會用於繪製詞雲。如：bg_pic = imread('讀取一張圖片.png')，背景圖片的畫布一定要設定為白色（#FFFFFF），然後顯示的形狀為不是白色的其他顏色。可以用ps工具將自己要顯示的形狀複製到一個純白色的畫布上再儲存，就ok了。
scale : float (default=1) //按照比例進行放大畫布，如設定為1.5，則長和寬都是原來畫布的1.5倍。
min_font_size : int (default=4) //顯示的最小的字型大小
font_step : int (default=1) //字型步長，如果步長大於1，會加快運算但是可能導致結果出現較大的誤差。
max_words : number (default=200) //要顯示的詞的最大個數
stopwords : set of strings or None //設定需要遮蔽的詞，如果為空，則使用內建的STOPWORDS
background_color : color value (default=”black”) //背景顏色，如background_color='white',背景顏色為白色。
max_font_size : int or None (default=None) //顯示的最大的字型大小
mode : string (default=”RGB”) //當引數為“RGBA”並且background_color不為空時，背景為透明。
relative_scaling : float (default=.5) //詞頻和字型大小的關聯性
color_func : callable, default=None //生成新顏色的函式，如果為空，則使用 self.color_func
regexp : string or None (optional) //使用正則表示式分隔輸入的文字
collocations : bool, default=True //是否包括兩個詞的搭配
colormap : string or matplotlib colormap, default=”viridis” //給每個單詞隨機分配顏色，若指定color_func，則忽略該方法。
fit_words(frequencies) //根據詞頻生成詞雲
generate(text) //根據文字生成詞雲
generate_from_frequencies(frequencies[, ...]) //根據詞頻生成詞雲
generate_from_text(text) //根據文字生成詞雲
process_text(text) //將長文字分詞並去除遮蔽詞（此處指英語，中文分詞還是需要自己用別的庫先行實現，使用上面的 fit_words(frequencies) ）
recolor([random_state, color_func, colormap]) //對現有輸出重新著色。重新上色會比重新生成整個詞雲快很多。
to_array() //轉化為 numpy array

to_file(filename) //輸出到檔案

my_wordcloud = WordCloud(  
        background_color='white',  #設定背景顏色
        max_words=200,  #設定最大實現的字數
        font_path=r'SimHei.ttf',  #設定字型格式，如不設定顯示不了中文
        mask=imread('timg.jpg'),  #設定圖片樣式
        width=800,
        height=800,
    ).generate_from_frequencies(data)
    plt.figure()
    plt.imshow(my_wordcloud)
    plt.axis('off')
    plt.show()  # 展示詞雲
    my_wordcloud.to_file('z.jpg')

4.完整程式碼

import jieba
from wordcloud import WordCloud
from scipy.misc import imread
from collections import Counter
import matplotlib.pyplot as plt

def main():
    fr=open('1.txt','r',encoding='utf-8')
    
    frequencies=[]  
    s=""
    data={}
   
    for line in fr:
        line=line.strip()
        if len(line)==0:
            continue
        if line[0]=='2':
            continue
        for x in range(0,len(line)):
            if line[x] in [' ','\t','\n','。','，','[', ']', '（', '）', ':', '-',
    '？', '！', '《', '》', '、', '；', '“', '”', '……','0','1','2','3','4','5','6','7','8','9','=','~','…']:
                continue
            s+=str(line[x])

    seg_list = jieba.cut(s, cut_all=False, HMM=True)
    for word in seg_list:
        if len(word)>=2:
            if not data.__contains__(word):
                data[word]=0
            data[word]+=1
    #data=sorted(data.items(),key=lambda d:d[1],reverse=True) 這裡必須要註釋，不然會報錯
    #print(data) 
   
    my_wordcloud = WordCloud(  
        background_color='white',  #設定背景顏色
        max_words=200,  #設定最大實現的字數
        font_path=r'SimHei.ttf',  #設定字型格式，如不設定顯示不了中文
        mask=imread('r.jpg'),  #設定圖片樣式
        width=800,
        height=800,
    ).generate_from_frequencies(data)
    plt.figure()
    plt.imshow(my_wordcloud)
    plt.axis('off')
    plt.show()  # 展示詞雲
    my_wordcloud.to_file('z.jpg')
    fr.close()
  
  
main()

5.實現結果

類似的統計十九大關鍵字已上傳github ，用jupyter Notebook

效果圖：

統計QQ聊天記錄進階版（分詞+統計關鍵字出現的次數+根據詞頻製作詞雲）

1.安裝wordcloud（這裡要注意坑）

2.檔案配置

3.詞雲

4.完整程式碼

5.實現結果

統計QQ聊天記錄進階版（分詞+統計關鍵字出現的次數+根據詞頻製作詞雲）

[html之rem]手機端頁面自適應解決方案—rem佈局進階版（附原始碼示例）

手機端頁面自適應解決方案—rem佈局進階版（附原始碼示例）

SQL Server調優系列進階篇（深入剖析統計資訊）

計蒜客密碼安全性進階版（不可重疊重複子串的個數）

MMM架構實現MySQL高可用讀寫分離（進階版,包含Amoeba）

劍指offer——（3）斐波那契數列&&跳臺階&&瘋狂跳臺階進階版&&矩形覆蓋

複雜度分析（進階版）

Java多執行緒知識點總結——進階篇（八）之等待喚醒機制 Lock 鎖升級版

Android懸浮窗進階版-上篇（思路篇）

常見面試之機器學習演算法思想簡單梳理（進階版）

FFmpeg學習筆記-YUV以H264或H265編碼最後打包TS流過程（進階版）

Git常用命令（區別於基礎命令的進階版）

POST提交（進階版）

Elasticsearch頂尖高手系列：高手進階篇（最新第二版）

Android自己定義組件系列【6】——進階實踐（3）

Java學習筆記——排序算法之進階排序（堆排序與分治並歸排序）

【SSH進階之路】Struts + Spring + Hibernate 進階開端（一）

樹狀數組的進階運用（Stars 數星星）

Android自己定義組件系列【5】——進階實踐（2）

統計QQ聊天記錄進階版（分詞+統計關鍵字出現的次數+根據詞頻製作詞雲）

1.安裝wordcloud（這裡要注意坑）

2.檔案配置

3.詞雲

4.完整程式碼

5.實現結果

相關推薦