1. 程式人生 > >jieba分詞與worldcloud詞雲

jieba分詞與worldcloud詞雲

中文分詞的優秀庫。

安裝:pip install jieba

主要有三種模式,但是最主要有一個函式

模式:精確模式:把文字精確的切分開,不存在冗餘單詞

  全模式:把文字中所有可能的詞語都掃描出來,有冗餘

  搜尋引擎模式:在精確模式上,對長詞再次切分

函式:jieba.lcut(str):精確模式,返回一個列表

  jieba.lcut(str,cut_all=True):就變成全模式,存在冗餘

  jieba.lcut_for_search(str):搜尋引擎模式,返回列表,有冗餘

  jieba.add_word(str):向分詞詞典增加新的分詞str

 

詞雲優秀庫。

安裝:pip insatll wordcloud

wordcloud將詞雲視為WordCloud物件

w = wordcloud.WordCloud()代表一個文字對應的詞雲

  有兩個可選引數,width=400,height=200,min_font_size=字型最小預設4,max_font_size=字型最大,根據高度自動調節,

  font_step=2字型間隔,font_path=''字型路徑,max_words=200詞雲數量,stop_words={'str'}排除詞,background_color='white'詞雲背景顏色預設黑色

w.generate(txt)  # txt是str,向w物件中載入txt文字

w.tofile(filename)  # 將詞雲輸出為影象檔案,為png/jpg檔案,預設400*200畫素(分隔,統計,字型,佈局)

對於顯示非矩形詞雲,需要使用mask

from scipy.misc import imread

mk = imread('pic.png')  # 形狀的圖片,背景白色。

w = wordcloud.WordCloud(mask=mk)