jieba分詞與worldcloud詞雲
中文分詞的優秀庫。
安裝:pip install jieba
主要有三種模式,但是最主要有一個函式
模式:精確模式:把文字精確的切分開,不存在冗餘單詞
全模式:把文字中所有可能的詞語都掃描出來,有冗餘
搜尋引擎模式:在精確模式上,對長詞再次切分
函式:jieba.lcut(str):精確模式,返回一個列表
jieba.lcut(str,cut_all=True):就變成全模式,存在冗餘
jieba.lcut_for_search(str):搜尋引擎模式,返回列表,有冗餘
jieba.add_word(str):向分詞詞典增加新的分詞str
詞雲優秀庫。
安裝:pip insatll wordcloud
wordcloud將詞雲視為WordCloud物件
w = wordcloud.WordCloud()代表一個文字對應的詞雲
有兩個可選引數,width=400,height=200,min_font_size=字型最小預設4,max_font_size=字型最大,根據高度自動調節,
font_step=2字型間隔,font_path=''字型路徑,max_words=200詞雲數量,stop_words={'str'}排除詞,background_color='white'詞雲背景顏色預設黑色
w.generate(txt) # txt是str,向w物件中載入txt文字
w.tofile(filename) # 將詞雲輸出為影象檔案,為png/jpg檔案,預設400*200畫素(分隔,統計,字型,佈局)
對於顯示非矩形詞雲,需要使用mask
from scipy.misc import imread
mk = imread('pic.png') # 形狀的圖片,背景白色。
w = wordcloud.WordCloud(mask=mk)