1. 程式人生 > >Python3下使用WC和numpy做雲圖

Python3下使用WC和numpy做雲圖

分為兩個部分來完成:

1. 得到分詞。

2. 資料處理

3. 生成雲圖。

1. 分詞的獲取。

這裡的分詞可以是來源於爬取的文字,之後用 jieba 包做一下分詞(用jieba.cut()方法)。會得到分詞集合(這裡返回的是generator)。可以寫一個小函式來對分詞結果進行初步處理。如下,可以避免單個字或者換行符號。

2. 資料處理

上面得到了最原始的文字分詞。這裡需要將其利用 pandas 包進行相應的處理:去除stopwords + 詞語封裝成為 DataFrame

前者可以直接下載到,後者是pandas特有的資料結構,表現為類似於表格式。

其中具體的方法引數,需要去查閱一下。

3. 生成雲圖

此時需要根據詞語的頻率生成雲圖。採用numpy包來進行計數。

可以看到現在已經生成了基於詞頻的 DataFrame

之後直接生成雲圖。這裡的 fit_words()方法的輸入一定要是個dict