1. 程式人生 > >文字分析之中文分詞

文字分析之中文分詞

在處理文字分析時,我們經常需要面臨的一個問題就是分詞,特別是在中國當前的IT環境下,大部分文字資料都是中文,中文和英文有一些不一樣,中文字與字之間沒有明顯的分隔符,而英文單詞與單詞之間有自然的空格符來分隔。中文分詞屬於自然語言處理的範疇,中文分詞廣泛應用於搜尋引擎,線上機器翻譯等領域。

分詞常用的方法主要有以下三類,一個是基於字典匹配的分詞方法,一個是基於語義分析的分詞演算法,還有一個是基於概率統計模型的分詞方法。目前來講,基於概率統計模型的分詞方法效果比較好,基於語義分析的演算法太複雜,基於字典匹配的演算法相對比較簡單,關於分詞的原理推薦大家去看吳軍的科普讀物《數學之美》去了解更多資訊。

操作思路:
先讀取csv檔案上對應的評論那一列,然後根據stopwords過濾,然後做分詞,統計各個詞出現的頻率,程式碼就不貼了,直接貼執行的結果。
這裡寫圖片描述

最後統計的評論中出現最多的前50個詞語如下:
這裡寫圖片描述