1. 程式人生 > >Python利用結巴模組統計《水滸傳》詞頻

Python利用結巴模組統計《水滸傳》詞頻

中文分詞是中文文字處理的一個基礎性工作,結巴分詞利用進行中文分詞。其基本實現原理有三點:

基於Trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖(DAG) 
採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合 
對於未登入詞,採用了基於漢字成詞能力的HMM模型,使用了Viterbi演算法 
下面利用結巴分詞隊水滸傳的詞頻進行了統計