1. 程式人生 > >【文字分類】最強中文分詞系統ICTCLAS

【文字分類】最強中文分詞系統ICTCLAS

ICTCLAS中文詞法分析是中文資訊處理的基礎與關鍵。中國科學院計算技術研究所在多年研究工作積累的基礎上,研製了漢語詞法分析系統ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),主要功能包括中文分詞;詞性標註;命名實體識別;新詞識別;同時支援使用者詞典;支援繁體中文;支援gb2312、GBK、UTF8等多種編碼格式。 ICTCLAS分詞速度單機500KB/s,分詞精度98.45%,API不超過100kb,各種詞典資料壓縮後不到3M,是世界上最好的漢語詞法分析器。

官方網站http://ictclas.org/ictclas_introduction.html

下載測試使用後發現windows64位編譯時提示無法找到API函式,經測試無法使用,32Bit庫下載後可以編譯執行,呼叫成功。

原始語料:中華人民共和國,我們是黨員

分詞結果如下:
中華人民共和國/ns ,/w 我們/r 是/v 黨員/n

ns:名稱地名

w:標點符號

v:動詞

n:名詞

詳細資訊可參考API手冊及漢語詞性標註集合2個文件。