1. 程式人生 > >一套準確率高且效率高的分詞、詞性標註工具-thulac

一套準確率高且效率高的分詞、詞性標註工具-thulac

軟體簡介

THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研製推出的一套中文詞法分析工具包,具有中文分詞和詞性標註功能。THULAC具有如下幾個特點:

  1. 能力強。利用我們整合的目前世界上規模最大的人工分詞和詞性標註中文語料庫(約含5800萬字)訓練而成,模型標註能力強大。

  2. 準確率高。該工具包在標準資料集Chinese Treebank(CTB5)上分詞的F1值可達97.3%,詞性標註的F1值可達到92.9%,與該資料集上最好方法效果相當。

  3. 速度較快。同時進行分詞和詞性標註速度為300KB/s,每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。

 

軟體地址:

http://thulac.thunlp.org/

 

python版本使用示例:

通過python程式import thulac,新建thulac.thulac(args)類,其中args為程式的引數。之後可以通過呼叫thulac.cut()進行單句分詞。

 1 """
 2     測試使用
 3 """
 4 import thulac
 5 
 6 
 7 def thulac_use():
 8     """
 9     用於分詞和詞性標註
10     :return:
11     """
12     content = '
南京市長江大橋' 13 th = thulac.thulac() 14 res = th.cut(content, text=True) 15 16 print(res) 17 18 19 if __name__ == '__main__': 20 thulac_use()

結果:

南京市_ns 長江_ns 大橋_n