1. 程式人生 > >關於hanlp自定義詞典的使用

關於hanlp自定義詞典的使用

可用 使用 分隔符 windows 支持 優先級 style log for

首先要求自定義詞典為utf-8編碼格式,可用editplus等工具轉換。

詞典要求在配置文件中進行設置:

#本配置文件中的路徑的根目錄,根目錄+其他路徑=完整路徑(支持相對路徑,請參考:https://github.com/hankcs/HanLP/pull/254)
#Windows用戶請註意,路徑分隔符統一使用/
root=D:/學習/data-for-1.3.3/




#自定義詞典路徑,用;隔開多個自定義詞典,空格開頭表示在同一個目錄,使用“文件名 詞性”形式則表示這個詞典的詞性默認是該詞性。優先級遞減。
#另外data/dictionary/custom/CustomDictionary.txt是個高質量的詞庫,請不要刪除。所有詞典統一使用UTF-8編碼。
#增加農業詞典
CustomDictionaryPath=data/dictionary/custom/agriculture.txt; CustomDictionary.txt; 現代漢語補充詞庫.txt;

關於hanlp自定義詞典的使用