1. 程式人生 > >jieba分詞增加自定義詞表

jieba分詞增加自定義詞表

在使用jieba分詞時經常會發現一些未登入詞,因此增加領域詞表就變得很重要,下面提供增加幾種途徑:

1、領域權威詞彙字典

2、搜狗輸入法領域詞庫、百度輸入法領域詞庫

然後這三種類型的使用者此表取個並集即可,在Python中使用集合操作即可,例如,三種字典均為列表(listt),如下操作即可去除重複:

set(userDict1 + userDict2 + userDict3)