1. 程式人生 > >paoding自定義詞典研究1

paoding自定義詞典研究1

這幾天研究paoding分詞器的使用,遇到一個很棘手的問題

在使用庖丁自定義詞典的時候,按照網上查的資料,

1.首先自定義一個XXX.dic的檔案,以utf-8儲存;

2.將自定義詞新增到dic\locale下的XXX.dic中;

3.刪除.compile資料夾

用如下程式碼測試分詞效果:

               String keyword = “中國科技大學”;

                Analyzer analyzer = new PaodingAnalyzer();
TokenStream token = analyzer.tokenStream("content", new StringReader(keyword));
TermAttribute attribute = token.getAttribute(TermAttribute.class);
while (token.incrementToken())
{
System.out.println(attribute.term());
}

在不新增任何自定義詞的情況下,分詞效果是:

中國
科技

大學

當我在將自定義的詞“中國科技”新增進去後,執行檢視分詞效果,發現根本沒有變化,也就是說新增的分詞沒有起作用,

然後我重新添加了一個詞“中國科”替換上面的詞,重新執行,分析效果如下,這個自定義詞起作用了:

中國
科技

中國科

大學

然後我也將“中國科技大學”,添加了,發現也沒起作用,所以很困惑,即有時候新增的分詞起作用,有時候不起作用。所以決定研究一下。