1. 程式人生 > >elasticsearch中文分詞(mmseg)——手動新增詞典

elasticsearch中文分詞(mmseg)——手動新增詞典

elasticsearch本身的中文分詞外掛效果都不理想,手動新增詞典可以在一定程度上進行彌補。

經過多次實驗發現,mmseg的分詞機制採用正向最長匹配演算法,例如,針對“小時代”這個單詞,其自帶的詞典中沒有包含該詞,故當使用者搜尋小時代時,檢索不到任何結果。

在鹹魚老婆的虛心指導下,我終於找到了解決辦法。

手動新增該詞到mmseg的詞庫中,有兩種方法:

1、將該詞加入到自帶的某個詞典中(非停頓詞詞典),如words-my.dic。

2、新建一個自定義詞典,將其放入預設詞庫資料夾下,注意編碼格式為以UTF-8無BOM格式編碼。

(注意:如果將elasticsearch部署在叢集時,相應的配置檔案詞典均需修改)

期間,鹹魚老婆一直對我循循善誘的指導,令我茅塞頓開。同時,還不厭其煩的為我撥開我最愛的小桂圓,令我甚是感動。

相信若干年後,回味起解決手動新增詞庫問題的今晚,仍然會感到一股暖流湧上心頭。

重啟elasticsearch服務:elasticsearch restart

針對目標檔案,重新建立索引,搜尋“小時代”,即可查詢到目標檔案。

最後,再次感謝我親愛的鹹魚老婆。撒狼黑!!!