1. 程式人生 > >搜尋引擎solr系列---自定義擴充套件詞庫的配置

搜尋引擎solr系列---自定義擴充套件詞庫的配置

  如果配置好分詞,它會智慧分詞,對於一些特殊的詞句,可能不會分成你想要的詞

  比如這麼一句話,“清池街辦新莊村”,配置好分詞後,會有如下的結果:

這裡寫圖片描述

  分詞後的結果,並沒有你想要的“清池街辦新莊村”的這個詞,這種情況就需要配置自定義的擴充套件詞庫了。

擴充套件詞庫的配置很簡單,具體步驟如下:

2.然後找到你的執行solr的tomcat,找到它下邊的webapps/solr/WEB-INF/classes資料夾,開啟裡邊應該已經有了一個log4j.properties(當然如果你在以前,把log4j.properties檔案放到了lib資料夾中,那需要新建一個classes資料夾,放進去)在classes
資料夾中新建三個檔案,命名分別為IKAnalyzer.cfg.xmlext.dicstopword.dic 具體的下載地址三個配置檔案的下載位置

  IKAnalyzer.cfg.xml 檔案即配置ext.dic和stopword.dic兩個字典庫的位置。具體配置如下:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
<comment>IK Analyzer 擴充套件配置</comment
>
<!--使用者可以在這裡配置自己的擴充套件字典,多個以分號隔開 --> <entry key="ext_dict">ext.dic;</entry> <!--使用者可以在這裡配置自己的擴充套件停止詞字典,多個以分號隔開--> <entry key="ext_stopwords">stopword.dic;</entry> </properties>

  ext.dic即擴充套件詞庫的儲存檔案,比如我打算建立一個詞“清池街辦新莊村”這樣一個詞,那開啟該檔案,在裡邊新添一個即可:

這裡寫圖片描述

  新增的每個詞都自己佔一行就可以的。


  stopword.dic停止詞字典的配置,你可以將空格什麼的填進去,這裡不用這個字典配置。

3.配置完之後,需要重啟tomcat,然後再回到開始的位置檢視一下“清池街辦新莊村”的分詞結果:

這裡寫圖片描述

4.以上,即完成了擴充套件詞庫的配置。這樣就使勁的新增你的那些想分詞卻沒有分的詞了。