1. 程式人生 > >solr(五)擴充套件詞典以及停止詞典配置

solr(五)擴充套件詞典以及停止詞典配置

接著上次的solr資料匯入後,下面繼續如何在solr資料匯入後,配置擴充套件詞典以及停止詞典。

內容:

1.      基於配置的詞典擴充,IK 分詞器還支援通過配置 IKAnalyzer.cfg.xml 檔案來擴充您的擴充套件詞典以及停止詞典(過濾詞典)。

一:部署IKAnalyzer.cfg.xml:

將IKAnalyzer.cfg.xml 部 署在 代 碼根 目錄 下( 對於web 項 目, 通 常是WEB-INF/classes 目彔)同 log4j 等配置檔案相同。

二:詞典檔案的編輯不部署

分詞器的詞典檔案格式是無 BOM 的 UTF-8 編碼的中文文字檔案,副檔名不

限。詞典中,每個中文詞彙獨立佔一行,使用\r\n 的 DOS 方式換行。(注,如果您不

瞭解什麼是無 BOM 的 UTF-8 格式, 請保證您的詞典使用 UTF-8 儲存,並在檔案的

頭部新增一空行)。

您可以參考分詞器原始碼 org.wltea.analyzer.dic 包下的.dic 檔案。詞典檔案應部署在 Java 的資源路徑下,即 ClassLoader 能夠載入的路徑中。(推薦同 IKAnalyzer.cfg.xml 放在一起)

三.IKAnalyzer.cfg.xml 檔案的配置

<properties>     <comment>IK Analyzer

擴充套件配置</comment>     <!--使用者可以在這裡配置自己的擴充套件字典     <entrykey="ext_dict">ext.dic;</entry>     -->     <!--使用者可以在這裡配置自己的擴充套件停止詞字典-->     <entry key="ext_stopwords">stopword.dic;</entry> </properties>

在配置檔案中,使用者可一次配置多個詞典檔案。檔名使用“;”號分隔。檔案路徑為

相對 java 包的起始根路徑。