solr(五)擴充套件詞典以及停止詞典配置
阿新 • • 發佈:2018-12-09
接著上次的solr資料匯入後,下面繼續如何在solr資料匯入後,配置擴充套件詞典以及停止詞典。
內容:
1. 基於配置的詞典擴充,IK 分詞器還支援通過配置 IKAnalyzer.cfg.xml 檔案來擴充您的擴充套件詞典以及停止詞典(過濾詞典)。
一:部署IKAnalyzer.cfg.xml:
將IKAnalyzer.cfg.xml 部 署在 代 碼根 目錄 下( 對於web 項 目, 通 常是WEB-INF/classes 目彔)同 log4j 等配置檔案相同。
二:詞典檔案的編輯不部署
分詞器的詞典檔案格式是無 BOM 的 UTF-8 編碼的中文文字檔案,副檔名不
限。詞典中,每個中文詞彙獨立佔一行,使用\r\n 的 DOS 方式換行。(注,如果您不
瞭解什麼是無 BOM 的 UTF-8 格式, 請保證您的詞典使用 UTF-8 儲存,並在檔案的
頭部新增一空行)。
您可以參考分詞器原始碼 org.wltea.analyzer.dic 包下的.dic 檔案。詞典檔案應部署在 Java 的資源路徑下,即 ClassLoader 能夠載入的路徑中。(推薦同 IKAnalyzer.cfg.xml 放在一起)
三.IKAnalyzer.cfg.xml 檔案的配置
<properties> <comment>IK Analyzer
在配置檔案中,使用者可一次配置多個詞典檔案。檔名使用“;”號分隔。檔案路徑為
相對 java 包的起始根路徑。