Solr6配置中文分詞庫mmseg4j

阿新 • • 發佈：2018-12-31

摘要： Solr有諸多分詞器，本文介紹Solr6與中文分詞庫mmseg4j的整合，在此之前，你需要有一個可以執行Solr的環境，參見Solr6.0與Jetty、Tomcat在Win環境下搭建/部署。

準備環境

mmseg4j需要mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar，之前的mmseg4j-analysis已經整合進了mmseg4j-solr-2.3.0.jar，不需要再匯入

<dependency>
    <groupId>com.chenlb.mmseg4j</groupId>
    <artifactId 
>mmseg4j-core</artifactId>
    <version>1.10.0</version>
</dependency>
<dependency>
    <groupId>com.chenlb.mmseg4j</groupId>
    <artifactId>mmseg4j-solr</artifactId>
    <version>2.3.0</version>
</dependency>

科普mmseg4j

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 演算法(

http://technology.chtsai.org/mmseg/ )實現的中文分詞器，並實現 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
MMSeg 演算法有兩種分詞方法：Simple和Complex，都是基於正向最大匹配。
mmseg4j有三種分詞模式simple|complex|max-word，預設是max-word。
mmseg4j的詞庫強制使用 UTF-8。
mmseg4j 1.8.3 只支援 lucene 2.9/3.0 介面和 solr 1.4。
mmseg4j 1.8.5 支援 lucene 3.1, solr 3.1。
mmseg4j 1.9.0 支援 lucene 4.0, solr 4.0。
mmseg4j 1.9.1 支援 solr/lucene 4.3.1。
mmseg4j-solr-2.0.0.jar 要求 lucene/solr >= 4.3.0。
mmseg4j-solr-2.1.0.jar 要求 lucene/solr 4.8.x。
mmseg4j-solr-2.2.0.jar 要求 lucene/solr [4.9, 4.10.x]。
mmseg4j-solr-2.3.0.jar 要求 lucene/solr [5.0, ]

作者chenlb，chenlb是中文名拼音Chen Lin Bin簡寫，公開資料顯示其來自浙江杭州。許多關於mmseg4j的說明可以在他的部落格上找到。很可惜的是，現在mmseg4j已經沒有更新了，並且mmseg4j已經不能完整支援Solr6及以上版本。

Solr6整合中文分詞mmseg4j

確保已經裝好了Solr6，如果版本高於6，可能會不支援，需要改mmseg4j包
解壓下載的壓縮包mmseg4j-solr-2.3.0-with-mmseg4j-core.zip，得到mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar
在solr_home下新建資料夾lib，將兩個jar檔案複製進去。
配置schema.xml：在solr_home/core0/conf下找到schema.xml.bak檔案，將其重新命名為schema.xml，刪除managed-schema。
編輯schema.xml：新增fieldType 和 field到schema.xml檔案。

<!-- mmseg4j fieldType-->
    <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >  
        <analyzer>  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" />  
        </analyzer>  
    </fieldType>  
    <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" >  
        <analyzer>  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" />  
        </analyzer>  
    </fieldType>  
    <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >  
        <analyzer>  
          <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" />     
        </analyzer>  
    </fieldType>

注意：請不要給tokenizer加”dicPath”屬性,因為當前版本2.3.0的mmseg4j已經不能很好支援Solr6，新版本的Solr中有API的改動

<!--mmseg4j field-->
   <field name="mmseg4j_complex" type="text_mmseg4j_complex" indexed="true" stored="true"/>
   <field name="mmseg4j_maxword" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
   <field name="mmseg4j_simple" type="text_mmseg4j_simple" indexed="true" stored="true"/>

6.啟動Solr，如果控制檯沒有報錯，那就大功告成了。點選Analysis，測試幾個資料看看。下面這個沒有分詞成南京-市長-江大橋。
這裡寫圖片描述
7.如果你沒有執行起來，可能遇到了不相容的問題，在下一篇解答。

Solr6配置中文分詞庫mmseg4j

摘要： Solr有諸多分詞器，本文介紹Solr6與中文分詞庫mmseg4j的整合，在此之前，你需要有一個可以執行Solr的環境，參見Solr6.0與Jetty、Tomcat在Win環境下搭建/部署。準備環境 mmseg4j需要mmseg4j-

Solr6.0.1配置中文分詞器mmseg4j

1、下載mmseg4j包和所需dic檔案 2、配置mmseg4j中文分詞器在solrhome中建立dic資料夾，並將dic欄位檔案複製進去將mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放到

Solr6自定義mmseg4j中文分詞庫，升級mmseg4j

摘要： mmseg4j支援使用者自定義詞庫，這個配置過程相對簡單，但是由於Solr6的API變動，使得mmseg4j無法使用自己的中文分詞庫，如果想使用這一功能，只能改原始碼了。 mmseg4j 版本與其對應的Solr版本 mmseg4j 1.8.3 只支援

Solr6.5配置中文分詞IKAnalyzer和拼音分詞pinyinAnalyzer (二)

之前在 Solr6.5在Centos6上的安裝與配置 (一) 一文中介紹了solr6.5的安裝。這篇文章主要介紹建立Solr的Core並配置中文IKAnalyzer分詞和拼音檢索。一、建立Core： 1、首先在solrhome（solrhome的路徑和配置見Solr6.5在Centos6上的安裝與配置

Solr之——整合mmseg4j中文分詞庫

在上一篇博文《Solr之——整合Tomcat》中，我們介紹了Solr與Tomcat的整合方式，還沒有閱讀上一篇博文的朋友，請先閱讀上一篇博文《Solr之——整合Tomcat》，本文是在上一篇博文的基礎上整合mmseg4j中文分詞詞庫的。下面我們一起來實現Solr與mmse

（四）Solr6.4.1配置中文分詞器IK Analyzer詳解

Solr6.4.1配置中文分詞器IK Analyzer詳解 2.把IKAnalyzer.cfg.xml，mydict.dic，stopword.dic這三個檔案複製放入tomcat/solr專案web-info的classes下 3.把ik-analyz

solrcloud配置中文分詞器ik

lte config server field per str load fonts textfield 無論是solr還是luncene,都對中文分詞不太好，所以我們一般索引中文的話需要使用ik中文分詞器。三臺機器（192.168.1.236，192.168.1.237

Solr 配置中文分詞器 IK

host dex text class get mar con png 網址 1. 下載或者編譯 IK 分詞器的 jar 包文件，然後放入 ...\apache-tomcat-8.5.16\webapps\solr\WEB-INF\lib\ 這個 lib 文件目錄下；　

ElasticSearch搜索引擎安裝配置中文分詞器IK插件

art linux系統 nal smart 分享內容分詞 search dcl 一、IK簡介 ElasticSearch（以下簡稱ES）默認的分詞器是標準分詞器Standard，如果直接使用在處理中文內容的搜索時，中文詞語被分成了一個一個的漢字，因此引入中文分詞器IK就

Solr-4.10 配置中文分詞器(IKAnalyzer)

1、下載IKAnalyzer http://pan.baidu.com/s/1i3eXhAH 密碼：34w6 2、將ik的相關檔案拷貝到 webapps\solr\WEB-INF\lib 目錄下 3、引入相應詞典配置放到&

7個優秀的開源中文分詞庫推薦

中文分詞是中文文字處理的基礎步驟，也是中文人機自然語言互動的基礎模組。由於中文句子中沒有詞的界限，因此在進行中文自然語言處理時，通常需要先進行分詞。縱觀整個開源領域，陸陸續續做中文分詞的也有不少，不過目前仍在維護的且質量較高的並不多。下面整理了一些個人認為比較優秀的中文分詞庫，以供大家

基於python的中文分詞庫：jieba

簡介分詞共分三種模式：精確模式：試圖將句子最精確的切開全模式：掃描出句子中所有可能的詞語，速度快搜尋引擎模式：在精確模式的基礎上，對長詞再次切分適合用於搜尋引擎分詞例子： import jieba string = '結巴這個分詞工具真的特別的

Hanlp等七種優秀的開源中文分詞庫推薦

中文分詞是中文文字處理的基礎步驟，也是中文人機自然語言互動的基礎模組。由於中文句子中沒有詞的界限，因此在進行中文自然語言處理時，通常需要先進行分詞。縱觀整個開源領域，陸陸續續做中文分詞的也有不少，不過目前仍在維護的且質量較高的並不多。下面整理了一些個人認為比較優秀的中文分

Solr學習總結 IK 配置中文分詞器

預設solr沒有使用中文分詞器所有搜尋的詞都是整個句子是一個詞需要配置中文分詞器目前比較好用的是IK 但2012就停更了只支援到Lucene4.7所有solr5.5需要Lucene5支援需要修改部分原始碼來支援solr5.5找到IKAnalyze類 <dep

Solr-6.5.1配置中文分詞器smartcn

solr的同步發行包smartcn可進行中文切詞，smartcn的分詞準確率不錯，但就是不能自己定義新的詞庫，不過smartcn是跟solr同步的，所以不需要額外的下載，只需在solr的例子中拷貝進去即可。第一步: 找到如下目錄，複製中文分詞器jar到so

solr 6.5 配置中文分詞 IK Analyzer

將解分詞資料裡的 ik-analyzer-solr5-5.x.jar 拷貝到 /Users/sun/Documents/solr-6.5.1/server/solr-webapp/webapp/WEB-INF/lib 目錄中去，將IKAnalyzer.cfg.xml、mydict.dic、stopword.d

給solr配置中文分詞器

Solr的中文分詞器中文分詞在solr裡面是沒有預設開啟的，需要我們自己配置一箇中文分詞器。目前可用的分詞器有smartcn，IK，Jeasy，庖丁。其實主要是兩種，一種是基於中科院ICTCLA

solr配置中文分詞遇到的問題

嚴重: Servlet.service() for servlet [default] in context with path [/solr] threw exception [Filter execution threw an exception] with root

SolrCloud-5.5.1配置中文分詞ansj-3.4.6

今天分享一下這兩天倒持的給solr5.5.1配置中文分詞的一些事項，本人剛剛開始研究SolrCloud，比照網上的教程與自己親身試驗的總結一下，通過這兩天的折騰覺得找對匹配的版本是頂頂重要的一件事。首先按照網上的教程來：第一步，下載ansj的

Solr之配置中文分詞器

1、使用solr自帶分詞器 1.1、拷貝Jar包 cp /opt/solr/solr-7.3.1/contrib/analysis-extras/lucene-libs/lucene-ana

Solr6配置中文分詞庫mmseg4j

準備環境

科普mmseg4j

Solr6整合中文分詞mmseg4j

相關推薦