Solr6.5配置中文分詞IKAnalyzer和拼音分詞pinyinAnalyzer (二)

阿新 • • 發佈：2019-01-01

之前在 Solr6.5在Centos6上的安裝與配置 (一) 一文中介紹了solr6.5的安裝。這篇文章主要介紹建立Solr的Core並配置中文IKAnalyzer分詞和拼音檢索。

一、建立Core：

1、首先在solrhome（solrhome的路徑和配置見Solr6.5在Centos6上的安裝與配置 (一)中solr的web.xml）中建立mycore目錄;

[[email protected] down]# 
[[email protected] down]# mkdir /down/apache-tomcat-8.5.12/solrhome/mycore
[[email protected] 
 down]# cd /down/apache-tomcat-8.5.12/solrhome/mycore

[[email protected] mycore]#

2、複製solr-6.5.0\example\example-DIH\solr\solr下的所有檔案到/down/apache-tomcat-8.5.12/solrhome/mycore目錄下：

[[email protected] mycore]# cp -R /down/solr-6.5.0/example/example-DIH/solr/solr/* ./
[[email protected] mycore]# ls
conf  core.properties
[root 
@localhost mycore]#

3、重新啟動tomcat;

[[email protected] down]# /down/apache-tomcat-8.5.12/bin/shutdown.sh
[[email protected] down]# /down/apache-tomcat-8.5.12/bin/startup.sh

二、配置solr自帶的中文分詞(和IK的區別是不能自己新增詞庫)：

1、配置solr6.5自帶中文分詞。複製solr-6.5.0/contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-6.5.0.jar到apache-tomcat-8.5.12/webapps/solr/WEB-INF/lib/目錄下。

[[email protected] down]# cp /down/solr-6.5.0/contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-6.5.0.jar /down/apache-tomcat-8.5.12/webapps/solr/WEB-INF/lib/

2、為core新增對中文分詞的支援。編輯mycore下conf下的managed-schema檔案.

[[email protected] conf]# cd /down/apache-tomcat-8.5.12/solrhome/mycore/conf
[[email protected] conf]# vi managed-schema

在檔案的</schema>前新增

<fieldType name="text_smartcn" class="solr.TextField" positionIncrementGap="0">
    <analyzer type="index">
      <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
    </analyzer>
    <analyzer type="query">
       <tokenizer class="org.apache.lucene.analysis.cn.smart.HMMChineseTokenizerFactory"/>
    </analyzer>
</fieldType>

在Field Value (Index)文字框輸入一些中文，然後Analyse Fieldname / FieldType:選擇text_smartcn檢視中文分詞的效果。

如圖：

三、配置IKAnalyzer的中文分詞：

1、首先下載這是最新的支援solr6.5.

解壓後會有四個檔案。

[[email protected] ikanalyzer-solr5]# ls
ext.dic  IKAnalyzer.cfg.xml  solr-analyzer-ik-5.1.0.jar ik-analyzer-solr5-5.x.jar  stopword.dic

ext.dic為擴充套件字典,stopword.dic為停止詞字典，IKAnalyzer.cfg.xml為配置檔案，solr-analyzer-ik-5.1.0.jar ik-analyzer-solr5-5.x.jar為分詞jar包。

2、將資料夾下的IKAnalyzer.cfg.xml , ext.dic和stopword.dic 三個檔案 複製到/webapps/solr/WEB-INF/classes 目錄下，並修改IKAnalyzer.cfg.xml

[[email protected] ikanalyzer-solr5]# cp ext.dic IKAnalyzer.cfg.xml stopword.dic /down/apache-tomcat-8.5.12/webapps/solr/WEB-INF/classes/

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 擴充套件配置</comment>
        <!--使用者可以在這裡配置自己的擴充套件字典 -->
        <entry key="ext_dict">ext.dic;</entry>

        <!--使用者可以在這裡配置自己的擴充套件停止詞字典-->
        <entry key="ext_stopwords">stopword.dic;</entry>

</properties>

3、在ext.dic 裡增加自己的擴充套件詞典，例如，唯品會聚美優品

4、複製solr-analyzer-ik-5.1.0.jar ik-analyzer-solr5-5.x.jar到/down/apache-tomcat-8.5.12/webapps/solr/WEB-INF/lib/目錄下。

[[email protected] down]# cp /down/ikanalyzer-solr5/solr-analyzer-ik-5.1.0.jar ik-analyzer-solr5-5.x.jar /down/apache-tomcat-8.5.12/webapps/solr/WEB-INF/lib/

5、在 solrhome\mycore\conf\managed-schema 檔案</schema>前增加如下配置

<!-- 我新增的IK分詞 -->
<fieldType name="text_ik" class="solr.TextField">
        <analyzer type="index">
            <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
        </analyzer>
        <analyzer type="query">
            <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
        </analyzer>
</fieldType>

注意: 記得將stopword.dic，ext.dic的編碼方式為UTF-8 無BOM的編碼方式。

重啟tomcat檢視分詞效果。

四、配置拼音檢索：

1、前期準備，需要用到pinyin4j-2.5.0.jar、pinyinAnalyzer.jar這兩個jar包,下載地址。

2、將pinyin4j-2.5.0.jar、pinyinAnalyzer.jar這兩個jar包複製到/down/apache-tomcat-8.5.12/webapps/solr/WEB-INF/lib/目錄下。

[[email protected] down]# cp pinyin4j-2.5.0.jar pinyinAnalyzer4.3.1.jar /down/apache-tomcat-8.5.12/webapps/solr/WEB-INF/lib/

3、在 solrhome\mycore\conf\managed-schema 檔案</schema>前增加如下配置：

<fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0">
    <analyzer type="index">
        <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/>
        <filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" />
        <filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" />
    </analyzer>
    <analyzer type="query">
        <tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/>
        <filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" />
        <filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" />
    </analyzer>
</fieldType>

重啟tomcat檢視拼音檢索效果。

這裡用的是solr自帶的中文分詞加上pinyin4j來實現的。

相關檔案的下載地址：

Solr6.5配置中文分詞IKAnalyzer和拼音分詞pinyinAnalyzer (二)

之前在 Solr6.5在Centos6上的安裝與配置 (一) 一文中介紹了solr6.5的安裝。這篇文章主要介紹建立Solr的Core並配置中文IKAnalyzer分詞和拼音檢索。一、建立Core： 1、首先在solrhome（solrhome的路徑和配置見Solr6.5在Centos6上的安裝與配置

ElasticSearch學習筆記（二）IK分詞器和拼音分詞器的安裝

ElasticSearch是自帶分詞器的，但是自帶的分詞器一般就只能對英文分詞，對英文的分詞只要識別空格就好了，還是很好做的（ES的這個分詞器和Lucene的分詞器很想，是不是直接使用Lucene的就不知道），自帶的分詞器對於中文就只能分成一個字一個字，這個顯然

es配置中文和拼音分詞器

1.簡介 es預設使用standard分詞器 es還有其他分詞器比如simple writespace language 2.配置中文分詞器(需先安裝git maven unzip) git clone https://github.com/medcl/elasticse

solr6.5.1中文分詞

為什麼使用中文分詞舉個例子，假如輸入“周杰倫的演唱會”，就算使用模糊查詢，也只能找到索引中與“xxx周杰倫演唱會xxx”相匹配的內容。如果使用了中文分詞，則可以找到所有與“周杰倫”、“演唱會”、甚至與“周杰”相關的內容。下載jcseg

solr 6.5 配置中文分詞 IK Analyzer

將解分詞資料裡的 ik-analyzer-solr5-5.x.jar 拷貝到 /Users/sun/Documents/solr-6.5.1/server/solr-webapp/webapp/WEB-INF/lib 目錄中去，將IKAnalyzer.cfg.xml、mydict.dic、stopword.d

Elasticsearch5.6.11+Ik分詞器和自定義詞庫的配置與使用

1、Ik分詞器下載在https://github.com/medcl/elasticsearch-analysis-ik中下載對應版本的IK分詞器elasticsearch-analysis-ik-5.6.11.zip。 2、Ik分詞器配置在elasticsearch-5.6.11根

elasticsearch實現中文分詞和拼音分詞混合查詢+CompletionSuggestion

引言之前已經介紹瞭如何搭建elasticsearch服務端和簡單的索引建立，和中文分詞的支援。今天我們來說一說如何實現elasticsearch同時實現中文分詞和pinyin分詞。並且實現類似百度搜索欄的搜尋建議的功能。混合查詢實現混合查詢有很多

實驗5-3 使用函式求奇數和 (15分)

http://pta.patest.cn/pta/test/13/exam/3/question/461 #include <stdio.h> #define MAXN 1

docker環境下elasticsearch安裝ik和拼音分詞

lease 輸出 bsp 需要 arc load docke ase iyu elasticsearch拼音分詞地址：https://github.com/medcl/elasticsearch-analysis-pinyin/releases 在elasticsearc

solr7.4 配置ikanalyzer和自帶的中文分詞器

將下載好的jar包放入solr-7.4.0/server/solr-webapp/webapp/WEB-INF/lib目錄中 2、複製新專案的配置檔案 cd /root/tar/solr-7.4.0 mkdir server/solr/ik cp -

Lucene6.5.0 下中文分詞IKAnalyzer編譯和使用

前言 lucene本省對中文分詞有支援，不過支援的不好，其分詞方式是機械的將中文詞一個分成一個進行儲存，例如：成都資訊工程大學，最終分成為:：成|都|信|息|工|程|大|學，顯然這種分詞方式是低效且浪費儲存空間的，IK分詞是林良益前輩自定義寫的一個專門針對中文分詞的分析器

Solr-4.10 配置中文分詞器(IKAnalyzer)

1、下載IKAnalyzer http://pan.baidu.com/s/1i3eXhAH 密碼：34w6 2、將ik的相關檔案拷貝到 webapps\solr\WEB-INF\lib 目錄下 3、引入相應詞典配置放到&

Solr6配置中文分詞庫mmseg4j

摘要： Solr有諸多分詞器，本文介紹Solr6與中文分詞庫mmseg4j的整合，在此之前，你需要有一個可以執行Solr的環境，參見Solr6.0與Jetty、Tomcat在Win環境下搭建/部署。準備環境 mmseg4j需要mmseg4j-

Solr-6.5.1配置中文分詞器smartcn

solr的同步發行包smartcn可進行中文切詞，smartcn的分詞準確率不錯，但就是不能自己定義新的詞庫，不過smartcn是跟solr同步的，所以不需要額外的下載，只需在solr的例子中拷貝進去即可。第一步: 找到如下目錄，複製中文分詞器jar到so

Solr6.0.1配置中文分詞器mmseg4j

1、下載mmseg4j包和所需dic檔案 2、配置mmseg4j中文分詞器在solrhome中建立dic資料夾，並將dic欄位檔案複製進去將mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar放到

solr6.6配置IK中文分詞、IK擴充套件詞、同義詞、pinyin4j拼音分詞

solr基本指令： jetty部署【推薦】：Linux: $ bin/solr start；Windows: bin\solr.cmd start 建立core： Linux: $ bin/solr create -c corehotel；Windows: bin\so

SolrCloud-5.5.1配置中文分詞ansj-3.4.6

今天分享一下這兩天倒持的給solr5.5.1配置中文分詞的一些事項，本人剛剛開始研究SolrCloud，比照網上的教程與自己親身試驗的總結一下，通過這兩天的折騰覺得找對匹配的版本是頂頂重要的一件事。首先按照網上的教程來：第一步，下載ansj的

Solr 5.0.0配置中文分詞器IK Analyzer

Solr版本和IK分詞版本一定對應（ps我版本沒對應好弄了快倆小時了）只適合Solr 5.0.0版本 1.下載IK分詞器包連結: https://pan.baidu.com/s/1hrXovly 密碼: 7yhs 2.解壓並把IKAnalyzer-5.0.jar 、solr-analyzer-extra

二、Solr配置中文分詞器IKAnalyzer並配置業務域

一、solr域的介紹在solr中域的概念與lucene中域的概念相同，資料庫的一條記錄或者一個檔案的資訊就是一個document，資料庫記錄的欄位或者檔案的某個屬性就是一個Field域，solr中對索引的檢索也是對Field的操作。lucene中對域的操作是通過程式碼，solr對域的管理是通過一個配置檔案

（四）Solr6.4.1配置中文分詞器IK Analyzer詳解

Solr6.4.1配置中文分詞器IK Analyzer詳解 2.把IKAnalyzer.cfg.xml，mydict.dic，stopword.dic這三個檔案複製放入tomcat/solr專案web-info的classes下 3.把ik-analyz

Solr6.5配置中文分詞IKAnalyzer和拼音分詞pinyinAnalyzer (二)

一、建立Core：

二、配置solr自帶的中文分詞(和IK的區別是不能自己新增詞庫)：

三、配置IKAnalyzer的中文分詞：

四、配置拼音檢索：

相關推薦