聊聊 elasticsearch 之分詞器配置 (IK+pinyin)

阿新 • • 發佈：2019-03-20

發現批量 plugin ik分詞 eight 搜索數據 ik分詞器系統字段

系統：windows 10

elasticsearch版本：5.6.9

es分詞的選擇

使用es是考慮服務的性能調優，通過讀寫分離的方式降低頻繁訪問數據庫的壓力，至於分詞的選擇考慮主要是根據目前比較流行的分詞模式，根據參考文檔自己搭建測試。

es配置目錄結構

在此先貼出es下plugins的目錄結構，避免安裝時一臉茫然(出自本人配置目錄，可根據自身需要進行調整)：
es插件目錄結構：
ik壓縮包內文件列表：
pinyin壓縮包內文件目錄：

IK 分詞器

IK分詞器下載地址：https://github.com/medcl/elasticsearch-analysis-ik/releases?after=v5.6.11
進入鏈接，選擇對應版本編譯好的壓縮包，點擊即可下載。如下圖：　　、
上述步驟下載後，解壓文件到至\elasticsearch5.6.9\plugins\ik目錄下（如無ik目錄，手動創建即可），重新啟動es服務，即可看到控制臺輸出的插件信息，表示配置成功。如下圖：

pinyin分詞器

拼音分詞器下載地址：https://github.com/medcl/elasticsearch-analysis-pinyin/releases?after=v5.6.11
拼音分詞的配置類似於ik分詞，進入鏈接，選擇對應版本編譯好的壓縮包，點擊即可下載。如下圖：　　
上述步驟下載後，解壓文件到至\elasticsearch5.6.9\plugins\pinyin目錄下（如無pinyin目錄，手動創建即可），重新啟動es服務，即可看到控制臺輸出的插件信息，表示配置成功。如下圖：

分詞器的測試案例

IK分詞，主要強調兩種分詞模式：ik_smart和ik_max_word
- 　　ik_smart是將文本做了正確的拆分，如下圖：
- 看到結果發現ik_smart分詞模式拆分的不夠細，“陽光明媚”並沒有拆分開，所以接下來就該另一種分詞出場了 ---- ik_max_word，直接上結果，如下圖：
- 這種更加詳細的拆分才是我想要的，這回不用擔心高級搜索了····
拼音分詞，簡言之就是將文本拆分成更加詳細拼音，圖解如下：
ik與pinyin的結合使用（註：當使用分詞搜索數據的時候，必須是通過分詞器分析的數據才能搜索出來，否則無法搜索出數據）
- 創建索引時可以自定義分詞器配置，通過映射可以指定自定義的分詞器，配置如下圖：
- 創建名稱為“greatom”的索引，自定義“ik_smart_pinyin”和“ik_max_word_pinyin”的分詞器，過濾設置為“g_pinyin”，如上圖右側提示則表示設置成功，可以通過“GET greatom/settings”查詢配置信息。
- 創建type時，需要在字段的解析屬性（analyzer）中設置自定義名稱的映射，如下圖：
- 如上圖右側提示則表示創建成功，接下來增加點數據，以便後續測試。
- 測試數據按照上圖方式即可進行批量新增，也可對索引數據進行查詢。接下來就開始正式的分詞查詢。
- 上圖表示兩種分詞的查詢格式，可以聯想搜索出相關的所有數據，感覺比較智能了。

結尾

通過對es分詞的了解和使用，發現選擇的兩種分詞模式已經滿足自己項目的使用，還未進行更深入的了解，後續會繼續了解底層及分詞原理，如有瑕疵或更好的見解，希望可以交流學習。

聊聊 elasticsearch 之分詞器配置 (IK+pinyin)

發現批量 plugin ik分詞 eight 搜索數據 ik分詞器系統字段系統：windows 10 elasticsearch版本：5.6.9 es分詞的選擇使用es是考慮服務的性能調優，通過讀寫分離的方式降低頻繁訪問數據庫的壓力，至於分詞的選擇考

elasticsearch之分詞器

1.概念在elasticsearch中索引分析模組是可以通過註冊分詞器來進行配置的。分詞器的作用就是當一個文件被索引的時候，分詞器從文件中提取若干詞元（token）來支援索引的儲存和搜尋。elasticsearch內建了很多分詞器，分解器，和詞元過濾器. 索引分析模組包括：分

Elasticsearch之分詞器的作用

　前提 Analyzer（分詞器）的作用是把一段文字中的詞按一定規則進行切分。對應的是Analyzer類，這是一個抽象類，切分詞的具體規則是由子類實現的，所以對於不同的語言，要用不同的分詞器。(也就是說不同的分詞器分詞的規則是不同的！) 在建立索引時會用到分詞器，在

ElasticSearch-6.4.1安裝中文分詞器Analysis-ik.

一：使用背景和安裝過程. 1. ElasticSearch-6.4.1.(Windows環境下) &nbs

Solr 7.5配置、資料庫連線、Java（學習篇（2）IK分詞器配置）

2、配置IK分詞器（本人已把需要用到的所有工具、檔案、jar包上傳至百度網盤，有需要者可下載使用, 連結：https://pan.baidu.com/s/1G_L-h0PN2GAaPcreKuuhlg 提取碼：qnwe ）在ikanalyzer-solr6.5資料夾中找到核心jar包

Elasticsearch 中文分詞器IK

1、安裝說明 https://github.com/medcl/elasticsearch-analysis-ik 2、release版本 https://github.com/medcl/elasticsearch-analysis-ik/releases 3、安裝外掛 bin/elasti

elasticsearch 6.2.3 安裝IK分詞器及 IK分詞器簡單使用demo

IK分詞器與elasticsearch 有版本對應關係，點選這裡安裝一、安裝第二種方式：使用elasticsearch的命令elasticsearch-plugin安裝( version > v5.5.1 )，網路不好不一定能成功，這時可以採用第一

elasticsearch 中文分詞器 elasticsearch-analysis-ik

一、IK分詞器安裝 2、在 elasticsearch-5.4.0/plugins/ 目錄下新建名為 ik 的資料夾，拷貝elasticsearch-analysis-ik-5.4.0目錄下所有的檔案到 elasticsearch-5.4.0/plugins/ik/ 目

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

前言 2、solr的不同版本，對應不同版本的IK分詞器。由於IK 2012年停止更新了。所以以前的版本不適合新版的solr。有幸在網上扒到了IK原始碼自己稍微做了調整，用來相容solr6.2.0版本。IK原始碼下載地址步驟 1、解壓下載的src.rar壓縮包，這是我建

中文分詞器（IK）的配置檔案

中文（IK）分詞器是在IKAnalyzer分詞包中使用的，使用前請自行下載相應的jar包將這個檔案（IKAnalyzer.cfg.xml）放入到src的的目錄先， <?xml version="1.0" encoding="UTF-8"?> &

solr安裝到Linux及其ik分詞器配置（傻瓜操作複製貼上）

為避免安裝程式之間的互相錯亂，新建了一個目錄，並在其目錄下進行solr的安裝，下面的操作都是在該目錄下進行命令操作的。建立目錄命令：mkdir 目錄名1.匯入solr和tomcat的壓縮包到Linux伺服器中，並解壓解壓命令：tar -zxvf 要解壓的壓縮包名2.開啟sol

30_ElasticSearch IK分詞器配置檔案以及自定義詞庫

ElasticSearch IK分詞器配置檔案以及自定義詞庫更多幹貨一、概述ik配置檔案如何自己建立詞庫自己建立停用詞庫（不想去建立索引）二、ik配置檔案ik配置檔案地址：es/plugins/ik/config目錄IKAnalyzer.cfg.xml：用來配置自定義詞庫m

solr4.7中文分詞器（ik-analyzer）配置

solr本身對中文分詞的處理不是太好，所以中文應用很多時候都需要額外加一箇中文分詞器對中文進行分詞處理，ik-analyzer就是其中一個不錯的中文分詞器。一、版本資訊 solr版本：4.7.0 需要ik-analyzer版本：IK Analyzer 2012FF_h

理解ElasticSearch的中文分詞器【IK】

拷貝【target/releases/elasticsearch-analysis-ik-1.6.0.zip】中的檔案到【<ES_ROOT>/plugins/ik】目錄中。拷貝【elasticsearch-analysis-ik-1.6.0.zip】中的【config/ik】中的檔案到【<

elasticsearch之分詞查詢

elasticsearch使用elk時，search時默認帶有分詞功能，搜索關鍵字並不精準，為方便search查詢，將分詞功能禁用：curl -XPUT http://localhost:9200/_template/template_1 -d ‘{"template" : "*","order":0,"se

Es學習第五課，分詞器介紹和中文分詞器配置

上課我們介紹了倒排索引，在裡面提到了分詞的概念，分詞器就是用來分詞的。分詞器是ES中專門處理分詞的元件，英文為Analyzer，定義為：從一串文字中切分出一個一個的詞條，並對每個詞條進行標準化。它由三部分組成， Character Filters：分詞之前進行預處

基於高版本Lucene的中文分詞器（IK分詞器）的DEMO

注意為了大家方便，我沒有遮蔽資料庫，專案中用的資料來源請各位碼友不要亂搞~謝謝緣起日前專案中需要用到Lucene.且需要中文分詞，看了下IK分詞器，但是IK分詞器貌似只支援到lucene的3.X。後期的版本就不支援了，在網上找了一部分資料，自己寫了一個demo.因為中間

ElasticSearch中分詞器以及分詞原理：聽課筆記（38講-45講）

第38講第39講第40講第41講分詞器：拆分詞語，做normalization（時態轉換，單複數轉換，同義詞，大小寫的轉換）預設情況下是standard狀態，分詞的時候會將連詞and ，介詞a the an等詞幹掉第42講

Solr安裝及中文分詞器配置

1、上傳並解壓Solr、Tomcat 2、複製Solr到Tomcat cp -r solr-7.3.1/server/solr-webapp/webapp /home/tomcat/webapps/solr 3、複製jar包到Tomcat下的Solr cp -

入門整合案例(SpringBoot+Spring-data-elasticsearch) ---- (指定分詞器)

本節講解SpringBoot與Spring-data-elasticsearch整合的入門案例。一、環境搭建新建maven專案，名字隨意 pom.xml <parent><groupId>org.springframework.boot</groupId&g

聊聊 elasticsearch 之分詞器配置 (IK+pinyin)

系統：windows 10

elasticsearch版本：5.6.9

es分詞的選擇

es配置目錄結構

IK 分詞器

pinyin分詞器

分詞器的測試案例

結尾

相關推薦