Elasticsearch-IK分詞器詳解以及原始碼修改實現mysql熱更新

阿新 • • 發佈：2018-12-22

IK分詞器的安裝和使用
訪問ik分詞器github專案地址：https://github.com/medcl/elasticsearch-analysis-ik
1.在本地clone專案程式碼，git clone https://github.com/medcl/elasticsearch-analysis-ik.git
2.切換到對應本地elasticsearch版本號的tag，git checkout tags/5.5.2
3.通過maven進行專案打包，mvn package
4.拷貝/target/release/xxx.zip到/es/plugins/ik下面並解壓出來（注意層級關係，ik目錄下直接是解壓後的所有檔案，不能夠再有資料夾目錄）
5.重啟elasticsearch服務未報錯即可

IK分詞器有兩種Analyzer: ik_smart , ik_max_word，前者會做粗粒度的拆分，後者會做細粒度的儘可能多的拆分，一般使用後者來進行對中文的分詞處理

IK分詞器的使用

PUT /my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "text":{
          "type": "text",
          "analyzer": "ik_max_word"
        }
      }
    }
  }
}

GET /_analyze
{
  "text" 
:"你好 我來自深圳市 正在學習搜尋技術",
  "analyzer": "ik_max_word"
}

結果可以看到被分成了很多個詞

IK分詞器配置檔案詳解以及自定義詞庫
- 找到ik/config目錄下IKAnalyzer.cfg.xml檔案，用來配置自定義詞庫
- main.dic是原生詞庫總共27萬，只要是這些詞，都會被分詞在一起
- quantifier.dic是一些單位的相關詞
- suffix.dic是一些地方相關的字尾
- surname.dic是一些姓相關的詞
- stopword.dic是英文停用詞

最重要的配置是main.dic和stopword.dic

自定義詞庫：
修改IKAnalyzer.cfg.xml配置檔案，配置自定義擴充套件詞庫和停詞詞庫：

<properties>
    <comment>IK Analyzer 擴充套件配置</comment>
    <!--使用者可以在這裡配置自己的擴充套件字典 -->
    <entry key="ext_dict">custom/mydict.dic</entry>
     <!--使用者可以在這裡配置自己的擴充套件停止詞字典-->
    <entry key="ext_stopwords">custom/ext_sotpword.dic</entry>
    <!--使用者可以在這裡配置遠端擴充套件字典 -->
    <!-- <entry key="remote_ext_dict">words_location</entry> -->
    <!--使用者可以在這裡配置遠端擴充套件停止詞字典-->
    <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

在custom/mydict.dic和custom/ext_sotpword.dic下新增自定義的停用詞然後重啟es

➜  config cat mydict.dic 
網紅
藍瘦香菇
鬼畜

新增以上自定義詞語，然後再進行分詞測試

GET /my_index/_analyze
{
  "text":"藍瘦香菇 ",
  "analyzer": "ik_max_word"
}
返回
{
  "tokens": [
    {
      "token": "藍瘦香菇",
      "start_offset": 0,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "香菇",
      "start_offset": 2,
      "end_offset": 4,
      "type": "CN_WORD",
      "position": 1
    }
  ]
}

修改IK分詞器原始碼來基於mysql熱更新詞庫
對於分散式的es叢集，不可能去每個節點手動新增自定義的詞語，還要保證不停機
兩種熱更新的方案：
- 1.修改ik分詞器原始碼，然後手動支援從mysql中每隔一定時間，自動載入新的詞庫
- 2.基於ik分詞器原生支援的熱更新方案，部署一個web伺服器，提供一個http介面，通過modified和tag響應頭，來提供詞語的熱更新

通常會採用第一種方案，對於第二種官方也不推薦，因為不太穩定

修改原始碼步驟如下：
1、下載原始碼

ik分詞器，是個標準的java maven工程，直接匯入eclipse就可以看到原始碼

2、修改原始碼

Dictionary類，169行：Dictionary單例類的初始化方法，在這裡需要建立一個我們自定義的執行緒，並且啟動它
HotDictReloadThread類：就是死迴圈，不斷呼叫Dictionary.getSingleton().reLoadMainDict()，去重新載入詞典
Dictionary類，389行：this.loadMySQLExtDict();
Dictionary類，683行：this.loadMySQLStopwordDict();

3、mvn package打包程式碼

target\releases\elasticsearch-analysis-ik-5.2.0.zip

4、解壓縮ik壓縮包

將mysql驅動jar，放入ik的目錄下

5、修改jdbc相關配置

6、重啟es

觀察日誌，日誌中就會顯示我們列印的那些東西，比如載入了什麼配置，載入了什麼詞語，什麼停用詞

7、在mysql中新增詞庫與停用詞

8、分詞實驗，驗證熱更新生效

Elasticsearch-IK分詞器詳解以及原始碼修改實現mysql熱更新

IK分詞器的安裝和使用訪問ik分詞器github專案地址：https://github.com/medcl/elasticsearch-analysis-ik 1.在本地clone專案程式碼，git clone https://github.com/me

ElasticSearch IK分詞器下載

1、使用瀏覽器下載：注意ik分詞器需要和elasticsearch版本對應，在 v6.x.x和6.x.x.zip輸入你對應的版本號，下載完之後直接解壓elasticsearch-analysis-ik-6.x.x.zip，並將解壓後的檔案目錄elasticsearc

elasticsearch ik分詞器安裝

環境： centos 7.2 es 6.5.3 ik下載地址： https://github.com/medcl/elasticsearch-analysis-ik/releases 線上安裝命令： cd /usr/share/ela

自然語言處理之中文分詞器詳解

中文分詞是中文文字處理的一個基礎步驟，也是中文人機自然語言互動的基礎模組，不同於英文的是，中文句子中沒有詞的界限，因此在進行中文自然語言處理時，通常需要先進行分詞，分詞效果將直接影響詞性，句法樹等模組

自然語言處理之中文分詞器－jieba分詞器詳解及python實戰

中文分詞是中文文字處理的一個基礎步驟，也是中文人機自然語言互動的基礎模組，在進行中文自然語言處理時，通常需要先進行分詞。本文詳細介紹現在非常流行的且開源的分詞器結巴jieba分詞器，並使用python實

30_ElasticSearch IK分詞器配置檔案以及自定義詞庫

ElasticSearch IK分詞器配置檔案以及自定義詞庫更多幹貨一、概述ik配置檔案如何自己建立詞庫自己建立停用詞庫（不想去建立索引）二、ik配置檔案ik配置檔案地址：es/plugins/ik/config目錄IKAnalyzer.cfg.xml：用來配置自定義詞庫m

Elasticsearch ik分詞器修改原始碼實現從mysql中定時更新詞庫

下載原始碼匯入eclispe請參考我的上一篇文章ik分詞器安裝第一步修改pom檔案加入mysql驅動jar 如圖所示第二步修改Java類 1.在Dictionary.java檔案中新增一個方法 /** * 批量載

ElasticSearch-IK分詞器和整合使用

## 1.查詢存在問題分析在進行字串查詢時，我們發現去搜索"搜尋伺服器"和"鋼索"都可以搜尋到資料；而在進行詞條查詢時，我們搜尋"搜尋"卻沒有搜尋到資料；究其原因是ElasticSearch的標準分詞器導致的，當我們建立索引時，欄位使用的是標準分詞器： >如果使用ES搜尋中文內容，預設是不支援中文

ElasticSearch實戰二（es基本操作以及IK分詞器的安裝）

1 基本概念 1.1 Node 與 Cluster Elastic 本質上是一個分散式資料庫，允許多臺伺服器協同工作，每臺伺服器可以執行多個 Elastic 例項。單個 Elastic 例項稱為一個節點（node）。一組節點構成一個叢集（cluster）。 1.2 Index El

elasticsearch 安裝Ik+pinyin分詞配置詳解

一、拼音分詞的應用拼音分詞在日常生活中其實很常見，也許你每天都在用。開啟淘寶看一看吧,輸入拼音”zhonghua”,下面會有包含”zhonghua”對應的中文”中華”的商品的提示：拼音分詞是根據輸入的拼音提示對應的中文，通過拼音分詞提升搜尋體驗、加

Elasticsearch基於docker叢集搭建以及安裝ik分詞器

由於機器沒這麼多，所以用docker模擬真正的叢集搭建。 1、準備工作 1-1、準備docker環境：使用yum安裝docker: yum install -y docker-io 安裝完成後，開啟docker: systemctl start docker; 檢視d

ElasticSearch 用ik分詞器建立索引（java API）

tle creat analyzer undefined 全文搜索 () map 多用戶 tcl 　　ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Ja

Elasticsearch入門之從零開始安裝ik分詞器

gpo article terms n) rm -rf 從零開始系列 pack 默認起因需要在ES中使用聚合進行統計分析，但是聚合字段值為中文，ES的默認分詞器對於中文支持非常不友好：會把完整的中文詞語拆分為一系列獨立的漢字進行聚合，顯然這並不是我的初衷。我們來看個

Linux 安裝Elasticsearch和配置ik分詞器步驟

今天給同學們帶來的是關於Elasticsearch的簡單介紹以及如何在linux中搭建elasticsearch和增添ik分詞器，本篇文章我們以搭建elasticsearch為主，後續的文章中將會將es與springboot結合，將其新增到實際開發中。 1.Elasti

Elasticsearch之IK分詞器 java api

一、Elasticsearch分詞在elasticsearch自帶的分詞器中，對中文分詞是支援的，只是所有的分詞都是按照單字進行分詞的，例如所帶的標準的分詞器standard分詞器，可以按照如下的方式查詢是如何進行分詞的 http://localhost:9200/iktest/_anal

Elasticsearch加入IK分詞器

1.下載IK分詞器jar包 2.解壓到 G:\elasticsearch-2.4.0\plugins\ik 下 3.測試，啟動G:\elasticsearch-2.4.0\bin\elasticsearch.bat，開啟http://localhost:9200/xzhes/_analyze

ElasticSearch學習筆記之三十三 IK分詞器擴充套件字典及text全文型別資料分詞聚合查詢

ElasticSearch學習筆記之三十三 IK分詞器擴充套件字典及text全文型別資料分詞聚合查詢專屬詞彙分詞失敗擴充套件字典檢視當前詞庫自定義詞典更新配置再次檢視分詞 text全文型別資料分詞聚合

Elasticsearch 中文分詞器IK

1、安裝說明 https://github.com/medcl/elasticsearch-analysis-ik 2、release版本 https://github.com/medcl/elasticsearch-analysis-ik/releases 3、安裝外掛 bin/elasti

ElasticSearch中分詞器以及分詞原理：聽課筆記（38講-45講）

第38講第39講第40講第41講分詞器：拆分詞語，做normalization（時態轉換，單複數轉換，同義詞，大小寫的轉換）預設情況下是standard狀態，分詞的時候會將連詞and ，介詞a the an等詞幹掉第42講

Elasticsearch 安裝IK分詞器外掛

IK分詞安裝 #切換到elasticsearch安裝目錄bin目錄下 ./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.5.2/elasti

Elasticsearch-IK分詞器詳解以及原始碼修改實現mysql熱更新

相關推薦