Elasticsearch ik分詞器修改原始碼實現從mysql中定時更新詞庫

阿新 • • 發佈：2019-02-16

下載原始碼匯入eclispe請參考我的上一篇文章ik分詞器安裝

第一步修改pom檔案

加入mysql驅動jar 如圖所示
這裡寫圖片描述

第二步修改Java類

1.在Dictionary.java檔案中新增一個方法
這裡寫圖片描述

/**
     * 批量載入新停用詞條
     * 
     * @param words
     *            Collection<String>詞條列表
     */
    public void addStopWords(Collection<String> words) {
        if (words != null 
) {
            for (String word : words) {
                if (word != null) {
                    // 批量載入詞條到主記憶體詞典中
                    _StopWords.fillSegment(word.trim().toCharArray());
                }
            }
        }
    }

2.新建一個包並新增幾個Java檔案
這裡寫圖片描述
第一個 StringUtils.java

package org.wltea.analyzer.ext;


public 
 class StringUtils {
    /**
     * 判斷字串是否為空 為空返回true 否則返回false
     * @param str
     * @return
     */
    public static boolean isBlank(String str) {
        int strLen;
        if (str == null || (strLen = str.length()) == 0) {
            return true;
        }
        for (int i = 0; i < strLen; i++) {
            if 
 ((Character.isWhitespace(str.charAt(i)) == false)) {
                return false;
            }
        }
        return true;
    }
    /**
     * 判斷字串是否不為空 為空返回false 否則返回true
     * @param str
     * @return
     */
    public static boolean isNotBlank(String str) {
        return !StringUtils.isBlank(str);
    }
}

第二個 DBHelper.java

package org.wltea.analyzer.ext;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.text.SimpleDateFormat;
import java.time.LocalDate;
import java.util.Arrays;
import java.util.Date;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.TimeZone;

import org.apache.logging.log4j.Logger;
import org.elasticsearch.common.logging.Loggers;

public class DBHelper {
    Logger logger=Loggers.getLogger(DBRunnable.class);

    public static String url = null;
    public static String dbUser = null;
    public static String dbPwd = null;
    public static String dbTable = null;
    /*public static String url = "jdbc:mysql:///elasticsearch";
    public static String dbUser = "root";
    public static String dbPwd = "whdhz19";
    public static String dbTable = "t_es_ik_dic";*/
    private Connection conn;
    public static Map<String, Date> lastImportTimeMap = new HashMap<String, Date>();

    static{
        try {
            Class.forName("com.mysql.jdbc.Driver");// 載入Mysql資料驅動
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

    private Connection getConn() throws Exception {
        try {
            conn = DriverManager.getConnection(url, dbUser, dbPwd);// 建立資料連線
        } catch (Exception e) {
            e.printStackTrace();
        }
        return conn;
    }

    /**
     * 
     * @param key 資料庫中的屬性 擴充套件詞 停用詞 同義詞等
     * @param flag
     * @param synony
     * @return
     * @throws Exception
     */
    public String getKey(String key, boolean flag, boolean... synony) throws Exception {

        conn = getConn();
        StringBuilder data = new StringBuilder();
        PreparedStatement ps = null;
        ResultSet rs = null;
        try {
            StringBuilder sql = new StringBuilder("select  *  from " + dbTable + "  where delete_type=0");
            //lastImportTime 最新更新時間 
            Date lastImportTime = DBHelper.lastImportTimeMap.get(key);
            SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
            if (lastImportTime != null && flag) {
                sql.append(" and update_time > '" + sdf.format(lastImportTime) + "'");
            }

            sql.append(" and " + key + " !=''");
            lastImportTime = new Date();
            lastImportTimeMap.put(key,lastImportTime);
            //如果打印出來的時間 和本地時間不一樣，則要注意JVM時區是否和伺服器系統時區一致
            logger.warn("sql==={}",sql.toString());
            ps = conn.prepareStatement(sql.toString());
            rs = ps.executeQuery();
            while (rs.next()) {
                String value = rs.getString(key);
                if (StringUtils.isNotBlank(value)) {
                    if (synony != null&&synony.length>0) {
                        data.append(value + "\n");
                    } else {
                        data.append(value + ",");
                    }
                }

            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {
            try {
                if (ps != null) {
                    ps.close();

                }
                if (rs != null) {
                    rs.close();
                }

                conn.close();

            } catch (Exception e) {
                e.printStackTrace();
            }
        }
        return data.toString();
    }

    public static void main(String[] args) throws Exception {
        DBHelper dbHelper=new DBHelper();
        String extWords=dbHelper.getKey("ext_word",true);
        List<String> extList = Arrays.asList(extWords.split(","));
        System.out.println(extList);
        // System.out.println(getKey("stopword"));
        // System.out.println(getKey("synonym"));
        LocalDate now=LocalDate.now();

    }


}

第三個 DBRunnable.java

package org.wltea.analyzer.ext;



import java.util.Arrays;
import java.util.List;

import org.apache.logging.log4j.Logger;
import org.elasticsearch.common.logging.Loggers;
import org.wltea.analyzer.dic.Dictionary;

public class DBRunnable implements Runnable {
    Logger logger = Loggers.getLogger(DBRunnable.class);
    private String extField;
    private String stopField;


    public DBRunnable(String extField, String stopField) {
        super();
        this.extField = extField;
        this.stopField = stopField;
    }


    @Override
    public void run() {
        logger.warn("開始載入詞庫========");
        //獲取詞庫
        Dictionary dic = Dictionary.getSingleton();
        DBHelper dbHelper = new DBHelper();
        try {
            String extWords = dbHelper.getKey(extField, true);
            String stopWords = dbHelper.getKey(stopField, true);
            if(StringUtils.isNotBlank(extWords)){
                List<String> extList = Arrays.asList(extWords.split(","));
                //把擴充套件詞載入到主詞庫中
                dic.addWords(extList);
                logger.warn("載入擴充套件詞成功========");
                logger.warn("extWords為==={}",extWords);
            }
            if(StringUtils.isNotBlank(stopWords)){
                List<String> stopList = Arrays.asList(stopWords.split(","));
                //把擴充套件詞載入到主詞庫中
                dic.addStopWords(stopList);
                logger.warn("載入停用詞成功========");
                logger.warn("stopWords為==={}",stopWords);
            }
        } catch (Exception e) {

            logger.warn("載入擴充套件詞失敗========{}",e);
        }

    }

}

第三步

複製AnalysisIkPlugin.java檔案
這裡寫圖片描述
增加一個方法不然elasticsearch 不能識別配置檔案中自己新增的屬性

@Override
    public List<Setting<?>> getSettings() {
        Setting<String> dbUrl=new Setting<>("dbUrl", "", Function.identity(), Property.NodeScope);
        Setting<String> dbUser = new Setting<>("dbUser", "", Function.identity(),Property.NodeScope);
        Setting<String> dbPwd = new Setting<>("dbPwd", "", Function.identity(),Property.NodeScope);
        Setting<String> dbTable = new Setting<>("dbTable", "", Function.identity(),Property.NodeScope);
        Setting<String> extField = new Setting<>("extField", "", Function.identity(),Property.NodeScope);
        Setting<String> stopField = new Setting<>("stopField", "", Function.identity(),Property.NodeScope);
        Setting<Integer> flushTime =Setting.intSetting("flushTime", 5, Property.NodeScope);
        Setting<Boolean> autoReloadDic = Setting.boolSetting("autoReloadDic", false, Property.NodeScope);
        return Arrays.asList(dbUrl,dbUser,dbPwd,dbTable,extField,stopField,flushTime,autoReloadDic);
    }

第四步

備份IkTokenizerFactory.java檔案
這裡寫圖片描述
修改IkTokenizerFactory.java的構造方法修改後程式碼如下

public IkTokenizerFactory(IndexSettings indexSettings, Environment env, String name, Settings settings) {
      super(indexSettings, name, settings);
      configuration=new Configuration(env,settings);

      //從es配置檔案elasticserach.yml中獲取mysql資訊
      Settings s = indexSettings.getSettings();
      String dbUrl = s.get("dbUrl");
      boolean autoReloadDic=s.getAsBoolean("autoReloadDic", false);
      if(autoReloadDic&&StringUtils.isBlank(DBHelper.url)&&StringUtils.isNotBlank(dbUrl)){
          String dbUser = s.get("dbUser");
          String dbPwd = s.get("dbPwd");
          //獲取每隔多久從資料庫更新資訊 預設60S
          Integer flushTime = s.getAsInt("flushTime", 60);
          String dbTable = s.get("dbTable");
          DBHelper.dbTable=dbTable;
          DBHelper.dbUser=dbUser;
          DBHelper.dbPwd=dbPwd;
          DBHelper.url=dbUrl;
          logger.warn("dbUrl=========={}",dbUrl);
          String extField = s.get("extField");
          String stopField = s.get("stopField");
          logger.warn("extField=========={}",extField);
          logger.warn("stopField=========={}",stopField);
          ScheduledExecutorService  scheduledExecutorService  =  Executors.newSingleThreadScheduledExecutor();
          scheduledExecutorService.scheduleAtFixedRate(new DBRunnable(extField,stopField), 0, flushTime, TimeUnit.SECONDS);
      }

  }

第五步

在Dictionary.java檔案中新增一個方法
這裡寫圖片描述

/**
     * 批量載入新停用詞條
     * 
     * @param words
     *            Collection<String>詞條列表
     */
    public void addStopWords(Collection<String> words) {
        if (words != null) {
            for (String word : words) {
                if (word != null) {
                    // 批量載入詞條到主記憶體詞典中
                    _StopWords.fillSegment(word.trim().toCharArray());
                }
            }
        }
    }

以上，ik分詞器修改結束打包複製 elasticsearch-analysis-ik-5.5.2.jar 替換掉伺服器上plugins資料夾下ik外掛裡面的同名jar包即可
這裡寫圖片描述
如果伺服器還沒有安裝ik分詞器外掛，則將下圖所示打好的壓縮包上傳到plugins資料夾下解壓即可

注意：將mysql驅動jar mysql-connector-java-5.1.8.jar放入到解壓好的ik外掛資料夾裡如圖所示
這裡寫圖片描述
下面進行測試

第六步修改elasticsearch配置檔案

[root@model elasticsearch-5.5.2]# vim config/elasticsearch.yml

最下面新增

dbUrl: jdbc:mysql://192.168.254.1/elasticsearch
dbUser: root
dbPwd: whdhz19
dbTable: t_es_ik_dic
extField: ext_word
stopField: stop_word
flushTime: 5
autoReloadDic: true

儲存退出即可
下面進行測試

第七步 mysql建表

CREATE TABLE t_es_ik_dic (
  id int(11) PRIMARY KEY AUTO_INCREMENT COMMENT '自增id',
  ext_word varchar(100) DEFAULT '' COMMENT '擴充套件分詞',
  stop_word varchar(100) DEFAULT '' COMMENT '停用詞',
  synonym varchar(100) DEFAULT '' COMMENT '同義詞',
  dic_status tinyint(4) DEFAULT '0' COMMENT '狀態，0表示未新增，1表示新增',
  delete_type tinyint(4) DEFAULT '0' COMMENT '0表示未刪除，1表示刪除',
  create_time timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '建立時間',
  update_time timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新時間'

)

第八步啟動

如果命令列列印如圖所示，則表示啟動成功
這裡寫圖片描述
這時候可以在測試表中新增一些測試資料

如果命令列輸出如圖所示，表示新增擴充套件詞成功成功

第九步使用kibana進行測試

分詞效果，如圖所示
這裡寫圖片描述

第十步測試停用詞

比如上例，認為 “米” 這個詞沒什麼意義不用分詞，則在資料庫新增如圖所示
這裡寫圖片描述
命令列輸出如圖所示

kibana分詞如圖所示

Elasticsearch ik分詞器修改原始碼實現從mysql中定時更新詞庫

下載原始碼匯入eclispe請參考我的上一篇文章ik分詞器安裝第一步修改pom檔案加入mysql驅動jar 如圖所示第二步修改Java類 1.在Dictionary.java檔案中新增一個方法 /** * 批量載

Elasticsearch-IK分詞器詳解以及原始碼修改實現mysql熱更新

IK分詞器的安裝和使用訪問ik分詞器github專案地址：https://github.com/medcl/elasticsearch-analysis-ik 1.在本地clone專案程式碼，git clone https://github.com/me

ElasticSearch IK分詞器下載

1、使用瀏覽器下載：注意ik分詞器需要和elasticsearch版本對應，在 v6.x.x和6.x.x.zip輸入你對應的版本號，下載完之後直接解壓elasticsearch-analysis-ik-6.x.x.zip，並將解壓後的檔案目錄elasticsearc

elasticsearch ik分詞器安裝

環境： centos 7.2 es 6.5.3 ik下載地址： https://github.com/medcl/elasticsearch-analysis-ik/releases 線上安裝命令： cd /usr/share/ela

ElasticSearch-IK分詞器和整合使用

## 1.查詢存在問題分析在進行字串查詢時，我們發現去搜索"搜尋伺服器"和"鋼索"都可以搜尋到資料；而在進行詞條查詢時，我們搜尋"搜尋"卻沒有搜尋到資料；究其原因是ElasticSearch的標準分詞器導致的，當我們建立索引時，欄位使用的是標準分詞器： >如果使用ES搜尋中文內容，預設是不支援中文

Elasticsearch 之（25）重寫IK分詞器原始碼來基於mysql熱更新詞庫

熱更新在上一節《IK分詞器配置檔案講解以及自定義詞庫》自定義詞庫，每次都是在es的擴充套件詞典中，手動新增新詞語，很坑（1）每次新增完，都要重啟es才能生效，非常麻煩（2）es是分散式的，可能有數百個節點，你不能每次都一個一個節點上面去修改es不停機，直接我們在外部某個地方新

ElasticSearch 用ik分詞器建立索引（java API）

tle creat analyzer undefined 全文搜索 () map 多用戶 tcl 　　ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Ja

Elasticsearch入門之從零開始安裝ik分詞器

gpo article terms n) rm -rf 從零開始系列 pack 默認起因需要在ES中使用聚合進行統計分析，但是聚合字段值為中文，ES的默認分詞器對於中文支持非常不友好：會把完整的中文詞語拆分為一系列獨立的漢字進行聚合，顯然這並不是我的初衷。我們來看個

Linux 安裝Elasticsearch和配置ik分詞器步驟

今天給同學們帶來的是關於Elasticsearch的簡單介紹以及如何在linux中搭建elasticsearch和增添ik分詞器，本篇文章我們以搭建elasticsearch為主，後續的文章中將會將es與springboot結合，將其新增到實際開發中。 1.Elasti

ElasticSearch實戰二（es基本操作以及IK分詞器的安裝）

1 基本概念 1.1 Node 與 Cluster Elastic 本質上是一個分散式資料庫，允許多臺伺服器協同工作，每臺伺服器可以執行多個 Elastic 例項。單個 Elastic 例項稱為一個節點（node）。一組節點構成一個叢集（cluster）。 1.2 Index El

Elasticsearch之IK分詞器 java api

一、Elasticsearch分詞在elasticsearch自帶的分詞器中，對中文分詞是支援的，只是所有的分詞都是按照單字進行分詞的，例如所帶的標準的分詞器standard分詞器，可以按照如下的方式查詢是如何進行分詞的 http://localhost:9200/iktest/_anal

Elasticsearch加入IK分詞器

1.下載IK分詞器jar包 2.解壓到 G:\elasticsearch-2.4.0\plugins\ik 下 3.測試，啟動G:\elasticsearch-2.4.0\bin\elasticsearch.bat，開啟http://localhost:9200/xzhes/_analyze

IK分詞器實現原理

1、IK分詞器也是基於正向匹配的分詞演算法。 2、IK分詞器，基本可分為兩種模式，一種為smart模式，一種為非smart模式 3、非smart模式所做的就是將能夠分出來的詞全部輸出；smart模式下，IK分詞器則會根據內在方法輸出一個認為最合理的分詞結果，這就涉及到了歧

ElasticSearch學習筆記之三十三 IK分詞器擴充套件字典及text全文型別資料分詞聚合查詢

ElasticSearch學習筆記之三十三 IK分詞器擴充套件字典及text全文型別資料分詞聚合查詢專屬詞彙分詞失敗擴充套件字典檢視當前詞庫自定義詞典更新配置再次檢視分詞 text全文型別資料分詞聚合

Elasticsearch 中文分詞器IK

1、安裝說明 https://github.com/medcl/elasticsearch-analysis-ik 2、release版本 https://github.com/medcl/elasticsearch-analysis-ik/releases 3、安裝外掛 bin/elasti

實操重寫IK分詞器原始碼，基於mysql熱更新詞庫

實操重寫IK分詞器原始碼，基於mysql熱更新詞庫參考網址：https://blog.csdn.net/wuzhiwei549/article/details/80451302 問題一：按照這篇文章的介紹，遇到一個問題：No suitable driver found for jdbc:mysql，搞了好久

Elasticsearch 安裝IK分詞器外掛

IK分詞安裝 #切換到elasticsearch安裝目錄bin目錄下 ./elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.5.2/elasti

elasticsearch 6.2.3 安裝IK分詞器及 IK分詞器簡單使用demo

IK分詞器與elasticsearch 有版本對應關係，點選這裡安裝一、安裝第二種方式：使用elasticsearch的命令elasticsearch-plugin安裝( version > v5.5.1 )，網路不好不一定能成功，這時可以採用第一

elasticsearch 中文分詞器 elasticsearch-analysis-ik

一、IK分詞器安裝 2、在 elasticsearch-5.4.0/plugins/ 目錄下新建名為 ik 的資料夾，拷貝elasticsearch-analysis-ik-5.4.0目錄下所有的檔案到 elasticsearch-5.4.0/plugins/ik/ 目

ElasticSearch學習筆記（二）IK分詞器和拼音分詞器的安裝

ElasticSearch是自帶分詞器的，但是自帶的分詞器一般就只能對英文分詞，對英文的分詞只要識別空格就好了，還是很好做的（ES的這個分詞器和Lucene的分詞器很想，是不是直接使用Lucene的就不知道），自帶的分詞器對於中文就只能分成一個字一個字，這個顯然

Elasticsearch ik分詞器修改原始碼實現從mysql中定時更新詞庫

第一步 修改pom檔案

第二步 修改Java類

第三步

第四步

第五步

第六步 修改elasticsearch配置檔案

第七步 mysql建表

第八步 啟動

第九步 使用kibana進行測試

第十步 測試停用詞

相關推薦

第一步修改pom檔案

第二步修改Java類

第六步修改elasticsearch配置檔案

第八步啟動

第九步使用kibana進行測試

第十步測試停用詞