ES ik分詞器使用技巧

阿新 • • 發佈：2018-11-12

match查詢會將查詢詞分詞，然後對分詞的結果進行term查詢。

bool查詢原理

然後預設是將每個分詞term查詢之後的結果求交集，所以只要分詞的結果能夠命中，某條資料就可以被查詢出來，而分詞是在新建索引時指定的，只有text型別的資料才能設定分詞策略。

新建索引，並指定分詞策略：

PUT mail_test3
{
  "settings": {
    "index": {
      "refresh_interval": "30s",
      "number_of_shards": "1",
      "number_of_replicas": "0"
    }
  },
  "mappings": {
    "default": {
      "_all": {
        "enabled": false
      },
      "_source": {
        "enabled": true
      },
      "properties": {
        "addressTude": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_smart",
          "copy_to": [
            "commonText"
          ],
          "fielddata": true
        },
        "captureTime": {
          "type": "long"
        },
        "commonText": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_smart",
          "fielddata": true
        },
        "commonNum":{
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_smart",
          "fielddata": true
        },
        "imsi": {
          "type": "keyword",
          "copy_to": ["commonNum"]
        },
        "mailFrom": {
          "type": "keyword",
          "copy_to": ["commonText"]
        },
        "mailSubject": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_smart",
          "copy_to": [
            "commonText"
          ]
        },
        "mcc": {
          "type": "integer",
          "copy_to": ["commonNum"]
        },
        "rcptTo": {
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_smart",
          "copy_to": ["commonText"]
        },
        "userName": {
          "type": "keyword",
          "copy_to": ["commonText"]
        },
        "uuid": {
          "type": "keyword"
        }
      }
    }
  }
}

analyzer 指的是在建索引時的分詞策略，search_analyzer 指的是在查詢時的分詞策略。ik分詞器還有一種ik_smart 的分詞策略，可以比較兩種分詞策略的差別：

ik_smart分詞策略：

GET mail_test3/_analyze
{
  "analyzer": "ik_smart",
  "text": "湖南省湘潭市江山路96號-11-8"
}

結果：

{
  "tokens": [
    {
      "token": "湖南省",
      "start_offset": 0,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "湘潭市",
      "start_offset": 3,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 1
    },
    {
      "token": "江",
      "start_offset": 6,
      "end_offset": 7,
      "type": "CN_CHAR",
      "position": 2
    },
    {
      "token": "山路",
      "start_offset": 7,
      "end_offset": 9,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "96號",
      "start_offset": 9,
      "end_offset": 12,
      "type": "TYPE_CQUAN",
      "position": 4
    },
    {
      "token": "11-8",
      "start_offset": 13,
      "end_offset": 17,
      "type": "LETTER",
      "position": 5
    }
  ]
}

ik_max_word分詞策略：

GET mail_test1/_analyze
{
  "analyzer": "ik_max_word",
  "text": "湖南省湘潭市江山路96號-11-8"
}

分詞結果：

 {
  "tokens": [
    {
      "token": "湖南省",
      "start_offset": 0,
      "end_offset": 3,
      "type": "CN_WORD",
      "position": 0
    },
    {
      "token": "湖南",
      "start_offset": 0,
      "end_offset": 2,
      "type": "CN_WORD",
      "position": 1
    },
    {
      "token": "省",
      "start_offset": 2,
      "end_offset": 3,
      "type": "CN_CHAR",
      "position": 2
    },
    {
      "token": "湘潭市",
      "start_offset": 3,
      "end_offset": 6,
      "type": "CN_WORD",
      "position": 3
    },
    {
      "token": "湘潭",
      "start_offset": 3,
      "end_offset": 5,
      "type": "CN_WORD",
      "position": 4
    },
    {
      "token": "市",
      "start_offset": 5,
      "end_offset": 6,
      "type": "CN_CHAR",
      "position": 5
    },
    {
      "token": "江山",
      "start_offset": 6,
      "end_offset": 8,
      "type": "CN_WORD",
      "position": 6
    },
    {
      "token": "山路",
      "start_offset": 7,
      "end_offset": 9,
      "type": "CN_WORD",
      "position": 7
    },
    {
      "token": "96",
      "start_offset": 9,
      "end_offset": 11,
      "type": "ARABIC",
      "position": 8
    },
    {
      "token": "號",
      "start_offset": 11,
      "end_offset": 12,
      "type": "COUNT",
      "position": 9
    },
    {
      "token": "11-8",
      "start_offset": 13,
      "end_offset": 17,
      "type": "LETTER",
      "position": 10
    },
    {
      "token": "11",
      "start_offset": 13,
      "end_offset": 15,
      "type": "ARABIC",
      "position": 11
    },
    {
      "token": "8",
      "start_offset": 16,
      "end_offset": 17,
      "type": "ARABIC",
      "position": 12
    }
  ]
}

ik_max_word分詞器的分詞結果更多，分詞的粒度更細，但是ik_smart的分詞結果粒度更粗，一般的策略是建立索引使用ik_max_word，查詢時使用ik_smart，這樣就能儘可能多的查到結果，而且上文提到，match查詢最終是轉化為term查詢，因此只要某個分詞結果命中，結果中就會有該條資料。

如果對搜尋結果的精度較高，可以在查詢中加入operator引數，然後讓分詞結果的每個term查詢結果之間求交集，這樣能儘可能地提高精度。

這裡的operator設定為or和and的差別較大，可以測試進行比較：

GET mail_test3/_search
{
  "query": {
    "match": {
      "commonText": {
         "query": "湖北省宜昌市天台東二街",
         "operator": "and"
      }
    }
  }
}

ES ik分詞器使用技巧

match查詢會將查詢詞分詞，然後對分詞的結果進行term查詢。然後預設是將每個分詞term查詢之後的結果求交集，所以只要分詞的結果能夠命中，某條資料就可以被查詢出來，而分詞是在新建索引時指定的，只有text型別的資料才能設定分詞策略。新建索引，並指定分詞策略： PUT mail_test3 {

docker之es+es-head+kibana+ik分詞器安裝

data elastics work str search url 使用數據 head 一、es 第一步：搜索docker search elasticsearch第二步：下載鏡像第三步：創建數據文件夾和配置文件宿主服務器創建文件夾mkdir -p /docker/es1

ElasticSearch實戰二（es基本操作以及IK分詞器的安裝）

1 基本概念 1.1 Node 與 Cluster Elastic 本質上是一個分散式資料庫，允許多臺伺服器協同工作，每臺伺服器可以執行多個 Elastic 例項。單個 Elastic 例項稱為一個節點（node）。一組節點構成一個叢集（cluster）。 1.2 Index El

ES中的分析器和IK分詞器外掛

一些概念 Token（詞元）全文搜尋引擎會用某種演算法對要建索引的文件進行分析，從文件中提取出若干Tokenizer(分詞器) Tokenizer(分詞器) 這些演算法叫做Tokenizer(分詞器) Token F

安裝ik分詞器以及版本和ES版本的相容性

一.檢視自己ES的版本號與之對應的IK分詞器版本 https://github.com/medcl/elasticsearch-analysis-ik/blob/master/README.md 二.下載與之對應的版本 https://github.com/medcl/elasticse

13.solr學習速成之IK分詞器

更新 api 一個廣泛針對 -i 處理器多個 -1 IKAnalyzer簡介 IKAnalyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包。 IKAnalyzer特性 a. 算法采用“正向叠代最細粒度切分算法”，支持細粒度和最大詞

IK分詞器安裝

ik分詞器安裝簡介：當前講解的 IK分詞器包的 version 為1.8。一、下載zip包。下面有附件鏈接【ik-安裝包.zip】，下載即可。二、上傳zip包。下載後解壓縮，如下圖。打開修改修改好後打成zip包。# ‘elasticsearch.version‘ version o

ElasticSearch 用ik分詞器建立索引（java API）

tle creat analyzer undefined 全文搜索 () map 多用戶 tcl 　　ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Ja

如何開發自己的搜索帝國之安裝ik分詞器

style utf-8 編碼 ref 文本需要 shell pack 用戶 you 　　 Elasticsearch默認提供的分詞器，會把每個漢字分開，而不是我們想要的根據關鍵詞來分詞，我是中國人不能簡單的分成一個個字，我們更希望 “中國人”，&

Elasticsearch入門之從零開始安裝ik分詞器

gpo article terms n) rm -rf 從零開始系列 pack 默認起因需要在ES中使用聚合進行統計分析，但是聚合字段值為中文，ES的默認分詞器對於中文支持非常不友好：會把完整的中文詞語拆分為一系列獨立的漢字進行聚合，顯然這並不是我的初衷。我們來看個

lucene_07_solr使用IK分詞器

分詞 ext rfi 使用 gpo 自定義中文 web pre 使用IKAnalyzer 中文分析器。. 第一步: 把,IKAnalyzer2012FF_u1j 添加到sol/WEB-INF/lib 目錄下。第二步: 復制IKAnalyzer 的配置文件和自定義詞典

Lucene介紹及簡單入門案例（集成ik分詞器）

chinese depend 創建索引圖片 latest frame numeric id字段 div 介紹　　　　Lucene是apache軟件基金會4 jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包，但它不是一個完整的全文檢索引擎，而是一個

IK分詞器用法

con ade enc nbsp 分區 lac eset smart true 一）新建maven工程 1.1)項目結構如下： 1.2)IKAnalyzer.cfg.xml內容如下： <?xml version="1.0" encoding="UTF-8"?&g

Linux 安裝Elasticsearch和配置ik分詞器步驟

今天給同學們帶來的是關於Elasticsearch的簡單介紹以及如何在linux中搭建elasticsearch和增添ik分詞器，本篇文章我們以搭建elasticsearch為主，後續的文章中將會將es與springboot結合，將其新增到實際開發中。 1.Elasti

solr配置IK分詞器報錯

new_core: org.apache.solr.common.SolrException:org.apache.solr.common.SolrException: JVM Error creating core [new_core]: class org.wltea.analy

Elasticsearch5.4.0叢集安裝IK分詞器

1、ik分詞器下載地址：https://github.com/medcl/elasticsearch-analysis-ik/releases?after=v5.5.3 注意：一定要下載和自己es版本匹配的ik分詞器 2、解壓elasticsearch

Solr 7.5配置、資料庫連線、Java（學習篇（2）IK分詞器配置）

2、配置IK分詞器（本人已把需要用到的所有工具、檔案、jar包上傳至百度網盤，有需要者可下載使用, 連結：https://pan.baidu.com/s/1G_L-h0PN2GAaPcreKuuhlg 提取碼：qnwe ）在ikanalyzer-solr6.5資料夾中找到核心jar包

windows配置ik分詞器

elastic search 簡稱ES，ES配置ik分詞器，可以提高搜尋效率一環境準備 ES搭建:https://blog.csdn.net/qq_36819281/article/details/83716330 kibana搭建:https://blog.csdn.net/qq_368

【Docker系列】認識ELK,docker安裝ELK和IK分詞器

1.ELK簡介 ELK是三個開源軟體的縮寫，分別表示：Elasticsearch , Logstash, Kibana , 它們都是開源軟體。新增了一個FileBeat，它是一個輕量級的日誌收集處理工具(Agent)，Filebeat佔用資源少，適合於在各個伺服器上搜集日誌後傳輸給Logstash，官方也推

Elasticsearch之IK分詞器 java api

一、Elasticsearch分詞在elasticsearch自帶的分詞器中，對中文分詞是支援的，只是所有的分詞都是按照單字進行分詞的，例如所帶的標準的分詞器standard分詞器，可以按照如下的方式查詢是如何進行分詞的 http://localhost:9200/iktest/_anal

ES ik分詞器使用技巧

相關推薦