Elasticsearch 自定義多個分析器

阿新 • • 發佈：2019-02-18

分析器(Analyzer)

Elasticsearch 無論是內建分析器還是自定義分析器，都由三部分組成：字元過濾器(Character Filters)、分詞器(Tokenizer)、詞元過濾器(Token Filters)。

分析器Analyzer工作流程：

Input Text => Character Filters(如果有多個，按順序應用) => Tokenizer => Token Filters(如果有多個，按順序應用) => Output Token

字元過濾器(Character Filters)

字元過濾器：對原始文字預處理，如去除HTML標籤，”&”轉成”and”等。

注意：一個分析器同時有多個字元過濾器時，按順序應用。

分詞器(Tokenizer)

分詞器：將字串分解成一系列的詞元Token。如根據空格將英文單詞分開。

詞元過濾器(Token Filters)

詞元過濾器：對分詞器分出來的詞元Token做進一步處理，如轉換大小寫、移除停用詞、單複數轉換、同義詞轉換等。

注意：一個分析器同時有多個詞元過濾器時，按順序應用。

分析器analyze API的使用

分析器analyze API可驗證分析器的分析效果並解釋分析過程。

# text: 待分析文字
# explain:解釋分析過程
# char_filter:字元過濾器 

# tokenizer:分詞器
# filter:詞元過濾器

GET _analyze 
{
  "char_filter" : ["html_strip"],
  "tokenizer": "standard",
  "filter":  [ "lowercase"],
  "text": "<p><em>No <b>dreams</b>, why bother <b>Beijing</b> !</em></p>",
  "explain" : true
}

自定義多個分析器

建立索引並自定義多個分析器

這裡對一個索引同時定義了多個分析器。

PUT my_index
{
  "settings": {
    "number_of_shards": 3,
    "number_of_replicas": 1, 
    "analysis": { 
      "char_filter": { //自定義多個字元過濾器
        "my_charfilter1": {
          "type": "mapping",
          "mappings": ["& => and"]
        },
        "my_charfilter2": {
          "type": "pattern_replace",
          "pattern": "(\\d+)-(?=\\d)",
          "replacement": "$1_"
        }
      },
      "tokenizer":{  //自定義多個分詞器
          "my_tokenizer1": {
              "pattern":"\\s+",
              "type":"pattern"
            },
          "my_tokenizer2":{
                "pattern":"_",
                "type":"pattern"
            }
      },
      "filter": {  //自定義多個詞元過濾器
        "my_tokenfilter1": {
          "type": "stop",
          "stopwords": ["the", "a","an"]
        },
        "my_tokenfilter2": {
          "type": "stop",
          "stopwords": ["info", "debug"]
        }
      },
      "analyzer": { //自定義多個分析器
         "my_analyzer1":{  //分析器my_analyzer1 
           "char_filter": ["html_strip", "my_charfilter1","my_charfilter2"],
           "tokenizer":"my_tokenizer1",
           "filter": ["lowercase", "my_tokenfilter1"]
         },
         "my_analyzer2":{  //分析器my_analyzer2
           "char_filter": ["html_strip"],
           "tokenizer":"my_tokenizer2",
           "filter": ["my_tokenfilter2"]
         }
      }
    }
  }
}

驗證索引my_index的多個分析器

驗證分析器my_analyzer1分析效果

GET /my_index/_analyze
{
  "text": "<b>Tom </b> & <b>jerry</b> in the room number 1-1-1",
  "analyzer": "my_analyzer1"//,
  //"explain": true
}

#返回結果
{
  "tokens": [
    {
      "token": "tom",
      "start_offset": 3,
      "end_offset": 6,
      "type": "word",
      "position": 0
    },
    {
      "token": "and",
      "start_offset": 12,
      "end_offset": 13,
      "type": "word",
      "position": 1
    },
    {
      "token": "jerry",
      "start_offset": 17,
      "end_offset": 26,
      "type": "word",
      "position": 2
    },
    {
      "token": "in",
      "start_offset": 27,
      "end_offset": 29,
      "type": "word",
      "position": 3
    },
    {
      "token": "room",
      "start_offset": 34,
      "end_offset": 38,
      "type": "word",
      "position": 5
    },
    {
      "token": "number",
      "start_offset": 39,
      "end_offset": 45,
      "type": "word",
      "position": 6
    },
    {
      "token": "1_1_1",
      "start_offset": 46,
      "end_offset": 51,
      "type": "word",
      "position": 7
    }
  ]
}

驗證分析器my_analyzer2分析效果

GET /my_index/_analyze
{
  "text": "<b>debug_192.168.113.1_971213863506812928</b>",
  "analyzer": "my_analyzer2"//,
  //"explain": true
}


#返回結果
{
  "tokens": [
    {
      "token": "192.168.113.1",
      "start_offset": 9,
      "end_offset": 22,
      "type": "word",
      "position": 1
    },
    {
      "token": "971213863506812928",
      "start_offset": 23,
      "end_offset": 45,
      "type": "word",
      "position": 2
    }
  ]
}

新增Mapping併為不同欄位設定不同分析器

PUT my_index/_mapping/my_type
{
      "properties": {
      "my_field1": {
        "type": "text",
        "analyzer": "my_analyzer1",
        "fields": {
          "keyword": {
            "type": "keyword"
          }
        }
      },
      "my_field2": {
        "type": "text",
        "analyzer": "my_analyzer2",
        "fields": {
          "keyword": {
            "type": "keyword"
          }
        }
      }
    }
}

建立文件

PUT my_index/my_type/1
{
  "my_field1":"<b>Tom </b> & <b>jerry</b> in the room number 1-1-1",
  "my_field2":"<b>debug_192.168.113.1_971213863506812928</b>"
}

Query-Mathch全文檢索

查詢時，ES會根據欄位使用的分析器進行分析，然後檢索。

#查詢my_field2欄位包含IP:192.168.113.1的文件
GET my_index/_search
{
  "query": {
    "match": {
      "my_field2": "192.168.113.1"
    }
  }
}

#返回結果
{
  "took": 22,
  "timed_out": false,
  "_shards": {
    "total": 3,
    "successful": 3,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": 0.2876821,
        "_source": {
          "my_field1": "<b>Tom </b> & <b>jerry</b> in the room number 1-1-1",
          "my_field2": "<b>debug_192.168.113.1_971213863506812928</b>"
        }
      }
    ]
  }
}

Elasticsearch 自定義多個分析器

分析器(Analyzer) Elasticsearch 無論是內建分析器還是自定義分析器，都由三部分組成：字元過濾器(Character Filters)、分詞器(Tokenizer)、詞元過濾器(Token Filters)。分析器Analyzer工作流

php 數據分頁類，可自定義多個分頁樣式

logs echo oot log 好的 num 方式 turn pre 調用分頁類的方法： // 測試分頁 public function pageTestAction() { Load::load_class(‘getPage‘,DI

Springboot 自定義多個404頁面

height quest text 個性化 .class else only ogg abi 在Springboot中，可以通過修改配置、或者在static文件夾下添加error文件夾引入個性化的404模版。但是如果需要針對不同url地址規則，返回不同樣式的404頁面，則難

SpringMVC自定義多個攔截器執行順序

true pos out itl 表示 src blog lin 應用一、正常流程下的攔截器（全部放行） 1.springMVC中攔截器實現這個接口HandlerInterceptor 第一個攔截器 HandlerInterceptor1 public cl

51微控制器自定義多個軟體定時器

/*---------------------------------------------------- 名稱：用定時器控制led亮滅微控制器：stc12c2052 晶振：12M 說明：四個led，四種頻率亮。 ------------------------------------------

JavaEE--SSH--structs2-自定義多個攔截器及攔截器鏈(棧)的使用演示

之前我已經介紹過了自定義攔截器的使用方法.通常我們使用攔截器來對action請求進行功能增強.但是在使用自定義攔截器後會導致struts2內建的攔截器失效.這樣就會影響action的正常存取引數.下面我來演示一下如何避免這種情況的發生.1.首先建立專案2.匯入struts2的

Elasticsearch(自定義分析器)

自定義分析器雖然Elasticsearch內建了一系列的分析器，但是真正的強大之處在於定製你自己的分析器。你可以通過在配置檔案中組合字元過濾器，分詞器和表徵過濾器，來滿足特定資料的需求。分析器是三個順序執行的元件的結合（字元過濾器，分詞器，表徵過濾器）。字元

Elasticsearch 自定義分析器 analyzer API 檢視文字內容如何被分析

Elasticsearch內建了一系列分析器，但是ES支援自定義分析器。通過在配置檔案中組合字元過濾器，分詞器和表徵過濾器可以滿足特定資料的要求。分析器是三個順序執行的元件的結合（字元過濾器、分詞器、表徵過濾器）字元過濾器（char_filter）：

ElasticSearch自定義分析器-整合結巴分詞外掛

關於結巴分詞 ElasticSearch 外掛： https://github.com/huaban/elasticsearch-analysis-jieba 該外掛由huaban開發。支援Elastic Search 版本<=2.3.5。結巴分詞分析器結巴分詞外

在一個進程中定義多個線程

daemon 之前 args 設置 tar main art blog thread import threadingfrom time import ctime,sleepimport timedef music(name): print(‘listening to

jq自定義多選下拉列表框

多選 img 插件國家 http 分享 class 下拉 blog 多選選擇國家插件 https://gitee.com/richard1015/dropDownList jq自定義多選下拉列表框

spring定時任務.線程池,自定義多線程配置

sys wire eight void port itl edm 代碼 .org 定時任務及多線程配置xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springfr

使用Python自定義多執行緒,得到所有返回結果組成list

import threading import time """重新定義帶返回值的執行緒類""" class MyThread(threading.Thread): def __init__(self, func, args=()): super(MyThread,

Elasticsearch自定義分詞器

什麼是分詞器因為Elasticsearch中預設的標準分詞器分詞器對中文分詞不是很友好，會將中文詞語拆分成一個一箇中文的漢字。因此引入中文分詞器-es-ik外掛演示傳統分詞器 http://192.168.33.129:9200/_analyze {

elasticsearch _mget取回多個文件及_bulk批量操作

取回多個文件 Elasticsearch 的速度已經很快了，但甚至能更快。將多個請求合併成一個，避免單獨處理每個請求花費的網路延時和開銷。如果你需要從 Elasticsearch 檢索很多文件，那麼使用 multi-get 或者 mget API 來將這些檢索請求放在一

vue自定義多選樣式

自定義多選框樣式平時一直用的框架中的樣式，這次不行了要自己寫。做個筆記記錄一下很久沒寫這中樣式了設計要求的樣式其實那個勾並不是checkbox，而是一個i標籤，給他的兩邊設定border

iview表格自定義多選框

列中定義： { title: '是否簡訊通知', key: 'isSmsnotify', render: (h, params) => { return h( 'div', this.$refs.myTable.$scop

【轉】WPF自定義控制元件與樣式(8)-ComboBox與自定義多選控制元件MultComboBox

一．前言　　申明：WPF自定義控制元件與樣式是一個系列文章，前後是有些關聯的，但大多是按照由簡到繁的順序逐步釋出的等。　　本文主要內容：下拉選擇控制元件ComboBox的自定義樣式及擴充套件；自定義多選控制元件MultiComboBox；二．下拉選擇控制元件ComboBox的自

ElasticSearch繫結多個ip，滿足內外網訪問

背景：專案在阿里雲平臺有一個ES叢集，每個節點繫結的是內網ip，即配置檔案elasticsearch.yml中network.host的值是內網ip。但是，查詢ES的應用在阿里雲和騰訊雲上都有，又不想都換綁成外網ip，浪費流量。方案：使用network.host引數滿足不

c語言，定義多個指標的寫法，多個指標的宣告

先說明正確的多個指標宣告應該為：例：int *a，*b，*c，*d；按照常理定義變數應該為：型別變數名如：int a；但是定義指標時，int *a；依照型別變數名的規則來看，就像定義了一個int型的，名字為“*a”的變數，但是實際上我們宣告的變數為int*型的

Elasticsearch 自定義多個分析器

分析器(Analyzer)

字元過濾器(Character Filters)

分詞器(Tokenizer)

詞元過濾器(Token Filters)

分析器analyze API的使用

自定義多個分析器

建立索引並自定義多個分析器

驗證索引my_index的多個分析器

驗證分析器my_analyzer1分析效果

驗證分析器my_analyzer2分析效果

新增Mapping併為不同欄位設定不同分析器

建立文件

Query-Mathch全文檢索

相關推薦