elasticsearch(11)通過ngram分詞機制實現搜尋推薦

阿新 • • 發佈：2018-11-16

轉載自簡書本文連結地址: Elasticsearch通過ngram分詞機制實現搜尋推薦

1、什麼是ngram

例如英語單詞 quick，5種長度下的ngram

ngram length=1，q u i c k
ngram length=2，qu ui ic ck
ngram length=3，qui uic ick
ngram length=4，quic uick
ngram length=5，quick

2、什麼是edge ngram

quick這個詞，拋錨首字母后進行ngram

q
qu
qui
quic
quick

使用edge ngram將每個單詞都進行進一步的分詞和切分，用切分後的ngram來實現字首搜尋推薦功能

hello world
hello we

h
he
hel
hell
hello    doc1,doc2

w         doc1,doc2
wo
wor
worl
world
e       doc2

比如搜尋hello w

doc1和doc2都匹配hello和w，而且position也匹配，所以doc1和doc2被返回。

搜尋的時候，不用在根據一個字首，然後掃描整個倒排索引了；簡單的拿字首去倒排索引中匹配即可，如果匹配上了，那麼就完事了。

3、最大最小引數

min ngram = 1
max ngram = 3

最小几位最大幾位。（這裡是最小1位最大3位）

比如有helloworld單詞

那麼就是如下

h
he
hel

最大三位就停止了。

4、試驗一下ngram

PUT /my_index
{
  "settings": {
    "analysis": {
      "filter": {
        "autocomplete_filter" : {
          "type" : "edge_ngram",
          "min_gram" : 1,
          "max_gram" : 20
        }
      },
      "analyzer": {
        "autocomplete" 
 : {
          "type" : "custom",
          "tokenizer" : "standard",
          "filter" : [
            "lowercase",
            "autocomplete_filter"
          ]
        }
      }
    }
  }
}

PUT /my_index/_mapping/my_type
{
  "properties": {
      "title": {
          "type":     "string",
          "analyzer": "autocomplete",
          "search_analyzer": "standard"
      }
  }
}

注意這裡search_analyzer為什麼是standard而不是autocomplete？

因為搜尋的時候沒必要在進行每個字母都拆分，比如搜尋hello w。直接拆分成hello和w去搜索就好了，沒必要弄成如下這樣：

h
he
hel
hell
hello   

w

弄成這樣的話效率反而更低了。

插入4條資料

PUT /my_index/my_type/1
{
  "title" : "hello world"
}

PUT /my_index/my_type/2
{
  "title" : "hello we"
}

PUT /my_index/my_type/3
{
  "title" : "hello win"
}

PUT /my_index/my_type/4
{
  "title" : "hello dog"
}

執行搜尋

GET /my_index/my_type/_search
{
  "query": {
    "match_phrase": {
      "title": "hello w"
    }
  }
}

結果

{
  "took": 6,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 3,
    "max_score": 1.1983768,
    "hits": [
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "2",
        "_score": 1.1983768,
        "_source": {
          "title": "hello we"
        }
      },
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "1",
        "_score": 0.8271048,
        "_source": {
          "title": "hello world"
        }
      },
      {
        "_index": "my_index",
        "_type": "my_type",
        "_id": "3",
        "_score": 0.797104,
        "_source": {
          "title": "hello win"
        }
      }
    ]
  }
}

本來match_phrase不會分詞。只匹配短語，但是為什麼這樣卻能匹配出三條？

是因為我們建立mapping的時候對title進行了分詞設定，運用了ngram將他進行了拆分，而搜尋的時候按照標準的standard分詞器去拆分term，這樣效率槓槓的！！

elasticsearch(11)通過ngram分詞機制實現搜尋推薦

轉載自簡書本文連結地址: Elasticsearch通過ngram分詞機制實現搜尋推薦 1、什麼是ngram 例如英語單詞 quick，5種長度下的ngram ngram length=1，q u i c k ngram length=2，qu ui ic ck ngram le

oracle仿全文檢索切詞機制實現文本信息類似度查找

pos rom 排除應用場景 popu ora mar 機制一個應用場景：依據keyword查詢與此keyword相似的信息，當中一些keyword要排除掉比如：“有限公司”、“有限責任公司”、“股份有限公司”等

Linux 安裝Elasticsearch和配置ik分詞器步驟

今天給同學們帶來的是關於Elasticsearch的簡單介紹以及如何在linux中搭建elasticsearch和增添ik分詞器，本篇文章我們以搭建elasticsearch為主，後續的文章中將會將es與springboot結合，將其新增到實際開發中。 1.Elasti

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

一、目前存在的問題在getSameWords()方法中，我們使用map臨時存放了兩個鍵值對用來測試，實際開發中，往往需要很多的這種鍵值對來處理，比如從某個同義詞詞典裡面獲取值之類的，所以說，我們需要一個類，根據key提供近義詞。為了能更好的適應應用場景，我們先定義一個介面，其中定義一

Lucene筆記19-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器

一、同義詞分詞器的程式碼實現 package com.wsy; import com.chenlb.mmseg4j.Dictionary; import com.chenlb.mmseg4j.MaxWordSeg; import com.chenlb.mmseg4j.analysis.MM

ElasticSearch教程——自定義分詞器

ElasticSearch彙總請檢視：ElasticSearch教程——彙總篇分詞器 Elasticsearch中，內建了很多分詞器（analyzers），例如standard （標準分詞器）、english（英文分詞）和chinese （中文分詞），預設的是sta

ElasticSearch實戰三（分詞和對映）

ElasticSearch的文件對映機制（mapping）用於進行欄位的型別確認，將每一個欄位匹配為一種確定的資料型別。 1 ES欄位型別 ① 基本欄位型別字串：te

ElasticSearch安裝、IK分詞（elasticsearch-analysis-ik）安裝

安裝jdk（一個java的jdk包，如果沒有可以私聊我微信w7752442,備註：php） rpm -ivh jdk-11_linux-x64_bin.rpm 安裝elasticsearch（安裝包地址：https://github.com/medcl/elasticsearch-ana

ElasticSearch測試、IK分詞簡單測試（PHP）

以下全是測試程式碼：如有需要了解安裝 ElasticSearch和IK分詞的可參考：https://blog.csdn.net/weixin_42579642/article/details/84317099 use Elasticsearch\ClientBuilder; cla

elasticsearch教程--Analysis篇-分詞器

目錄概述環境準備什麼是分詞分詞目的分詞器彩蛋概述關於elasticsearch教程寫了關於安裝和安裝踩坑記兩篇博文, 現在就來寫點專案中使用中文分詞器的歷程。

IK分詞器實現原理

1、IK分詞器也是基於正向匹配的分詞演算法。 2、IK分詞器，基本可分為兩種模式，一種為smart模式，一種為非smart模式 3、非smart模式所做的就是將能夠分出來的詞全部輸出；smart模式下，IK分詞器則會根據內在方法輸出一個認為最合理的分詞結果，這就涉及到了歧

Elasticsearch 5使用中文分詞

本文演示瞭如何使用IK Analysis 外掛來實現在 Elasticsearch 中的中文分詞功能。使用中文分詞在“Spring Boot應用企業級部落格系統”課程中（http://coding.imooc.com/class/125.html），所有的部落格功能都

elasticsearch 安裝Ik+pinyin分詞配置詳解

一、拼音分詞的應用拼音分詞在日常生活中其實很常見，也許你每天都在用。開啟淘寶看一看吧,輸入拼音”zhonghua”,下面會有包含”zhonghua”對應的中文”中華”的商品的提示：拼音分詞是根據輸入的拼音提示對應的中文，通過拼音分詞提升搜尋體驗、加

關於ElasticSearch中分析器、分詞器等相關知識的總結

分析器（Analyzer）在說分詞器（Tokenizers）之前，需要了解一個很重要的概念就是分析器（Analyzer）。分析器分析的過程就是將文字轉換為標記（tokens）或術語的過程，這些標記或術語被新增到倒排索引中以便進行搜尋。分析器（Analyzer）跟

ElasticSearch官方預設的分詞外掛

elasticsearch官方預設的分詞外掛，對中文分詞效果不理想。　　比如，我現在，拿個具體例項來展現下，驗證為什麼，es官網提供的分詞外掛對中文分詞而言，效果差。總結如果直接使用Elast

elasticsearch全域性檢索多分詞器匹配

在es全域性檢索的需求中，需要進行多個分詞器同時匹配關鍵詞，例如：在商品名稱、品牌名稱和類目名稱中匹配含有“西”關鍵字的查詢結果，當一個欄位匹配時即加入查詢結果用sql語句表達為：select * from item where item_name like '

ElasticSearch 安裝和 IK分詞器的安裝

# # ----------------------------------- Paths ------------------------------------ #path.data: /opt/es/data # # Path to log files: #path.logs: /opt/es/logs

如何在Elasticsearch中安裝中文分詞器(IK+pinyin)

如果直接使用Elasticsearch的朋友在處理中文內容的搜尋時，肯定會遇到很尷尬的問題——中文詞語被分成了一個一個的漢字，當用Kibana作圖的時候，按照term來分組，結果一個漢字被分成了一組。這是因為使用了Elasticsearch中預設的標準分詞器，這個分詞器在處理中文的時候會把中文單詞切分成

Elasticsearch之安裝ik分詞外掛

IK簡介 IK Analyzer是一個開源的，基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始， IKAnalyzer已經推出了4個大版本。最初，它是以開源專案Luence為應用主體的，結合詞典分詞和文法分析演算法的中文分片語件

【Mark】elasticsearch 聚合結果被分詞處理方案

最近群裡很多問關於es的聚合結果被分詞的問題，這裡統一解答。es聚合被分詞的現象一般是6.x版本的（以前的版本沒用過）es6.x後對於text型別欄位需要聚合查詢(類似group by)對資料進行統計分

elasticsearch(11)通過ngram分詞機制實現搜尋推薦

1、什麼是ngram

2、什麼是edge ngram

3、最大最小引數

4、試驗一下ngram

相關推薦