【ES】match_phrase與regexp

阿新 • • 發佈：2017-06-12

很大的條件 position 一個 off cnblogs 關系表達式 color

剛開始接觸es，由於弄不清楚match_phrase和regexp導致很多查詢結果與預想的不同。在這整理一下。

regexp：針對的是單個詞項

match_phrase：針對的是多個詞項的相對位置

它們的查詢結果跟分析器分詞的方式有很大關系。

比如，我有兩個字符串"HELLO-world" 和 "hello.WORLD"，字段名稱是title。

針對"HELLO-world"，看下面兩個語句。第二個是可以匹配的，第一個不可以。

{ "regexp": { "title": "hello-w.*" }} 
{ "match_phrase": { "title": "hello world 
" }}

分析一下，可以看到，HELLO-world被分為了兩個單詞，hello和world。

-GET _analyze
{        
    "field": "title",
    "text": "HELLO-world"
}
---------------------------
{
  "tokens" : [
    {
      "token" : "hello",
      "start_offset" : 0,
      "end_offset" : 5,
      "type" : "<ALPHANUM>",
      "position" 
 : 0
    },
    {
      "token" : "world",
      "start_offset" : 6,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 1
    }
  ]
}

首先，es是沒有大寫的，所有的字符都被轉換成了小寫。其次，"-"字符丟失了。

regexp是針對單個詞項的，無論是hello還是world，都不符合正則條件，故沒有匹配。

match_phrase是針對多個詞項的。首先match_phrase的"hello world"被分為了hello和world兩個單詞，然後這兩個單詞在title的分詞中都可以找到，並且相對位置滿足條件，故語句可以匹配。

再看 "hello.WORLD"

{ "regexp": { "title": "hello\\.w.*" }} 
{ "match_phrase": { "title": "hello world" }}

結果是，第一個可以匹配，而第二個不能。

原因看分詞結果：

-GET_analyze
{        
    "field": "title",
    "text": "hello.WORLD"
}
-------------------------------
{
  "tokens" : [
    {
      "token" : "hello.world",
      "start_offset" : 0,
      "end_offset" : 11,
      "type" : "<ALPHANUM>",
      "position" : 0
    }
  ]
}

坑爹的情況出現了，"."並不會被切分，整個"hello.world"被視作了一個詞項。

match_phrase在詞項中查找hello和world都查找不到，故不會匹配

regexp則能找到一個滿足正則表達式的詞項，故可以匹配。

ES的分詞處理非常重要，很大的影響了查詢結果！

【ES】match_phrase與regexp

很大的條件 position 一個 off cnblogs 關系表達式 color 剛開始接觸es，由於弄不清楚match_phrase和regexp導致很多查詢結果與預想的不同。在這整理一下。 regexp：針對的是單個詞項 match_phrase：針對的是多個

【ES】學習3-請求體查詢

ext 組合 https 傳遞 guide should 學習 text class 1.空查詢 GET /index_2014*/type1,type2/_search {} GET /_search { "from": 30, "size": 10 }

【BZOJ3884】上帝與集合的正確用法歐拉定理

可能答案接下來 div 整數共創 beta pan urn 【BZOJ3884】上帝與集合的正確用法 Description 根據一些書上的記載，上帝的一次失敗的創世經歷是這樣的：第一天，上帝創造了一個世界的基本元素，稱做“元”。

【ES】學習8-聚合1

target style nsa 搜索名稱制造商 tab sea bsp 參考資料： https://elasticsearch.cn/book/elasticsearch_definitive_guide_2.x/_combining_the_two.html 特

【ES】學習11-多桶排序

nbsp order key actions color 字符串 efi 結果 literal 聚合結果的排序默認：桶會根據 doc_count 降序排列。內置排序：設置按doc_count升序排序：註意order，_count GET /cars/transa

【BZOJ2728】[HNOI2012]與非並查集+數位DP

mark 題解 div mes 一行 strong amp name += 【BZOJ2728】[HNOI2012]與非 Description Input 輸入文件第一行是用空格隔開的四個正整數N，K，L和R，接下來的一行是N個非負整數A1,A2&h

【Python】爬蟲與反爬蟲大戰

公司學校爬取 nbsp 識別防止 toc 壓力自動爬蟲與發爬蟲的廝殺，一方為了拿到數據，一方為了防止爬蟲拿到數據，誰是最後的贏家？重新理解爬蟲中的一些概念爬蟲:自動獲取網站數據的程序反爬蟲：使用技術手段防止爬蟲程序爬取數據誤傷：反爬蟲技術將普通用戶識別為爬蟲，

【PowerShell】ASCII與Char之間的轉換

clas cnblogs class pan bsp 之間 power code log 1 [char[]][int[]]$char=65..90 2 $char -join ‘,‘ 3 [int[]][char[]]$ascii=$char 4 $ascii -joi

【java】i++與++i、i--運算

log 原理 ring 自加 clas rgs stat static system 1 package test; 2 3 //i++與--i運算 4 public class test { 5 6 public static void main

【kafka】celery與kafka的聯用問題

log 正常 def producing blog tasks _id info 結果背景：一個小應用，用celery下發任務，任務內容為kafka生產一些數據。問題：使用confluent_kafka模塊時，單獨啟用kafka可以正常生產消息，但是套上celery後，

【轉載】CreateThread與_beginthreadex本質區別

wmi ted 函數返回值 rar turn 問題初始化控制 switch 轉載文章，原文地址：http://blog.csdn.net/morewindows/article/details/7421759 本文將帶領你與多線程作第一次親密接觸，並深入分析Cr

【轉載】IIS與asp.net管道

解決 ati arc mar 初始化 upd 最重要的 tpc 事件處理程序閱讀目錄 asp.net是什麽 HTTP協議 IIS與asp.net asp.net管道參考資料　　我們在基於asp.net開發web程序，基本上都是發布部署到安裝了IIS的windows服

【11】分離與附加

use 操作 text user com 權限 class post 文件 1、創建、刪除（對準數據庫右鍵）2、分離（脫機）、附加（聯機）關於附加數據庫失敗的處理：原因：對文件的操作權限不夠處理方法：對準mdf文件和ldf文件右鍵屬性安全性將用戶 Users 編

【轉】innerHTML與jQuery裏的html()區別介紹

word www. 函數利用 table ber order light syntax http://www.jb51.net/article/31548.htm 1、 2、 innerHTML與jquery裏的html()區別介紹轉載 2012-10-12 投

【轉】原因與證明

你們同學我只然而導致 cal 速度慢理論重要我在 Cornell 的時候經常遇到這樣的問題，那就是教授們一上課就在黑板上寫長篇的“定理證明”，全體同學認認真真在下面抄筆記，就連只有十來個人的小課也是那樣。有些寫字速度慢的人就不得不帶上小型錄音機，把教授的課全都

【轉】AlphaGo與人工智能

aec -o 隔離大於革命 image 中國人其中 mach AlphaGo與人工智能在之前的一篇文章中我指出，自動駕駛所需要的“視覺識別能力”和“常識判斷能力”，對於機器來說是非常困難的問題。至今沒有任何機器可以在視覺方面達到驢的水平，更不要說和人比。可是最近

【總結】C++與C#中的static靜態修飾符

this sea const 數據一切都 UC 限制有一個字段重點靜態類（sealed+abstract）靜態構造函數（無參，無限制符，自動執行一次）靜態變量（類級別，實例無關，靜態存儲區中）靜態方法（不能被重寫）靜態局部變量（始終存在）靜態本質是實

【轉載】Eclispe與JDK

inf 歷史版本 clas eclispe 3.5 png com 我們 all 原文出自：http://www.cnblogs.com/sunddenly/p/4339784.html 一、Eclispe 1.1 Eclispe發布版本下面是目前已知的版本代號（Rel

【轉】PowerManager 與 WakeLock

tro com 小說 training 筆記 keep 鍵盤 lse 工作 PowerManager 與 WakeLock PowerManager 用來控制設備的電源狀態. 而PowerManager.WakeLock 也稱作喚醒鎖, 是一種保持 CPU 運轉防

【BZOJ3884】上帝與集合的正確用法

pan 相對 spa printf 可能 mat 一次返回 space Description 　　　　一句話題意，給定$p$作為模數：　　　　　　$p\le 10^7$，數據組數$T\le1000$。　　　　　　 Solution 　　　　

【ES】match_phrase與regexp

相關推薦