ElasticSearch教程（二）—— 基本使用

阿新 • • 發佈：2019-02-15

基本使用

基本概念

ElasticSearch是面向文件的，它儲存文件，並索引每個文件的內容使之可以被索引。ES選擇json作為文件序列化格式。

索引：名詞，類似一個數據庫，是一個儲存關係性文件的地方。

索引：動詞，把關係型文件存到索引的過程，是插入。

ES使用倒排索引來索引文件，只有在倒排索引中存在的屬性才能被搜尋。

倒排索引

倒排索引，文件經過分詞器分出許多詞根，並把詞根和文件的關聯關係存在一個文件中。

term doc1 doc2

run X

jump X

swim X X

fight X

當搜尋一個語句，回返回所有存在該term的文件。如搜尋run swim，doc1，doc2都存在索引，但doc1的匹配度更高。

term doc1 doc2

run X

swim X X

total 2 1

倒排索引存在的問題是必須完全按照倒排索引的欄位來查詢，只要單詞不一樣，就搜尋不到匹配文件。如倒排索引分出的詞是swiming，搜尋swim，SWIM都不會匹配到。

可以的做法，規範搜尋詞，如SWIM後臺轉成swim去匹配。對於swiming，users這類的詞，可以通過詞幹抽取，把swiming抽成swim，users抽成user。倒排索引資料會很大，需要壓縮。

term	doc1	doc2
run	X
jump	X
swim	X	X
fight	X

term	doc1	doc2
run	X
swim	X	X
total	2	1

索引文件

一個elasticSearch叢集有多個索引（index），每個索引有多個type（型別），每個type有多個屬性。

對於索引僱員目錄，我們這麼做

每個僱員都是一個文件
每個文件我們都放到employ型別下
employ型別在索引megacorp中
該索引儲存在elaticSearch叢集內。

curl -X PUT "localhost:9200/megacorp/employee/1" -H 'Content-type: application/json;' -d'
{
    "first_name": "John";
    "last_name": "Smith" 
;
    "age": 25;
    "about": "I love to go rock climbing";
    "interests": ["sports", "music"]
}
'

{
    "_index": "megacorp",
    "_type": "employee",
    "_id": "1",
    "_version": 1,
    "result": "created",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 0,
    "_primary_term": 1
}

屬性	含義
_index	存放索引
_type	存放型別
_shards	存放分片資訊
_id	插入的id
total	總分片
successful	成功操作分片
failed	失敗操作分片
result	操作型別，create，update等

多插入幾條資料

curl -X PUT "localhost:9200/megacorp/employee/2" -H 'Content-type: application/json;' -d'
{
    "first_name" :  "Jane",
    "last_name" :   "Smith",
    "age" :         32,
    "about" :       "I like to collect rock albums",
    "interests":  [ "music" ]
}
'

curl -X PUT "localhost:9200/megacorp/employee/3" -H 'Content-type: application/json;' -d'
{
    "first_name" :  "Douglas",
    "last_name" :   "Fir",
    "age" :         35,
    "about":        "I like to build cabinets",
    "interests":  [ "forestry" ]
}
'

檢索文件

通過GET來檢索文件。

curl -X GET "localhost:9200megacrp/employee/1"

返回結果

{
    "_index": "megacorp",
    "_type": "employee",
    "_id": "2",
    "_version": 1,
    "found": true,
    "_source": {
        "first_name": "Marx",
        "last_name": "Smith",
        "age": 25,
        "about": "I love to go rock climbing",
        "interests": ["sports", "music"]
    }
}

使用GET檢索文件，使用PUT索引文件（insert/update）通過_index，使用DELETE命令來刪除文件，使用HEAD指令來檢查文件是否存在。

ES支援通過一個string作為引數查詢，也可以使用request body查詢

使用string檢索

上面的例子是通過index直接訪問改文件，下面的是通過查詢得到文件結果。

通過_search可以搜尋索引庫中，某個type下的文件。展示所有文件。

curl -X GET "localhost:9200/megacorp/employee/_search"

查詢first_name未Marx的所有文件

curl -X GET "localhost:9200/megacorp/employee/_search?q=first_name:Marx"

簡單檢索是一個即席查詢。

即席查詢是使用者根據自己的需求，靈活的選擇查詢條件，系統能夠根據使用者的選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定製開發的，而即席查詢是由使用者自定義查詢條件的。如”select id from user where user_no = “+”001”。

另一種查詢是引數化查詢，如”select id from user where user_no = #{userNo}”。

對於多個條件的查詢，使用+將多個條件連線起來。但在url中，+被轉為空格，所以必須用它UTF編碼%2B

curl -X GET "localhost:9200/megacorp/employee/_search?q=first_name:Marx%2B_index:2"

也可以不指定index而進行全叢集查詢

curl -X GET "localhost:9200/_all/_search?q=first_name:Marx"

由於即席查詢允許使用者在索引的任何欄位上執行可能較慢且重量級查詢，這可能會暴露隱私資訊，甚至將叢集拖垮。所以不建議想使用者暴露查詢查詢字串搜尋功能。

使用request body檢索

使用request body可以完成一些複雜的查詢，如查詢first_name為John的資料。

curl -X GET "localhost:9200/merp/employee/_search" -H 'Content-type: application/json' -d'
{
    "query": {
        "match": {
            "first_name": "John"
        }
    }
}

結果

{
    "took": 2,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 1,
        "max_score": 0.2876821,
        "hits": [{
            "_index": "megacorp",
            "_type": "employee",
            "_id": "1",
            "_score": 0.2876821,
            "_source": {
                "first_name": "John",
                "last_name": "Smith",
                "age": 25,
                "about": "I love to go rock climbing",
                "interests": ["sports", "music"]
            }
        }]
    }
}

可以加上過濾年齡過濾

curl -X GET "localhost:9200/merp/employee/_search" -H 'Content-type: application/json' -d'
{
    "query": {
        "bool": {
            "must": {
                "match": {
                    "first_name": "John"
                }
            },
            "filter": {
                "range": {
                    "age": {
                        "gt": 30
                    }
                }
            }
        }
    }
}'

ES的搜尋是可以看到文件匹配分數的，這是mysql不具備的。如搜尋”go climbing”，它會搜尋文件屬性中存在”go”，”climbing”的文件，並給予匹配度。

curl -X GET "localhost:9200/megacorp/employee/_search" -H 'Content-type: application/json' -d'
{"query":{"match":{"about":"go climbing"}}}'

短語搜尋

按整個引數去檢索，而不是把它分詞檢索，如檢索”rock climbing”短語，使用match_phrase

curl -X GET "localhost:9200/megacorp/employee/_search" -H 'Content-type: application/json' -d'
{
    "query": {
        "match_phrase": {
            "about": "rock climbing"
        }
    }
}'

高亮顯示

加上”highlight”，可以將屬性中所有匹配的關鍵字加上<em></em>高亮顯示。屬性名支援萬用字元表示法。

curl -X GET "localhost:9200/megacorp/employee/_search" -H 'Content-type: application/json' -d'           
{
    "query": {
        "match_phrase": {
            "about": "rock climbing"
        }
    },
    "highlight": {
        "fields": {
            "about": {}
        }
    }
}'

結果

{"took":3,"timed_out":false,"_shards":{"total":5,"successful":5,"skipped":0,"failed":0},"hits":{"total":1,"max_score":0.5753642,"hits":[{"_index":"megacorp","_type":"employee","_id":"1","_score":0.5753642,"_source":
{
    "first_name" : "John",
    "last_name" :  "Smith",
    "age" :        25,
    "about" :      "I love to go rock climbing",
    "interests": [ "sports", "music" ]
}
,"highlight":{"about":["I love to go <em>rock</em> <em>climbing</em>"]}}]}}

聚合檢索

curl -X GET "localhost:9200/megacorp/employee/_search" -H 'Content-type: application/json' -d'
{"aggs": {"all_interests": {"terms": {"field": "interests" } } } }'

注意，使用聚合檢索的屬性不能是text，es6對於String分成了支援聚合的keyword和不支援聚合的text。否則會提示

Fielddata is disabled on text fields by default. Set fielddata=true on [interests] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory. Alternatively use a keyword field instead.

ElasticSearch教程（二）—— 基本使用

基本使用基本概念 ElasticSearch是面向文件的，它儲存文件，並索引每個文件的內容使之可以被索引。ES選擇json作為文件序列化格式。索引：名詞，類似一個數據庫，是一個儲存關係性文件的地方。索引：動詞，把關係型文件存到索引的過程，是插入。

ElasticSearch教程（二）——ElasticSearch基本外掛head

公司一直在使用ES作為分散式的搜尋引擎，由於資料量的不斷升高，ES出現了效能瓶頸。公司決定進一步的優化ES配置，所以最近幾天在研究ES，最近會更新一系列ES的教程，希望大家持續關注。不多說了，Action。前言這篇文章我們介紹一個非常好的工具：ela

微信公眾平臺開發教程（二）基本原理及消息接口

username 普通用戶縮放地理位置 cfb 位置註意獲得基本一、基本原理在開始做之前，大家可能對這個很感興趣，但是又比較茫然。是不是很復雜？很難學啊？其實恰恰相反，很簡單。為了打消大家的顧慮，先簡單介紹了微信公眾平臺的基本原理。微信服務器就相當於一個轉

Elasticsearch教程（二），IK分詞器安裝

怕麻煩就看上面的（極速版），是我已經打包好的 IK分詞器需要的東西。首先說說分詞器，分詞，英語分詞很好分，就是按固定的英文的空格，或者“-”。中文分詞就稍微有點複雜了，而 Elasticsearch 預設是帶分詞器了，我們來測試一下。http://123.88.88.8

Elasticsearch 通關教程（二）：索引對映Mapping問題

資料庫建表的時候，我們的DDL語句一般都會指定每個欄位的儲存型別，例如：varchar，int，datetime等等，目的很明確，就是更精確的儲存資料，防止資料型別格式混亂。 CREATE TABLE `shop_` ( `id_` varchar(36) NOT NULL COMMENT 'id',

QtQuick基礎教程（二）---QML基本語法

QML語言特性 QML的語法效法CSS，是一種宣告式語言(Declarative Code)，屬性定義及關係直接寫在定義體中，編寫效率極高。 QML原始碼一般由QML引擎從單獨的QML程式碼檔案中讀取。 Import語句 QML程式碼中，import

iptables實用教程（二）：管理鏈和策略

否則命令顯示 accept 目的 number cep 存在當前末尾概念和原理請參考上一篇文章“iptables實用教程（一）”。本文講解如果管理iptables中的鏈和策略。下面的代碼格式中，下劃線表示是一個占位符，需要根據實際情況輸入參數，不帶下劃線的表示是

Qt 3D教程（二）初步顯示3D的內容

初始應用 frame 通過 net settings mod rgba bsp Qt3D教程（二）初步顯示3D的內容前一篇很easy，全然就沒有牽涉到3D的內容，它僅僅是我們搭建3D應用的基本框架而已，而這一篇。我們將要利用它來初步地顯示3D

Python入門系列教程（二）

字符小寫無符號 bsp div width raw_input abc body 字符串 1.字符串輸出 name = ‘xiaoming‘ print("姓名：%s"%name) 2.字符串輸入 userName = raw_input(‘請輸

Nginx實用教程（二）：配置文件入門

affinity type 服務源碼編譯設置時間 shutdown ber 可用控制指令 Nginx配置文件結構 nginx配置文件由指令（directive）組成，指令分為兩種形式，簡單指令和區塊指令。一條簡單指令由指令名、參數和結尾的分號（;）組成，例如：

CodeArt入門教程（二）

本質文件夾不同的存在切換數據庫站點 ear 新的組裝 4.第一個示例的編碼工作　　使用CA編碼項目的核心結構是：由多個子系統組成多個不同的服務來提供項目的各種功能。請不要將這裏提到的子系統與大家在別的項目實施方法裏的概念混為一談，CA裏的子系統概念是完全不一樣

Yii2框架RESTful API教程（二） - 格式化響應，授權認證和速率限制

formatter loginurl 而不是 filters ica cat 表示程序 ssi 之前寫過一篇Yii2框架RESTful API教程（一） - 快速入門，今天接著來探究一下Yii2 RESTful的格式化響應，授權認證和速率限制三個部分一、目錄結構先

Dapper入門教程（二）——執行非查詢語句

文本 resp -exec factor -h spa onf fec table 描述你可以從任意實現IDbConnection的類對象中調用Dapper的擴展方法“Execute”。它能夠執行一條命令（Command）一次或者多次，並返回受影響的行數。這個方法通常用來

Git 教程（二）：時光穿梭

rac call 替換 img posit key 誤刪 ranch 定位在我們已經成功地添加並提交了一個readme.txt文件，現在，是時候繼續工作了，於是，我們繼續修改readme.txt文件，改成如下內容： Git is a distributed version

JXLS 2.4.0系列教程（二）——循環導出一個鏈表的數據

教程 super 最簡 com arraylist port 至少 ron mod 請務必先看上一篇文章，本文在上一篇文章的代碼基礎上修改而成。 JXLS 2.4.0系列教程（一）——最簡單的模板導出上一篇文章我們介紹了JXLS和模板導出最簡單的應用，現在我們要更進一

Spring Boot參考教程（二）SpringBoot特性

provide 初始化 spa using 一個 ora https ann war 2. Spring Boot特性 1. Starter pom（起步依賴） Spring提供了一系列的starterpom來簡化Maven的依賴加載，具體可參考官方文檔13.5 Star

ThinkJS框架入門詳細教程（二）新手入門項目

logs connect 項目目錄 itl 合並 sql文件生產 js框架一、準備工作參考前一篇：ThinkJS框架入門詳細教程（一）開發環境安裝thinkJS命令 npm install -g think-cli 監測是否安裝成功 thin

Solr集群搭建詳細教程（二）

內容必須不同的 nbsp 統一工作虛擬應該 opts 註：歡迎大家轉載，非商業用途請在醒目位置註明本文鏈接和作者名dijia478，商業用途請聯系本人[email protected]。之前步驟：Solr集群搭建詳細教程（一）三、solr集群搭建註意，在

web全棧學習教程（二）：本系列教程介紹

系列教程 trap soft 切圖 think html4 style pes html 一、發布周期計劃2-3天發一篇，半年左右完成。二、教程大綱 web全棧介紹與優勢分析本系列教程介紹切圖與圖片介紹 html4.01 html5 css2.0 css3 頁面布

LATEX教程（二）

out arc mark v tab adding make eight 觀察 vid 插入圖片\documentclass{article} \usepackage{graphicx} \usepackage{Ctex} \title{插入圖片}

ElasticSearch教程（二）—— 基本使用

基本使用

基本概念

倒排索引

索引文件

檢索文件

使用string檢索

使用request body檢索

短語搜尋

高亮顯示

聚合檢索

相關推薦