1. 程式人生 > >ElasticSearch實戰系列五: ElasticSearch的聚合查詢基礎使用教程之度量(Metric)聚合

ElasticSearch實戰系列五: ElasticSearch的聚合查詢基礎使用教程之度量(Metric)聚合

Title:ElasticSearch實戰系列四: ElasticSearch的聚合查詢基礎使用教程之度量(Metric)聚合

前言

在上上一篇中介紹了ElasticSearch實戰系列三: ElasticSearch的JAVA API使用教程,介紹了ElasticSearch Java API基礎的語法,基本的增刪改查(對應SQL語句), 本篇則來介紹一下ElasticSearch 聚合查詢的使用JAVA API 和 DSL語句的使用 。

ElasticSearch Aggregation

聚合框架有助於基於搜尋查詢提供聚合資料。它基於稱為聚合的簡單構建塊,可以進行組合以構建複雜的資料摘要。

聚合可以看作是在一組文件上建立分析資訊的工作單元。執行的上下文定義此文件集是什麼(例如,頂級聚合在搜尋請求的已執行查詢/過濾器的上下文中執行)。
有許多不同型別的聚合,每種聚合都有自己的目的和輸出。為了更好地理解這些型別,通常更容易將它們分為四個主要家族:

  • Metric:

    在一組文件上跟蹤和計算指標的聚合。這些值通常是從文件的欄位中提取的(使用欄位資料),但也可以使用指令碼生成。

  • Bucketing:

    生成儲存桶的一組聚合,其中每個儲存桶都與一個鍵和一個文件條件相關聯。執行聚合時,將對上下文中的每個文件評估所有儲存桶條件,並且當條件匹配時,該文件將被視為“落入”相關儲存桶。到聚合過程結束時,我們將得到一個儲存桶列表-每個儲存桶都有一組“屬於”的文件。

  • Matrix:

    操作多個欄位並根據從請求的文件欄位中提取的值生成矩陣結果的集合。與Metric和Bucketing不同,這個聚合不支援指令碼!

  • Pipeline:

    它聚合其他聚合的輸出及其相關的Metric。

由於每個儲存桶有效地定義了一個文件集(所有檔案都屬於該儲存桶),因此可以潛在地在儲存桶級別關聯聚合,並且這些聚合將在該儲存桶的上下文中執行。這就是聚合真正的力量所在:聚合可以巢狀!

儲存桶聚合可以具有子聚合(儲存桶或指標)。子聚合將針對其父聚合生成的儲存桶進行計算。巢狀聚合的級別/深度沒有硬性限制(可以將一個聚合巢狀在“父”聚合下,該“父”聚合本身是另一種更高級別的聚合的子聚合)。

聚合作用於double資料的表示形式。因此,當執行絕對值大於的多頭時,結果可能是近似的2^53。

度量(Metric)聚合

數值指標聚合是一種特殊型別的指標聚合,可輸出數值。一些聚合輸出單個數值度量(例如avg)並被稱為single-value numeric metrics aggregation,其他聚合則生成多個度量(例如stats)並被稱為multi-value numeric metrics aggregation。當這些值充當某些儲存桶聚合的直接子聚合(某些儲存桶聚合使您可以基於每個儲存桶中的數字度量對返回的儲存桶進行排序)時,單值和多值數字度量聚合之間的區別將發揮作用。

度量(Metric)聚合在ElasticSearch官方文件中有很中聚合,這裡我只列舉我們最常用的幾個聚合示例。

avg 聚合

計算的平均個從聚集的文件中提取數值。這些值可以從文件中的特定數字欄位中提取,也可以由提供的指令碼生成。

這裡我們用一個示例來進行說明,得到一個班級的學生分數平均分數。

DSL語句示例:

POST /student/_search?size=0
{
    "aggs" : {
        "avg_grade" : { "avg" : { "field" : "grade" } }
    }
}

注: grade 欄位型別必須是整型

當然,如果成績還包含權重(weight)的話,我們可以為其新增權重.
權重: 在計算常規平均值時,每個資料點都具有相等的``權重''...它對最終值的貢獻均等。可以理解為權重值越大,就越靠前,加權公式為: ∑(value * weight) / ∑(weight).

DSL語句示例:

POST /student/_search
{
    "size": 0,
    "aggs" : {
        "weighted_grade": {
            "weighted_avg": {
                "value": {
                    "field": "grade"
                },
                "weight": {
                    "field": "weight"
                }
            }
        }
    }
}

max/min 聚合

這裡我們用一個示例來進行說明,得到班級的最高分和最低分。

DSL語句示例:

POST /student/_search?size=0
{
    "aggs" : {
        "max_grade" : { "max" : { "field" : "grade" } }
    }
}

POST /student/_search?size=0
{
    "aggs" : {
        "min_grade" : { "min" : { "field" : "grade" } }
    }
}

sum聚合

得到某欄位總和的值。

DSL語句示例:

POST /student/_search?size=0
{
   
    "aggs" : {
        "sum_grade" : { "sum" : { "field" : "grade" } }
    }
}

top 聚合

一個top_hits指標聚合不斷被聚合跟蹤最相關的文件。該聚合器旨在用作子聚合器,以便可以按儲存分割槽彙總最匹配的文件。該top_hits聚合器可以有效地通過某些欄位經由剷鬥聚合器用於將結果集。一個或多個儲存桶聚合器確定將結果集切成哪些屬性。

選件

  • from -與您要提取的第一個結果的偏移量。
  • size-每個儲存區返回的最匹配匹配項的最大數量。預設情況下,返回前三個匹配項。
    sort-熱門匹配項的排序方式。預設情況下,命中按主要查詢的分數排序。

這裡我們依舊通過一個示例來進行說明。
根據grade(成績)降序取前2條資料,欄位只包含grade(成績)和name(姓名)。

DSL語句示例:

POST /student/_search?size=0
{
    "aggs": {
        "top_tags": {
            "terms": {
                "field": "grade",
                "size": 2
            },
            "aggs": {
                "top_sales_hits": {
                    "top_hits": {
                        "sort": [
                            {
                                "grade": {
                                    "order": "desc"
                                }
                            }
                        ],
                        "_source": {
                            "includes": [ "grade", "name" ]
                        },
                        "size" : 1
                    }
                }
            }
        }
    }
}

JAVA程式碼示例


 /**
     * @Author pancm
     * @Description 平均聚合查詢測試用例
     * @Date  2019/4/1
     * @Param []
     * @return void
     **/
    private static  void avgSearch() throws IOException {

        String buk="t_grade_avg";
        //直接求平均數
        AggregationBuilder aggregation = AggregationBuilders.avg(buk).field("grade");
        logger.info("求班級的平均分數:");
        agg(aggregation,buk);

    }

    private static  void maxSearch() throws  IOException{
        String buk="t_grade";
        AggregationBuilder aggregation = AggregationBuilders.max(buk).field("grade");
        logger.info("求班級的最高分數:");
        agg(aggregation,buk);
    }

    private static  void sumSearch() throws  IOException{
        String buk="t_grade";
        AggregationBuilder aggregation = AggregationBuilders.sum(buk).field("grade");
        logger.info("求班級的總分數:");
        agg(aggregation,buk);
    }

  private static SearchResponse search(AggregationBuilder aggregation) throws IOException {
        SearchRequest searchRequest = new SearchRequest();
        searchRequest.indices("student");
        searchRequest.types("_doc");
        SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
        //不需要解釋
        searchSourceBuilder.explain(false);
        //不需要原始資料
        searchSourceBuilder.fetchSource(false);
        //不需要版本號
        searchSourceBuilder.version(false);
        searchSourceBuilder.aggregation(aggregation);
        logger.info("查詢的語句:"+searchSourceBuilder.toString());
        searchRequest.source(searchSourceBuilder);
        // 同步查詢
        SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
        return  searchResponse;
    }

protected  static  void agg(AggregationBuilder aggregation, String buk) throws  IOException{
        SearchResponse searchResponse = search(aggregation);
        if(RestStatus.OK.equals(searchResponse.status())) {
            // 獲取聚合結果
            Aggregations aggregations = searchResponse.getAggregations();

            if(buk.contains("avg")){
                //取子聚合
                Avg ba = aggregations.get(buk);
                logger.info(buk+":" + ba.getValue());
                logger.info("------------------------------------");
            }else if(buk.contains("max")){
                //取子聚合
                Max ba = aggregations.get(buk);
                logger.info(buk+":" + ba.getValue());
                logger.info("------------------------------------");

            }else if(buk.contains("min")){
                //取子聚合
                Min ba = aggregations.get(buk);
                logger.info(buk+":" + ba.getValue());
                logger.info("------------------------------------");
            }else if(buk.contains("sum")){
                //取子聚合
                Sum ba = aggregations.get(buk);
                logger.info(buk+":" + ba.getValue());
                logger.info("------------------------------------");
            }else if(buk.contains("top")){
                //取子聚合TopHits
                TopHits ba = aggregations.get(buk);
                logger.info(buk+":" + ba.getHits().totalHits);
                logger.info("------------------------------------");
            }

        }
    }

其它

參考:
https://www.elastic.co/guide/en/elasticsearch/reference/6.5/search-aggregations.html

本篇文章的程式碼已收錄在本人的java-study專案中,若有興趣,歡迎star、fork和issues。
專案地址:https://github.com/xuwujing/java-study

ElasticSearch實戰系列:

  • ElasticSearch實戰系列一: ElasticSearch叢集+Kinaba安裝教程
  • ElasticSearch實戰系列二: ElasticSearch的DSL語句使用教程---圖文詳解
  • ElasticSearch實戰系列三: ElasticSearch的JAVA API使用教程
  • ElasticSearch實戰系列四: ElasticSearch理論知識介紹

音樂推薦

原創不易,如果感覺不錯,希望給個推薦!您的支援是我寫作的最大動力!
版權宣告:
作者:虛無境
部落格園出處:http://www.cnblogs.com/xuwujing
CSDN出處:http://blog.csdn.net/qazwsxpcm    
個人部落格出處:http://www.panchengming.