elasticsearch(7)聚合統計-分組聚合

阿新 • • 發佈：2018-11-16

直方圖聚合

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_histogram": {
      "histogram": {
        "field": "field1",
        "interval": 5
      }
    }
  }
}

返回值表示，[15,20)區間內的值有1個，[20,25)區間內的值有0個，[25,30)區間內的值有1個，[30,35)區間內的值有1個。

{
  "aggregations": {
    "test_histogram": {
      "buckets": [
        {
          "key": 15,
          "doc_count": 1
        },
        {
          "key": 20,
          "doc_count": 0
        },
        {
          "key": 25,
          "doc_count": 1
        },
        {
          "key": 30,
          "doc_count": 1
        }
      ]
    }
  }
}

1、直方圖篩選規則

舉個例子，有一個price欄位，這個欄位描述了商品的價格，現在想每隔5就建立一個桶，統計每隔區間都有多少個文件（商品）。

如果有一個商品的價格為32，那麼它會被放入30的桶中，計算的公式如下：

rem = value % interval
if (rem < 0) {
    rem += interval
}
bucket_key = value - rem

通過上面的方法，就可以確定文件屬於哪一個桶。

不過也有一些問題存在，由於上面的方法是針對於整型資料的，因此如果欄位是浮點數，那麼需要先轉換成整型，再呼叫上面的方法計算。問題來了，正數還好，如果該值是負數，就會出現計算出錯。比如，一個欄位的值為-4.5，在進行轉換整型時，轉換成了-4。那麼按照上面的計算，它就會放入-4的桶中，但是其實-4.5應該放入-6的桶中。

2、extended_bounds

extended_bounds可以強制直方圖聚合從指定最小值開始建立分組，直到最大值，即使沒有任何文件存在。

且extended_bounds不會過濾分組，即使實際上的分組不在extended_bounds的最小值最大值區間內，直方圖聚合依然以實際的最小值或最大值建立分組。

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_histogram": {
      "histogram": {
        "field": "field1",
        "interval": 5,
        "extended_bounds":{
          "min": 0,
          "max": 20
        }
      }
    }
  }
}

3、排序

按直方圖分組的key排序：

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_histogram": {
      "histogram": {
        "field": "field1",
        "interval": 5,
        "order": {
          "_key": "asc"
        }
      }
    }
  }
}

按直方圖分組的value排序：

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_histogram": {
      "histogram": {
        "field": "field1",
        "interval": 5,
        "order": {
          "_count": "desc"
        }
      }
    }
  }
}

4、偏移

分組預設從0開始以interval為間隔步進，可以通過offset修改分組的開始位置。

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_histogram": {
      "histogram": {
        "field": "field1",
        "interval": 5,
        "offset": 8
      }
    }
  }
}

日期直方圖聚合

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_date_histogram": {
      "date_histogram": {
        "field": "field1",
        "interval": "1M",
        "format": "yyyy-MM-dd"
      }
    }
  }
}

interval支援的表示式有：year、month、week、day、hour、quarter、minute、second。

日期範圍聚合

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_date_range": {
      "date_range": {
        "field": "field1",
        "format": "yyyy-MM-dd", 
        "ranges": [
          {
            "from": "now-10M/M",
            "to": "now"
          }
        ]
      }
    }
  }
}

範圍聚合

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_range": {
      "range": {
        "field": "field1",
        "ranges": [
          {
            "from": 0,
            "to": 10
          }
        ]
      }
    }
  }
}

過濾聚合

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_filter": {
      "aggs": {
        "test_histogram": {
          "histogram": {
            "field": "field1",
            "interval": 10
          }
        }
      },
      "filter": {
        "range": {
          "field2": {
            "gte": 10
          }
        }
      }
    }
  }
}

多重過濾聚合

等價於批量過濾聚合。

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_filters": {
      "aggs": {
        "test_histogram": {
          "histogram": {
            "field": "field1",
            "interval": 10
          }
        }
      },
      "filters": {
        "filters": {
          "test_range": {
            "range": {
              "field2": {
                "gte": 10
              }
            }
          },
          "test_range2" :{
            "range": {
              "field2": {
                "lte": 20
              }
            }
          }
        }
      }
    }
  }
}

空值集合

GET /testindex/testtype/_search
{
  "size": 0, 
  "aggs": {
    "test_missing": {
      "missing": {
        "field": "field1"
      }
    }
  }
}

索引詞聚合

通過制定欄位的值統計聚合。

GET /index/type/_search
{
  "size": 0, 
  "aggs": {
    "test_terms": {
      "terms": {
        "field": "field1"
      }
    }
  }
}

1、規模

通過size引數指定返回的分組數量，size設定為0表示規模大小為Integer.MAX_VALUE。

2、排序

通過order自定義分組排序方式，預設根據分組的doc_count值降序排序。

GET /testindex/testtype/_search
{
  "size": 0, 
  "aggs": {
    "test_terms": {
      "terms": {
        "field": "field1",
        "size": 10,
        "order": {
          "_count": "desc"
        }
      }
    }
  }
}

3、過濾

GET /testindex/testtype/_search
{
  "size": 0, 
  "aggs": {
    "test_terms": {
      "terms": {
        "field": "field1",
        "size": 10,
        "include": "*",
        "exclude": "water.*"
      }
    }
  }
}

elasticsearch(7)聚合統計-分組聚合

直方圖聚合 GET /index/type/_search { "size": 0, "aggs": { "test_histogram": { "histogram": { "field": "field1", "int

elasticsearch(8)聚合統計-管道聚合

聚合路徑聚合路徑的定義如下：聚合分隔符為> 指標分隔符為. 聚合名為<聚合的名稱> 指標名為<指標的名稱> 路徑為<聚合名>[<聚合分隔符><聚合分隔符>]*[<指標分隔符

elasticsearch(6)聚合統計-度量聚合

平均值聚合 GET /index/type/_search { "size": 0, "aggs": { "test_avg": { "avg": { "field": "field1" } } } } 對於

Elasticsearch多欄位分組聚合, 並對分組聚合的count進行篩選

前提假設我們的文件包括以下幾個欄位 : activityId, clientIp, orderNumber 目標依據activityId(策略ID) + clientIp(IP地址)分組聚合, 查詢相同策略ID+相同IP下訂單數目超過2的聚合結果實現 {

ES 24 - 如何通過Elasticsearch進行聚合檢索 (分組統計)

目錄 1 普通聚合分析 1.1 直接聚合統計 1.2 先檢索, 再聚合 1.3 擴充套件: fielddata和keyword的聚合比較 2 巢狀聚合 2.1

Elasticsearch 時間分組聚合查詢

正常業務邏輯中，會出現大量的資料統計，比如說分組聚合查詢，根據天進行資料的統計，記錄下es分組聚合查詢 { "size": 0, "aggs": { "groupDate": { "date_histogram": {

elasticsearch選擇器聚合，分組返回聚合結果

package tianjun.cmcc.es; import java.net.InetAddress; import java.net.UnknownHostException; import java.util.Map; import java.util

Elasticsearch分組聚合-查詢

1 統計某個欄位下的分組情況類似如下功能： select count(*) from mytable group by myfield curl -XPOST 'localhost:19200/ylchou-0-2015-10-07/_search?

Elasticsearch Java API 的使用（13）—分組聚合之一

分組聚和不像度量聚合那樣通過欄位進行計算，而是根據文件建立分組。每個聚合都關聯一個標準（取決於聚合的型別），決定了一個文件在當前的條件下是否會“劃入”分組中。換句話說，分組實際上定義了一個文件集。除了這些分組之外，分組聚和也會計算和返回“劃入”每個分組中文件

elasticsearch聚合統計出現次數

public void getResult() { String beanName = "ppcOnlineEs"; int size = 1000000; EsIndexClientBean esIndexClientBea

使用JestClient連線elasticsearch-5.x對資料進行分組聚合

原本資料存放在mysql中，專案需求是從mysql中查出來計算推送給前端；但是隨著資料量增大，我們的查詢語句也複雜，效能會明顯下降。所以就考慮乾脆存放到elasticsearch中，查詢計算都方便；於是去和公司專門負責es平臺服務的人對接，負責人說elastics

Elasticsearch 第六篇：聚合統計查詢

前面一直沒有記錄 Elasticsearch 的聚合查詢或者其它複雜的查詢。本篇做一下筆記，為了方便測試，索引資料依然是第五篇生成的測試索引庫 db_student_test ，別名是 student_test 第一部分基本聚合 1、最大值 max、最小

小試牛刀ElasticSearch大資料聚合統計

ElasticSearch相信有不少朋友都瞭解，即使沒有了解過它那相信對ELK也有所認識E即是ElasticSearch。ElasticSearch最開始更多用於檢索，作為一搜索的叢集產品簡單易用絕對是一個非常不錯的選擇，其實本人早在ElasticSea

C# LinQ 左聯接加分組聚合查詢

select peid pen join ble blog logs key 聚合真是醉了，前段時間摸索半天今天一寫又忘了，特此寫下來備忘，望大嬸指點 from a in Table1 join b in Table

淺析MySQL使用 GROUP BY 分組聚合與細分聚合

官方 dev 錯誤 row 一個求平均值時也 total 正是 1. 聚合函數(Aggregate Function) 　　MySQL(5.7 ) 官方文檔中給出的聚合函數列表（圖片）如下：詳情點擊https://dev.mysql.com/doc/refman/5

dubbo之分組聚合

XML add ava als iba merge name 所有 comm 按組合並返回結果，比如菜單服務，接口一樣，但有多種實現，用group區分，現在消費方需從每種group中調用一次返回結果，合並結果返回，這樣就可以實現聚合菜單項。相關代碼可以參考 dubbo

mongodb 分組聚合查詢

聚合框架並不會分組聚合類型轉換計算 add 跟著集合而不是 MongoDB,分組,聚合使用聚合,db.集合名.aggregate… 而不是find 管道在Unix和Linux中一般用於將當前命令的輸出結果作為下一個命令的參數。MongoDB的聚合管道將

python-day71--django多表雙下劃線查詢及分組聚合

cts 劃線 django del 就是 auth 分組聚合 with 沒有 #====================================雙下劃線的跨表查詢===============# 前提此時 related_name=bookList 屬性

68 聚合和分組, F和Q查詢, cookie, session

port 技術 play aggregate ide int min 一個分享圖片主要內容: 1 聚合和分組: 　　a : 先導入聚合函數: from django.db.models import Max, Min, Avg, Count, Sum 　　b : 可

分組聚合使用多程序

1.建立資料。 1 import pandas as pd 2 import numpy as np 3 import uuid 4 import random 5 6 def get_id(): 7 return uuid.uuid1() 8 9 all_data =

elasticsearch(7)聚合統計-分組聚合

直方圖聚合

1、直方圖篩選規則

2、extended_bounds

3、排序

4、偏移

日期直方圖聚合

日期範圍聚合

範圍聚合

過濾聚合

多重過濾聚合

空值集合

索引詞聚合

1、規模

2、排序

3、過濾

相關推薦