前言
本文主要介绍ES中的聚合查询。
一、聚合查询简介
聚合查询可以将数据汇总为度量、统计或其他分析。
聚合查询主要分为三个类别:
Metric 指标聚合
Bucket 桶聚合
Pipeline 管道聚合
二、聚合函数的使用
1、如何运行一个聚合查询
GET /my-index-000001/_search { "aggs": { "my-agg-name": { "terms": { "field": "my-field" } } } }
说明:
aggs 说明采用的是聚合查询
my-agg-name 是聚合查询的名称
terms 说明采用的是Terms aggregation多值聚合:一个基于多桶值源的聚合,其中桶是动态构建的——每个唯一值一个桶。统计每个唯一值的个数。
field 指定需要统计的字段。
2、限制聚合查询的范围
GET /my-index-000001/_search { "query": { "range": { "@timestamp": { "gte": "now-1d/d", "lt": "now/d" } } }, "aggs": { "my-agg-name": { "terms": { "field": "my-field" } } } }
3、仅返回聚合结果
默认情况下,包含聚合的查询会同时返回搜索命中的结果和聚合结果。若要只返回聚合结果,请将大小设置为0
GET /my-index-000001/_search { "size": 0, "aggs": { "my-agg-name": { "terms": { "field": "my-field" } } } }
4、运行多个聚合
GET /my-index-000001/_search { "aggs": { "my-first-agg-name": { "terms": { "field": "my-field" } }, "my-second-agg-name": { "avg": { "field": "my-other-field" } } } }
5、子聚合
统计索引中my-field字段的每个唯一值的记录数,并计算每组记录中my-other-field字段的平均值。
典型的场景:先分组,再计算
GET /my-index-000001/_search { "aggs": { "my-agg-name": { "terms": { "field": "my-field" }, "aggs": { "my-sub-agg-name": { "avg": { "field": "my-other-field" } } } } } }
执行结果:
{ ... "aggregations": { "my-agg-name": { "doc_count_error_upper_bound": 0, "sum_other_doc_count": 0, "buckets": [ { "key": "foo", "doc_count": 5, "my-sub-agg-name": { "value": 75.0 } } ] } } }
6、聚合查询中使用scripts脚本
采用script脚本提取运行时字段,并对运行时字段message.length进行聚合。
GET /my-index-000001/_search?size=0 { "runtime_mappings": { "message.length": { "type": "long", "script": "emit(doc['message.keyword'].value.length())" } }, "aggs": { "message_length": { "histogram": { "interval": 10, "field": "message.length" } } } }
7、聚合结果分页
GET /my-index-000001/_search { "size":0, "aggs" : { "group_account" : { "terms" : { "size": 2, "field" : "account", "order": { "sum_gmv" : "desc" } }, "aggs": { "sum_gmv": { "sum": {"field": "bus_ep_gmv"} } } } } }
8、聚合查询缓存说明
为了获得更快的响应,Elasticsearch 将频繁运行的聚合结果缓存到切分请求缓存中。
若要获取缓存结果,请对每次搜索使用相同的首选项字符串。
如果您不需要搜索命中、只返回聚合结果,请将大小设置为0,以避免填充缓存。
总结
本文主要是聚合查询进行了简单的介绍。
1、聚合查询主要使用场景:数据的统计分析。
2、聚合查询主要分为三个类别:
Metric 指标聚合
Bucket 桶聚合
Pipeline 管道聚合
3、聚合查询的简单使用示例。