Elasticsearch聚合学习之四:结果排序

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 在前面的实战中,聚合的结果以桶(bucket)为单位,放在JSON数组中返回,这些数据是没有排序的,今天来学习如何给这些数据进行排序

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码): https://github.com/zq2599/blog_demos

本篇概览

  • 本文是《Elasticsearch聚合学习》系列的第四篇,在前面的实战中,聚合的结果以桶(bucket)为单位,放在JSON数组中返回,这些数据是没有排序的,今天来学习如何给这些数据进行排序;

系列文章列表

  1. 《Elasticsearch聚合学习之一:基本操作》
  2. 《Elasticsearch聚合学习之二:区间聚合》
  3. 《Elasticsearch聚合学习之三:范围限定》;
  4. 《Elasticsearch聚合学习之四:结果排序》

环境信息

  • 以下是本次实战的环境信息,请确保您的Elasticsearch可以正常运行:
  1. 操作系统:Ubuntu 18.04.2 LTS
  2. JDK:1.8.0_191
  3. Elasticsearch:6.7.1
  4. Kibana:6.7.1
  • 实战用的数据依然是一些汽车销售的记录,在第一章有详细的导入步骤,请参考操作,导入后您的es中的数据如下图:

在这里插入图片描述

  • 接下来一起实战聚合排序吧;

默认排序

  • 之前文章中的聚合查询,我们都没有做排序设置,此时es会用每个桶的doc_count字段做降序,下图是个terms桶聚合的示例,可见返回了三个bucket对象,是按照doc_count字段降序排列的:

在这里插入图片描述

内置排序

  • 除了自定义排序,es自身也内置了两种排序参数,可以直接拿来使用:
  • _count:这个参数对应的就是doc_count,以下请求的排序效果和默认的排序效果是一致的:
GET /cars/transactions/_search
{
  "size":0,
  "aggs":{
   "popular_colors":{
     "terms": {
       "field": "color",
       "order": {             ---表示要对聚合结果做排序
         "_count": "desc"     ---排序字段是doc_count,顺序是降序
       }
     }
   } 
  }
}
  • _key:在区间聚合的时候(histogram或者date_histogram),可以根据桶的key做排序:
GET /cars/transactions/_search
{
  "size": 0,
  "aggs": {
    "price": {
      "histogram": {           ---区间聚合
        "field": "price",      ---取price字段的值
        "interval": 20000,     ---每个区间的大小是20000
        "order": {             ---表示要对聚合结果做排序
          "_key": "desc"       ---排序字段是桶的key值,这里是每个区间的起始值,顺序是降序
        }
      }
    }
  }
}
  • 返回结果如下,已经按照key的大小从大到小排序:
  ......
  "aggregations" : {
    "price" : {
      "buckets" : [
        {
          "key" : 80000.0,
          "doc_count" : 1
        },
        {
          "key" : 60000.0,
          "doc_count" : 0
        },
        {
          "key" : 40000.0,
          "doc_count" : 0
        },
        {
          "key" : 20000.0,
          "doc_count" : 4
        },
        {
          "key" : 0.0,
          "doc_count" : 3
        }
      ]
    }
  }
}

在这里插入图片描述

  • 但是在实际操作中发现,6.7.1版本中,除了histogram 和 date_histogram,terms桶也可以用_key排序,如下图,是按照key的字母降序:

在这里插入图片描述

  • desc改为asc之后返回如下图,变成了按照key的首字母升序排序:

在这里插入图片描述

在这里插入图片描述

  • 也许是"手贱"的缘故,我还是用_term试了下,可以返回结果,但是会建议用_key替代_term,如下图:

在这里插入图片描述

按照metrics排序(metrics结果只有一个值)

  • 常见的metrics有累加和(sum)、最大值(max)、最小值(min)、平均值(avg),这些metrics的特点是处理结果只有一个值,我们可以按照这个结果来排序,例如计算每个汽车品牌的销售额,再按照销售额排序:
GET /cars/transactions/_search
{
  "size": 0,
  "aggs": {
    "sales_rank": {
      "terms": {               ---桶类型是terms
        "field": "make",       ---按照make字段聚合
        "order": {             ---要求排序
          "sales": "desc"      ---排序字段是sales
        }
      },
      "aggs": {
        "sales": {            ---metrics处理后的结果保存在名为sales的字段中,排序已经指定了该字段
          "sum": {            ---桶内的metrics处理,类型是累加
            "field": "price"  ---将price字段的值累加
          }
        }
      }
    }
  }
}
  • 下面是聚合结果,可见已按照每个品牌的销售额大小做了降序的排序:
......
  "aggregations" : {                          ---聚合结果
    "sales_rank" : {                          ---桶名称
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [                           ---这个JSON数组内是按照品牌聚合而成的所有桶
        {
          "key" : "bmw",                      ---品牌为bmw的桶
          "doc_count" : 1,                    ---文档数量为1
          "sales" : {                         ---metrics处理结果
            "value" : 80000.0                 ---品牌为bmw的汽车销售总额是80000
          }
        },
        {
          "key" : "ford",
          "doc_count" : 2,
          "sales" : {
            "value" : 55000.0
          }
        },
        {
          "key" : "honda",
          "doc_count" : 3,
          "sales" : {
            "value" : 50000.0
          }
        },
        {
          "key" : "toyota",
          "doc_count" : 2,
          "sales" : {
            "value" : 27000.0
          }
        }
      ]
    }
  }
}

按照metrics排序(metrics结果有多个值)

  • 和sum、max这些只有一个结果的metrics不同,extended_stats的结果包含了数量、最大值、最小值、平均值、累加和等多种处理,此时必须要指定用其中的哪一项(否则会返回错误:Invalid aggregation order path [xxxx]. When ordering on a multi-value metrics aggregation a metric name must be specified):
GET /cars/transactions/_search
{
  "size": 0,
  "aggs": {
    "sales_rank": {
      "terms": {                 ---桶类型是terms
        "field": "make",         ---按照make字段聚合
        "order": {               ---要求排序
          "stat.avg": "asc"      ---排序字段是metrics结果的一个子项(平均值),升序
        }
      },
      "aggs": {
        "stat": {                ---metrics处理后的结果保存在名为stat的字段中,排序已经指定了该字段的agv子项(平均值)
          "extended_stats": {    ---桶内的metrics处理,类型是计算数量、最大值、最小值、平均值等多个指标项
            "field": "price"     ---将price字段的值拿来做metrics处理
          }
        }
      }
    }
  }
}
  • 返回结果如下,可见已经按照metrics结果的avg子项做了升序排序:
......
"aggregations" : {
    "sales_rank" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "toyota",
          "doc_count" : 2,
          "stat" : {
            "count" : 2,
            "min" : 12000.0,
            "max" : 15000.0,
            "avg" : 13500.0,               ---排序字段
            "sum" : 27000.0,
            "sum_of_squares" : 3.69E8,
            "variance" : 2250000.0,
            "std_deviation" : 1500.0,
            "std_deviation_bounds" : {
              "upper" : 16500.0,
              "lower" : 10500.0
            }
          }
        },
        {
          "key" : "honda",
          "doc_count" : 3,
          "stat" : {
            "count" : 3,
            "min" : 10000.0,
            "max" : 20000.0,
            "avg" : 16666.666666666668,    ---排序字段
            "sum" : 50000.0,
            "sum_of_squares" : 9.0E8,
            "variance" : 2.222222222222221E7,
            "std_deviation" : 4714.045207910315,
            "std_deviation_bounds" : {
              "upper" : 26094.757082487296,
              "lower" : 7238.5762508460375
            }
          }
        },
        ......

嵌套桶排序

  • 在聚合查询中,经常对聚合的数据再次做聚合处理,例如统计每个汽车品牌下的每种颜色汽车的销售额,这时候DSL中就有了多层aggs对象的嵌套,这就是嵌套桶(此名称来自《Elasticsearch 权威指南》),如下图所示:

在这里插入图片描述

欢迎关注阿里云开发者社区博客:程序员欣宸

学习路上,你不孤单,欣宸原创一路相伴...
相关实践学习
利用Elasticsearch实现地理位置查询
本实验将分别介绍如何使用Elasticsearch7.10版本进行全文检索、多语言检索和地理位置查询三个Elasticsearch基础检索子场景的实现。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
2月前
|
存储 搜索推荐 Java
|
15天前
|
SQL 安全 数据挖掘
Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?
Elasticsearch聚合查询用于复杂数据分析,包括统计空值率。示例展示了如何计算字段`my_field`非空非零文档的百分比。查询分为三步:总文档数计数、符合条件文档数计数及计算百分比。聚合概念涵盖度量、桶和管道聚合。脚本在聚合中用于动态计算。常见聚合类型如`sum`、`avg`、`date_histogram`等。组合使用可实现多值统计、嵌套聚合和空值率计算。[阅读更多](https://zhangfeidezhu.com/?p=515)
92 0
Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?
|
6天前
|
存储 缓存 自然语言处理
elasticsearch 聚合 : 指标聚合、桶聚合、管道聚合解析使用总结
elasticsearch 聚合 : 指标聚合、桶聚合、管道聚合解析使用总结
|
8天前
|
缓存 Java API
在生产环境中部署Elasticsearch:最佳实践和故障排除技巧——聚合与搜索(三)
在生产环境中部署Elasticsearch:最佳实践和故障排除技巧——聚合与搜索(三)
|
2月前
|
存储 缓存 自然语言处理
Elasticsearch框架学习的难点和重点有哪些
Elasticsearch是基于Lucene的开源搜索引擎,广泛应用于全文检索和日志分析。学习重点包括理解节点、集群、索引、分片和副本等基本概念,掌握数据索引、查询DSL、聚合和性能优化。倒排索引和分词器是全文搜索的核心,集群管理和监控对于稳定性至关重要。实践中需根据数据量和查询模式优化分片策略,利用缓存提升搜索性能。学习Elasticsearch要结合实际项目,关注官方文档和社区资源。【5月更文挑战第6天】
|
2月前
|
搜索推荐 JavaScript Java
Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序?
Elasticsearch 8.X 如何依据 Nested 嵌套类型的某个字段进行排序?
38 0
|
2月前
|
存储 数据建模 索引
来自钉钉群的问题——Elasticsearch 如何实现文件名自定义排序?
来自钉钉群的问题——Elasticsearch 如何实现文件名自定义排序?
28 0
|
2月前
|
存储 缓存 Java
Elasticsearch 8.X 聚合查询下的精度问题及其解决方案
Elasticsearch 8.X 聚合查询下的精度问题及其解决方案
43 0
|
2月前
|
人工智能 架构师 开发者
大模型时代,该如何更好的学习 Elasticsearch?
大模型时代,该如何更好的学习 Elasticsearch?
29 0
|
21天前
Elasticsearch安装配置文件
Elasticsearch安装配置文件
16 0