ElasticSearch学习笔记(九) 聚合查询之Metric

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Elasticsearch的Metric聚合主要用于统计在某个字段中的最大、最小、平均数、和、标准差等数值型数据统计指标。下面让我们详细介绍Metric聚合的使用方法,并给出一个完整的示例。

Elasticsearch的Metric聚合主要用于统计在某个字段中的最大、最小、平均数、和、标准差等数值型数据统计指标。下面让我们详细介绍Metric聚合的使用方法,并给出一个完整的示例。

Metric聚合

Metric聚合是用于计算数值型数据统计指标的一类聚合方法。它可以计算一些统计数据,如最大值,最小值,平均值和加和等,以便对搜索结果进行分析。

以下是Metric聚合常用的几种类型:

  • avg:计算某个字段的平均值。
  • max:计算某个字段的最大值。
  • min:计算某个字段的最小值。
  • sum:计算某个字段值的和。
  • cardinality:计算某个字段的基数(即唯一值的数量)。
  • stats:计算某个字段的平均值、最小值、最大值和总和。
  • extended_stats:计算某个字段的平均值、最小值、最大值、总和以及标准差和方差。

使用Metric聚合需要构造一个聚合对象,它由两个部分组成:聚合名称和聚合类型。

例如,我们可以通过以下方式创建一个名为 "average_price" 的聚合,用于计算商品价格的平均值:

{
  "aggs": {
    "average_price": {
      "avg": {
        "field": "price"
      }
    }
  }
}

这个聚合将统计所有匹配查询条件的文档集中商品价格(即字段 "price")的平均值,并将结果保存到名为 "average_price" 的桶(bucket)中。

完整示例

下面是一个完整的示例,它将根据不同用户在不同时间段内访问的页面进行统计,并返回每一个用户每天平均访问的页面数量,以及每个时间段内访问量最大的前10个页面。

首先,假设我们有这样一个索引,记录了所有用户的访问记录:

PUT /log_index
{
  "mappings": {
    "properties": {
      "user_id": {"type": "keyword"},
      "page_url": {"type": "keyword"},
      "timestamp": {"type": "date"}
    }
  }
}

然后,我们需要向索引中添加一些数据,用于测试聚合操作。以下是一些典型的访问记录,它们包括用户ID、访问页面的URL以及时间戳:

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/product/123",
  "timestamp": "2023-06-01T10:00:00"
}

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/blog/456",
  "timestamp": "2023-06-01T11:00:00"
}

POST /log_index/_doc
{
  "user_id": "user1",
  "page_url": "/product/789",
  "timestamp": "2023-06-02T10:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/blog/789",
  "timestamp": "2023-06-02T12:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/product/123",
  "timestamp": "2023-06-03T09:00:00"
}

POST /log_index/_doc
{
  "user_id": "user2",
  "page_url": "/product/456",
  "timestamp": "2023-06-03T15:00:00"
}

接下来,我们可以使用以下查询来计算每个用户每天平均访问的页面数量,并返回每个时间段内访问量最大的前10个页面:

POST /log_index/_search
{
  "size": 0,
  "aggs": {
    "user_page_stats": {
      "composite": {
        "sources": [
          {"user_id": {"terms": {"field": "user_id.keyword"}}},
          {"date": {"date_histogram": {"field": "timestamp", "interval": "day"}}}
        ]
      },
      "aggs": {
        "page_count": {
          "cardinality": {
            "field": "page_url.keyword"
          }
        },
        "top_pages": {
          "terms": {
            "field": "page_url.keyword",
            "size": 10
          }
        }
      }
    }
  }
}

在这个查询中,我们首先使用 composite 聚合按照用户ID和日期对访问记录进行分组。其中 "date_histogram" 表示将时间戳按照天进行划分。

然后,我们在 "user_page_stats" 桶中添加了两个子聚合:

  • "page_count" 子聚合使用 cardinality 聚合计算每个用户在每天访问的不同页面数量。
  • "top_pages" 子聚合使用 terms 聚合计算每个时间段内访问量最大的前10个页面。

执行以上查询后,返回的结果如下所示:

{
  ...
  "aggregations": {
    "user_page_stats": {
      "buckets": [
        {
          "key": {
            "user_id": "user1",
            "date": 16804
          },
          "doc_count": 2,
          "page_count": {
            "value": 2
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/123",
                "doc_count": 1
              },
              {
                "key": "/blog/456",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user1",
            "date": 16805
          },
          "doc_count": 1,
          "page_count": {
            "value": 1
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/789",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user2",
            "date": 16805
          },
          "doc_count": 1,
          "page_count": {
            "value": 1
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/blog/789",
                "doc_count": 1
              }
            ]
          }
        },
        {
          "key": {
            "user_id": "user2",
            "date": 16806
          },
          "doc_count": 2,
          "page_count": {
            "value": 2
          },
          "top_pages": {
            "buckets": [
              {
                "key": "/product/123",
                "doc_count": 1
              },
              {
                "key": "/product/456",
                "doc_count": 1
              }
            ]
          }
        }
      ]
    }
  }
}

根据返回结果可以看出,这个查询实现了我们的需求。例如,针对用户 "user1",在日期 "2023-06-01",他访问了2个不同的页面("/product/123" 和 "/blog/456"),在日期 "2023-06-02",他访问了1个不同的页面("/product/789")。而在每个日期内,他访问量最大的前10个页面,也被正确地计算了出来。

这个示例展示了如何使用Metric聚合对Elasticsearch中的数据进行分析和统计。需要注意的是,具体的聚合方式和参数取决于我们的需求和数据特征。

相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
1月前
|
存储 SQL 监控
|
2月前
|
存储 JSON 监控
大数据-167 ELK Elasticsearch 详细介绍 特点 分片 查询
大数据-167 ELK Elasticsearch 详细介绍 特点 分片 查询
62 4
|
2月前
|
自然语言处理 搜索推荐 Java
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(一)
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图
66 0
|
2月前
|
存储 自然语言处理 搜索推荐
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(二)
SpringBoot 搜索引擎 海量数据 Elasticsearch-7 es上手指南 毫秒级查询 包括 版本选型、操作内容、结果截图(二)
45 0
|
3月前
|
存储 自然语言处理 关系型数据库
ElasticSearch基础3——聚合、补全、集群。黑马旅游检索高亮+自定义分词器+自动补全+前后端消息同步
聚合、补全、RabbitMQ消息同步、集群、脑裂问题、集群分布式存储、黑马旅游实现过滤和搜索补全功能
|
3月前
|
JSON 自然语言处理 算法
ElasticSearch基础2——DSL查询文档,黑马旅游项目查询功能
DSL查询文档、RestClient查询文档、全文检索查询、精准查询、复合查询、地理坐标查询、分页、排序、高亮、黑马旅游案例
|
4月前
|
自然语言处理 Java 关系型数据库
ElasticSearch 实现分词全文检索 - 聚合查询 cardinality
ElasticSearch 实现分词全文检索 - 聚合查询 cardinality
162 1
|
4月前
|
存储 自然语言处理 Java
ElasticSearch 实现分词全文检索 - 经纬度定位商家距离查询
ElasticSearch 实现分词全文检索 - 经纬度定位商家距离查询
69 0
|
1月前
|
存储 安全 数据管理
如何在 Rocky Linux 8 上安装和配置 Elasticsearch
本文详细介绍了在 Rocky Linux 8 上安装和配置 Elasticsearch 的步骤,包括添加仓库、安装 Elasticsearch、配置文件修改、设置内存和文件描述符、启动和验证 Elasticsearch,以及常见问题的解决方法。通过这些步骤,你可以快速搭建起这个强大的分布式搜索和分析引擎。
54 5
|
2月前
|
存储 JSON Java
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。
这篇文章是关于Elasticsearch的学习指南,包括了解Elasticsearch、版本对应、安装运行Elasticsearch和Kibana、安装head插件和elasticsearch-ik分词器的步骤。
244 0
elasticsearch学习一:了解 ES,版本之间的对应。安装elasticsearch,kibana,head插件、elasticsearch-ik分词器。