速看,ElasticSearch如何处理空值《玩转ElasticSearch 4》-1

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 速看,ElasticSearch如何处理空值《玩转ElasticSearch 3》

大家好,我是咔咔 不期速成,日拱一卒


ElasticSearch致力于搜索的同时,也提供了聚合实时分析数据的功能,聚合可以实现把复杂的数据进行一系列计算后得出我们想要的数据。


虽然聚合的功能与搜索完全不同,但使用的数据结构是完全相同的,因此聚合的执行速度很快,也就是说在一次请求中对相同数据可以同时进行搜索+过滤、分析。


在ElasticSearch中聚合共分为四大类:


  • Bucket Aggregation:分桶类型,一些列满足特定条件的文档集合
  • Metric Aggregation:指标分析类型,对数据进行数学运算,例如求最大、小值
  • Pipeline Aggregation:管道分析类型,已经聚合的结果进行二次聚合
  • Matix Aggregation:矩阵分析类型,支持对多个字段操作并提供一个结果矩阵

先从简开始,看一下Bucket、Metric这两种类型,Bucket实现的结果就是MySQL中group关键字的使用,Metric则是MySQL中max、min函数的使用。




一、Buckert Aggregation

介绍

image.png


通过上图可得知将数据分为了三个桶,第一个桶统计的是身高小于300,第二个桶统计的是身高大于600,第三个桶统计的是身高在300到600之间的,在这个案例中就是根据不同的身高分到不同的桶中。


使用聚合分析机制还可以按照年龄、地理位置、性别、薪资范围、订单增长情况、工作岗位分布等。只要有一定共同点的数据都可使用聚合进行归档处理。


常见的Bucket分桶策略


  • terms:按照term来分桶,如果是text类型则会按照分词后的结果进行分桶
  • range:指定数值的范围来设定分桶规则
  • data range:指定日期的范围来设定分桶规则
  • histogram:固定的间隔来来设定分桶规则
  • data histogram:针对日期的直方图或柱状图

Terms

根据目的地进行分桶

post /kibana_sample_data_flights/_search
{
  "size":0,
  "aggs":{
    "destcountry_term":{
      "terms": {
        "field": "DestCountry"
      }
    }
  },
  "profile":"true"
}

从返回结果中看到根据目的地将航班信息进行了归类处理,同时也会发现在ElasticSearch中如果不手动定义size值都会默认只返回10条结果

"aggregations" : {
    "destcountry_term" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 3187,
      "buckets" : [
        {
          "key" : "IT",
          "doc_count" : 2371
        },
        {
          "key" : "US",
          "doc_count" : 1987
        },
        {
          "key" : "CN",
          "doc_count" : 1096
        },
        {
          "key" : "CA",
          "doc_count" : 944
        },
        {
          "key" : "JP",
          "doc_count" : 774
        },
        {
          "key" : "RU",
          "doc_count" : 739
        },
        {
          "key" : "CH",
          "doc_count" : 691
        },
        {
          "key" : "GB",
          "doc_count" : 449
        },
        {
          "key" : "AU",
          "doc_count" : 416
        },
        {
          "key" : "PL",
          "doc_count" : 405
        }
      ]
    }
  }


Range

想要查询平均价格在300以下、300~600之间、大于600的案例

post /kibana_sample_data_flights/_search
{
  "size":0,
  "aggs":{
    "avgticketprice_range":{
      "range": {
        "field": "AvgTicketPrice",
        "ranges": [
          {"to":300},
          {"from":300,"to":600},
          {"from":600}
        ]
      }
    }
  }
}


返回结果如下,可以三条结果都根据不同的区间设置了key值

"aggregations" : {
    "avgticketprice_range" : {
      "buckets" : [
        {
          "key" : "*-300.0",
          "to" : 300.0,
          "doc_count" : 1816
        },
        {
          "key" : "300.0-600.0",
          "from" : 300.0,
          "to" : 600.0,
          "doc_count" : 4115
        },
        {
          "key" : "600.0-*",
          "from" : 600.0,
          "doc_count" : 7128
        }
      ]
    }
  }

可以通过设置keyed:true,使每个区间都返回一个特定的名字

post /kibana_sample_data_flights/_search
{
  "size":0,
  "aggs":{
    "avgticketprice_range":{
      "range": {
        "field": "AvgTicketPrice",
        "keyed":"true",
        "ranges": [
          {"to":300},
          {"from":300,"to":600},
          {"from":600}
        ]
      }
    }
  }
}

可以好好的跟上一个案例对比一下区别

"aggregations" : {
    "avgticketprice_range" : {
      "buckets" : {
        "*-300.0" : {
          "to" : 300.0,
          "doc_count" : 1816
        },
        "300.0-600.0" : {
          "from" : 300.0,
          "to" : 600.0,
          "doc_count" : 4115
        },
        "600.0-*" : {
          "from" : 600.0,
          "doc_count" : 7128
        }
      }
    }
  }

当然也可以指定区间的名字

post /kibana_sample_data_flights/_search
{
  "size":0,
  "aggs":{
    "avgticketprice_range":{
      "range": {
        "field": "AvgTicketPrice",
        "keyed":"true",
        "ranges": [
          {"key":"小于300","to":300},
          {"key":"300到600之间","from":300,"to":600},
          {"key":"大于600","from":600}
        ]
      }
    }
  }
}

返回结果


"aggregations" : {
    "avgticketprice_range" : {
      "buckets" : {
        "小于300" : {
          "to" : 300.0,
          "doc_count" : 1816
        },
        "300到600之间" : {
          "from" : 300.0,
          "to" : 600.0,
          "doc_count" : 4115
        },
        "大于600" : {
          "from" : 600.0,
          "doc_count" : 7128
        }
      }
    }
  }


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
5月前
|
缓存 监控 Java
【Elasticsearch专栏 09】深入探索:Elasticsearch如何处理并发写入和读取请求
Elasticsearch通过分片机制分散读写请求,利用事务日志确保数据持久性,通过多线程处理并发请求,并允许通过配置调整分片和副本数量、线程池设置来优化并发性能。同时,使用批量操作和查询优化进一步提高写入和读取效率。
81 0
|
4月前
|
SQL 安全 数据挖掘
Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?
Elasticsearch聚合查询用于复杂数据分析,包括统计空值率。示例展示了如何计算字段`my_field`非空非零文档的百分比。查询分为三步:总文档数计数、符合条件文档数计数及计算百分比。聚合概念涵盖度量、桶和管道聚合。脚本在聚合中用于动态计算。常见聚合类型如`sum`、`avg`、`date_histogram`等。组合使用可实现多值统计、嵌套聚合和空值率计算。[阅读更多](https://zhangfeidezhu.com/?p=515)
281 0
Elasticsearch如何聚合查询多个统计值,如何嵌套聚合?并相互引用,统计索引中某一个字段的空值率?语法是怎么样的?
|
5月前
|
存储 自然语言处理 搜索推荐
【Elasticsearch专栏 06】深入探索:Elasticsearch如何处理倒排索引中的分词问题
Elasticsearch通过内置和可定制的分词器及过滤器处理倒排索引中的分词问题,确保文本被拆分成合适的词条并优化存储,为全文搜索等提供高效支持。用户可通过分析API测试和调整分词效果。
51 3
|
SQL 数据建模 索引
Elasticsearch 空值处理实战指南
1、引言 实战业务场景中,经常会遇到定义空值、检索指定空值数据的情况。 这时候,当我们翻看官方文档 null_value 部分,会看到如下的描述: Accepts a string value which is substituted for any explicit null values. Defaults to null, which means the field is treated as missing. 接受一个字符串值替换所有显式的空值。默认为null,这意味着该字段被视为丢失。 A null value cannot be indexed or searched. W
1099 0
Elasticsearch 空值处理实战指南
|
存储 数据挖掘
速看,ElasticSearch如何处理空值《玩转ElasticSearch 4》-2
速看,ElasticSearch如何处理空值《玩转ElasticSearch 4》
183 0
|
关系型数据库 MySQL 索引
速看,ElasticSearch如何处理空值《玩转ElasticSearch 3》-3
速看,ElasticSearch如何处理空值《玩转ElasticSearch 3》
190 0
|
1月前
|
NoSQL 关系型数据库 Redis
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
mall在linux环境下的部署(基于Docker容器),docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongodb、minio详细教程,拉取镜像、运行容器
mall在linux环境下的部署(基于Docker容器),Docker安装mysql、redis、nginx、rabbitmq、elasticsearch、logstash、kibana、mongo
|
2月前
|
数据可视化 Docker 容器
一文教会你如何通过Docker安装elasticsearch和kibana 【详细过程+图解】
这篇文章提供了通过Docker安装Elasticsearch和Kibana的详细过程和图解,包括下载镜像、创建和启动容器、处理可能遇到的启动失败情况(如权限不足和配置文件错误)、测试Elasticsearch和Kibana的连接,以及解决空间不足的问题。文章还特别指出了配置文件中空格的重要性以及环境变量中字母大小写的问题。
一文教会你如何通过Docker安装elasticsearch和kibana 【详细过程+图解】
|
2月前
|
JSON 自然语言处理 数据库
Elasticsearch从入门到项目部署 安装 分词器 索引库操作
这篇文章详细介绍了Elasticsearch的基本概念、倒排索引原理、安装部署、IK分词器的使用,以及如何在Elasticsearch中进行索引库的CRUD操作,旨在帮助读者从入门到项目部署全面掌握Elasticsearch的使用。
|
2月前
|
Ubuntu Oracle Java
如何在 Ubuntu VPS 上安装 Elasticsearch
如何在 Ubuntu VPS 上安装 Elasticsearch
19 0
下一篇
无影云桌面