elasticsearch cardinality（近似聚合）与Global ordinals（全局字典）是什么

2022-02-08 1437

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： 1.cardinality是ES的首个近似聚合语法2.查询优化使用了execution_hint，原理是什么？

cardinality（基数）度量

本质是一个基于HyperLogLog++（HLL）算法的一个近似聚合方案，可以通过precision_threshold参数调整聚合精确度，precision_threshold越大越精准，只接受0–40000之间的数字，更大的值会被当作40000来处理。（HLL只需要字段内容的哈希值）。

GET /zmc_index/_search
{
    "size" : 0,
    "aggs" : {
        "distinct_colors" : {
            "cardinality" : {
              "field" : "color",
              "precision_threshold" : 100 
            }
        }
    }
}
        
          
        
        
        
          
          AI 代码解读

在一定场景中（例如只有少量写入的情况下），可以通过将需求字段改成一个多值字段，来完成优化（牺牲写入，优化查询、聚合）。

PUT new_index/
{
  "mappings": {
    "_doc": {
      "properties": {
        "color": {
          "type": "keyword",
          "fields": {
            "hash": {
              "type": "murmur3" 
            }
          }
        }
      }
    }
  }
}
        
          
        
        
        
          
          AI 代码解读

类似的优化方案还有ES的分词使用场景，一般会选择多种分词器，例如pinyin、ik、ngram，对同一个字段使用不同的分词器索引出多个值，方便搜索时候查询（查准）。

更具体可以参考官方解释：
https://www.elastic.co/guide/cn/elasticsearch/guide/current/cardinality.html

Global ordinals（全局字典）（该映射是shard级别的，所有segment公用一个字典）

默认的模式就是使用Global ordinals，ES（默认）假设会有海量的数据，那么在聚合的时候就不合适全部放到内存，于是有了这个结构。其实就是一个全局的映射，把keyword或者term（词元）映射成一个字典值，然后保证聚合的时候的速度，同时也节省了内存（字典值会比原始的值小很多）。

global ordinals在shard上被触发refresh以后就会失效，下次使用的时候需要再重新构建。
可以使用eager_global_ordinals，在每次refresh后即可更新字典，字典常驻内存，减少了查询的时候构建字典的耗时。

PUT zmc_index/_mapping
{
  "properties": {
    "field": {
      "type": "keyword",
      "eager_global_ordinals": true
    }
  }
}
        
          
        
        
        
          
          AI 代码解读

用户使用execution_hint:map效果更快？

有用户在调优的时候调整了execution_hint参数，将其改成了map，即不使用global ordinals模式；

map的模式：聚合的时候在内存里面做分组（分桶）（适用于小数据量）

global ordinals比map慢的原因：字典需要在查询的时候构建（或者调整），所以就慢下来了（相对于内存）

在海量数据的情况下，使用map的方式会对内存造成很大压力，容易被熔断，或者有OOM风险，更推荐使用默认的global ordinals；

eager_global_ordinals模式低写高查、数据量不大的index中使用：需要常驻内存，每次refresh以后就会重构，增大了内存以及cpu的消耗；

map模式：
例如：aaaa,bbbb,aaaa,cccc,aaaa 这样的字符串放到内存计算，结果就是
aaaa:3
bbbb:1
cccc:1

Global ordinals模式：

把aaaa映射成1，bbbb映射成2，cccc映射成3
然后计算就是 1，2，1，3，1
最后结果再转化成 aaaa,bbbb,cccc

elasticsearch cardinality（近似聚合）与Global ordinals（全局字典）是什么

cardinality（基数）度量

Global ordinals（全局字典）（该映射是shard级别的，所有segment公用一个字典）

用户使用execution_hint:map效果更快？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

elasticsearch cardinality（近似聚合）与Global ordinals（全局字典）是什么

cardinality（基数）度量

Global ordinals（全局字典）（该映射是shard级别的，所有segment公用一个字典）

用户使用execution_hint:map效果更快？

热门文章

最新文章

相关课程

相关电子书

相关实验场景