白话Elasticsearch47-深入聚合数据分析之Cardinality Aggs-cardinality算法之优化内存开销以及HLL算法

2023-05-26 159

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： 白话Elasticsearch47-深入聚合数据分析之Cardinality Aggs-cardinality算法之优化内存开销以及HLL算法

概述

继续跟中华石杉老师学习ES，第47篇

课程地址： https://www.roncoo.com/view/55

官方说明

Cardinality Aggregation：戳这里

precision_threshold优化准确率和内存开销

原始数据：

统计下有多少个不同的品牌

DSL:

GET /tvs/sales/_search
{
    "size" : 0,
    "aggs" : {
        "distinct_brand" : {
            "cardinality" : {
              "field" : "brand",
              "precision_threshold" : 100 
            }
        }
    }
}

注意下 "precision_threshold" : 100 的意思是： brand去重，如果brand的unique value，在100个以内，小米，长虹，三星，TCL，HTL。。。在多少个unique value以内，cardinality，几乎保证100%准确。

cardinality算法，会占用precision_threshold * 8 byte 内存消耗，100 * 8 = 800个字节占用内存很小。。。而且unique value如果的确在值以内，那么可以确保100%准确

precision_threshold，值设置的越大，占用内存越大，假设设置 1000，那么1000 * 8 = 8000 / 1000 = 8KB，可以确保更多unique value的场景下，100%的准确

field，去重，count，这时候，unique value，10000， precision_threshold=10000，10000 * 8 = 80000个byte，80KB

HyperLogLog++ (HLL)算法性能优化

cardinality底层算法：HLL算法，HLL算法的性能会对所有的uqniue value取hash值，通过hash值近似去求distcint count，存在误差 .

默认情况下，发送一个cardinality请求的时候，会动态地对所有的field value，取hash值;

优化的话：将取hash值的操作，前移到建立索引的时候，如下

PUT /tvs/
{
  "mappings": {
    "sales": {
      "properties": {
        "brand": {
          "type": "text",
          "fields": {
            "hash": {
              "type": "murmur3" 
            }
          }
        }
      }
    }
  }
}

这样在执行同样的查询的话，就不会在请求的时候执行hash值了。

GET /tvs/sales/_search
{
    "size" : 0,
    "aggs" : {
        "distinct_brand" : {
            "cardinality" : {
              "field" : "brand.hash",
              "precision_threshold" : 100 
            }
        }
    }
}

相关实践学习

使用阿里云Elasticsearch体验信息检索加速

通过创建登录阿里云Elasticsearch集群，使用DataWorks将MySQL数据同步至Elasticsearch，体验多条件检索效果，简单展示数据同步和信息检索加速的过程和操作。

ElasticSearch 入门精讲

ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示，Elasticsearch是最受欢迎的企业搜索引擎，其次是Apache Solr（也是基于Lucene）。 ElasticSearch的实现原理主要分为以下几个步骤：用户将数据提交到Elastic Search 数据库中通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据当用户搜索数据时候，再根据权重将结果排名、打分将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索，具有接近实时的搜索，并支持多租户。

白话Elasticsearch47-深入聚合数据分析之Cardinality Aggs-cardinality算法之优化内存开销以及HLL算法

概述

官方说明

precision_threshold优化准确率和内存开销

HyperLogLog++ (HLL)算法性能优化

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

白话Elasticsearch47-深入聚合数据分析之Cardinality Aggs-cardinality算法之优化内存开销以及HLL算法

概述

官方说明

precision_threshold优化准确率和内存开销

HyperLogLog++ (HLL)算法性能优化

热门文章

最新文章

相关课程

相关电子书

相关实验场景