备案控制台

开发者社区问答正文

Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？

Elasticsearch 对于大数据量（上亿量级）的聚合如何实现？

展开

收起

芯在这 2021-12-11 22:09:08 742 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

Elasticsearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数，即该字段的 distinct 或者 unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入作哈希运算，然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。其特点是：可配置的精度，用来控制内存的使用（更精确＝更多内存）；小的数据集精度是非常高的；我们可以通过配置参数，来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值，内存使用量只与你配置的精确度相关。

2021-12-11 22:09:23

赞同展开评论

问答分类：

检索分析服务 Elasticsearch版云原生大数据计算服务 MaxCompute

问答标签：

检索分析服务 Elasticsearch版聚合 elasticsearch云原生大数据计算服务 MaxCompute 检索分析服务 Elasticsearch版大数据云原生大数据计算服务 MaxCompute聚合

问答地址：

开发者社区 > 云计算 > 问答

相关问答

ODPS的string类型同步到Elasticsearch的string里报脏数据如何处理

131

1

0

Elasticsearch es搜索结果20000条对前5000条做聚合求sum dsl语句怎么写？

328

2

0

Elasticsearch高并发大数据量场景下Rollover进行容量管理还是写交业务进行数据归档？

374

0

0

DataWorks中我们使用odps同步elasticsearch 数据，字段在es上是时间戳字符？

354

3

0

在Elasticsearch中es按字段去重聚合有什么方式可以获取精确的不重复总数吗？

178

1

0

DataWorks中Elasticsearch数据同步到odps，同步的时候一直有数据写入怎么办？

115

1

0

MaxCompute中如何使用WM_CONCAT 函数按照某一字段进行排序聚合

365

1

0

DataWorks数据同步Elasticsearch同步odps数据量不符合预期

93

1

0

大数据计算MaxCompute有计划做聚合表吗?

96

2

0

大数据计算MaxCompute这个成本分析会根据作业id聚合吗？还是每次执行都有一条记录？

107

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

阿里云CDN价格表，CDN如何收费的？

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

相关文章

参与 Elasticsearch Serverless AI 实践挑战赢好礼！

一行代码，让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略

网站代码网站源代码网页源代码网页代码网站

做了15年认知心理学研究，聊聊我是怎么被文献淹没、又怎么爬出来的

打破 IK 分词“架构陷阱”——阿里云 ES Serverless 索引级词典的完美热更新实践

还有其他疑问?