文档备案控制台

开发者社区大数据与机器学习检索分析服务 Elasticsearch版正文

Elasticsearch高并发大数据量场景下Rollover进行容量管理还是写交业务进行数据归档？

Elasticsearch高并发大数据量场景下Rollover进行容量管理还是写交业务进行数据归档？

展开

收起

青城山下庄文杰 2023-09-23 14:51:31 506 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在Elasticsearch高并发大数据量场景下，选择使用Rollover进行容量管理还是写交业务进行数据归档，需要根据具体的业务需求、性能要求和成本优化目标来决定。以下是两种方式的详细对比及适用场景分析：

1. 使用Rollover进行容量管理

Rollover机制是Elasticsearch中用于管理时序数据（如日志、指标等）的一种高效方法，通过设置条件（如索引大小、文档数量或时间间隔）自动创建新索引，避免单个索引过大导致性能问题。

工作原理

Rollover会在满足预设条件（如索引大小达到50GB、文档数达到100万或时间超过1天）时，自动创建新的索引，并将写入流量切换到新索引。
旧索引可以进入索引生命周期管理（ILM）的不同阶段（如warm、cold、delete），从而实现冷热数据分离和存储优化。

优势

性能优化：通过限制单个索引的大小，避免因索引过大导致的查询和写入性能下降。
自动化管理：结合ILM策略，可以自动完成索引的滚动更新、分片收缩、段合并以及最终删除操作，减少人工干预。
灵活性：支持基于时间、大小或文档数量的多种滚动条件，适应不同业务场景。

适用场景

数据写入频率高且持续增长的场景，例如日志采集、指标监控等。
需要对数据进行冷热分层存储并优化存储成本的场景。
查询需求集中在最近数据，而历史数据访问较少的场景。

注意事项

配置复杂性：需要合理设置Rollover条件和ILM策略，否则可能导致索引过多或存储成本增加。
集群负载：频繁的Rollover操作可能对主节点造成压力，建议结合业务写入流量评估实例规格。

2. 写交业务进行数据归档

写交业务进行数据归档是指将不再频繁访问的历史数据从Elasticsearch集群中迁移到其他存储介质（如对象存储OSS）进行长期保存。

工作原理

在传统方式中，通常通过快照（Snapshot）将数据备份到外部存储介质（如OSS）。查询时需要先恢复快照到集群中，增加了查询复杂度。
阿里云Elasticsearch的OpenStore智能混合存储提供了一种更高效的解决方案，允许数据直接存储在低成本的混合存储中，同时支持按需查询，无需手动恢复快照。

优势

存储成本低：OpenStore存储单价比本地SATA盘低60%，比高效云盘低70%，适合长期存储大量数据。
查询性能提升：对于典型日志场景，OpenStore的查询性能相较于本地SATA提升了100%，与高效云盘相当。
自动化管理：无需手动配置冷热生命周期策略，OpenStore会根据查询频率智能分层存储数据。

适用场景

数据写入量大但查询频率较低的场景，例如日志归档、审计记录等。
需要长期存储数据以满足合规性要求的场景。
对存储成本敏感且对查询延迟容忍度较高的场景。

注意事项

查询限制：部分Agg查询类型仅支持1.9及以上版本，其他内核版本不支持。
存储容量规划：单节点最大存储容量为30TB，如有更大需求需通过工单申请。
写入性能：开启OpenStore后，索引将处于只读状态，少量写入场景可通过修改index.blocks.write参数实现新数据写入，但需谨慎操作。

总结与建议

如果您的业务场景需要高性能写入和实时查询，并且数据量较大但查询集中在近期数据，建议使用Rollover结合ILM策略进行容量管理。
如果您的业务场景需要长期存储大量数据，并且对查询性能要求不高，建议使用OpenStore智能混合存储进行数据归档，以降低存储成本并简化管理。

推荐搭配方案

Rollover + ILM + OpenStore：对于日志场景，可以结合Rollover进行实时数据写入管理，同时利用ILM将冷数据迁移到OpenStore中存储，实现性能与成本的最佳平衡。

希望以上信息能帮助您更好地选择适合的方案！

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

云原生大数据计算服务 MaxCompute 检索分析服务 Elasticsearch版

问答标签：

高并发场景高并发数据 elasticsearch云原生大数据计算服务 MaxCompute 高并发大数据高并发云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据与机器学习 > 检索分析服务 Elasticsearch版 > 问答

相关问答

检索分析服务 Elasticsearch版

在函数计算中，银行转账场景高并发的问题如何解决？

345

1

0

ODPS的string类型同步到Elasticsearch的string里报脏数据如何处理

228

1

0

高并发场景选择哪种阿里云服务器合适？

285

1

0

阿里云ECS高并发场景应该选择什么类型服务器？

274

1

0

基于scale-up的单机扩展架构在高并发场景下会遇到什么问题？

212

1

0

在高并发大流量应用下线场景中，主动通知方法可能面临什么问题？

191

1

0

在Flink CDC中，Flink 读Redis，在高并发大数据量下有性能瓶劲，有没有遇到过？

267

1

0

在高并发场景下，获取锁失败后有哪些不可取的处理方式？

384

1

0

Elasticsearch 能给客户提供什么样的场景化解决方案？

164

1

0

DataWorks中Elasticsearch数据同步到odps，同步的时候一直有数据写入怎么办？

265

1

0

大数据与机器学习

检索分析服务 Elasticsearch版

阿里云检索分析服务Elasticsearch版兼容开源ELK功能，免运维全托管，提升企业数据检索与运维分析能力。

我要提问

相关文章

阿里云 Elasticsearch 日志采集与加工服务：让日志链路少一串组件，多一份稳定

Lake Search：ES x Paimon 让湖上多模态数据可搜可用

更快、更稳、更省：揭秘阿里云 Elasticsearch 存算分离与弹性扩缩

FalconSeek 技术解析：阿里云 Elasticsearch 云原生内核如何让查询性能飙升600%

阿里云 ES AI 引擎版：面向 Agent 场景，为亿级租户、千亿规模向量设计的搜索引擎

相关解决方案

更多

应用日志数据归档

基于数据闪回，快速恢复数据

Elasticsearch 智能运维 AI 助手

精准分析检索，打造商品推荐体验

海量异构数据预处理破局之道

热门讨论

热门文章

想快速上手Kibana进行数据分析吗？

Elasticsearch主日志报错All shards failed原因及解决方案

Elasticsearch中docs.deleted 这个里面的数据怎么彻底删掉呢？

Elasticsearch 7.10 中查询数据与总数不对应

查看 GitHub 开源项目分析看板要关注哪些信息点？

Elasticsearch Kibana无法登陆访问

需要处理巨量埋点数据是使用ClickHouse还是用Elasticsearch

Elasticsearch中reindex怎么提高速度呢？

【藏经阁一起读（24）】读《Elastic Stack 实战手册》，你有哪些心得？

Elasticsearch查看每个节点的索引分片

展开全部

Kibana：数据分析的可视化利器

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

【入门指南】使用阿里云Elasticsearch搭建ELK日志系统

【X-Pack解读】阿里云Elasticsearch X-Pack 安全组件功能详解

（ElasticsSearch学习）歌词检索Demo的实现：二. 搭建spring boot+spring data+jest+elasticsearch环境，实现歌词的全文检索

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

2019北京Elastic开发者大会日程重磅上线 | 由阿里云联合赞助

【阿里云MVP第五期】安畅网络韩军辉：ELK在数据中心流量分析中的应用

时序数据库场景下的Elasticsearch（一）：技术特点简介

【阿里云MVP第五期】Elastic曾勇：Elasticsearch在智能运维领域的应用

展开全部

还有其他疑问?