文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

flink的状态后端用rockdbs性能怎么样？我目前用内存做状态存储，到我状态太大了，上百G了。

flink的状态后端用rockdbs性能怎么样？我目前用内存做状态存储，到我状态太大了，上百G了。

展开

收起

三分钟热度的鱼 2024-03-06 17:09:29 379 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
使用RocksDB作为Flink的状态后端，对于处理大量状态数据通常是一个比较好的选择。当内存不足以存储上百GB的状态数据时，RocksDB可以作为一个替代方案，因为它能够将状态数据持久化到磁盘上。以下是对使用RocksDB作为Flink状态后端的性能考量：
1. 性能表现：RocksDB是一个高性能的嵌入式键值数据库，它针对快速读写操作进行了优化。在Flink中，RocksDB可以有效地处理大量状态数据，尤其是在内存不足的情况下。
2. 内存管理：如果遇到性能问题，可以考虑调整RocksDB的内存托管参数。将state.backend.rocksdb.memory.managed参数设为false可以禁用RocksDB的内存托管，这可能会对性能产生影响。
3. 缓存大小：Block Cache的大小对于读性能至关重要。在Flink中，可以通过调整state.backend.rocksdb.block.cache-size参数来优化缓存大小，以提高读取性能。
4. 持久化：由于RocksDB将状态数据持久化到磁盘，这意味着即使在作业失败后，状态数据也不会丢失，这对于确保作业的稳定性和容错能力是非常重要的。
5. 适用场景：RocksDB特别适合于那些需要长时间运行、状态数据量大的作业，因为它能够有效地管理大量的状态数据，而不会对内存造成过大压力。
6. 性能调优：为了获得最佳性能，可能需要根据具体的作业特性和硬件环境对RocksDB进行一些性能调优，比如调整写缓冲区的大小、压缩策略等。
总的来说，如果您的状态数据量已经达到上百GB，并且内存存储已经不再可行，那么使用RocksDB作为状态后端是一个值得考虑的选择。不过，具体性能如何还需要根据您的作业特点和硬件环境进行实际测试和调优。
2024-03-06 22:20:29

赞同 2 展开评论
圆不溜秋的小猫猫

开源默认就是rocksdb，云上是Gemini。此回答整理自钉群“实时计算Flink产品交流群”

2024-03-06 17:14:22

赞同展开评论

问答分类：

流计算存储实时计算 Flink版

问答标签：

内存性能内存存储实时计算 Flink版后端 flink后端实时计算 Flink版存储

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

flink用rocksdb作为状态后端，jobmanager重启后rocksdb目录文件会被清空

472

0

0

2核CPU、2GB内存、4Mbps带宽的轻量服务器性能如何？

343

1

0

阿里云16核64G内存云服务器性能怎么样？

233

1

0

Tair持久内存与MemoryDB相比，在成本和性能上有何优势？

292

1

0

为什么使用sun.misc.Unsafe进行内存拷贝可以提高性能？

244

1

0

半同步机制对Tair持久内存版的性能有何影响？

201

1

0

使用RocksDB作为Flink状态后端相比1.0版本有哪些优势？

283

1

0

使用阿里云OSS存储大文件分片进行上传时，后端的Controller方法需要怎么写？

271

0

0

PRMalloc是如何针对稀疏模型训练优化内存使用效率和系统性能的？

315

1

0

Flink状态后端数据量较大时，如何进行问题排查？

210

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

云上实践：基于YOLO11的仪表盘指针位置检测模型训练全流程

企业AI知识库：八大行业如何落地？

为浏览器音视频编辑器开发 Agent Skill，实现 AI 自动化剪辑自测

相关解决方案

更多

SelectDB实现日志高效存储与实时分析

实现 MySQL 到 ADB 秒级分析性能

高效构建全球网络服务性能观测体系

高效存储和处理多媒体数据

Flink 与 Hologres 搭建实时数仓

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

Flink CDC 能适配达梦不？

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

Flink cdc sqlserver 希望不同步某些数据行

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

展开全部

数据仓库介绍与实时数仓案例

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink Checkpoint 问题排查实用指南

展开全部

还有其他疑问?