文档备案控制台

开发者社区问答正文

经常遇到 major GC 花了半分钟才完成，但一两秒以后又启动了，如此往复。这种情况下 Flink 很不稳定，随时可能挂掉，checkpoint 也完不成了，Flink 还在默默地往身上扛数据

转自钉钉群21789141：经常遇到 major GC 花了半分钟才完成，但一两秒以后又启动了，如此往复。这种情况下 Flink 很不稳定，随时可能挂掉，checkpoint 也完不成了，Flink 还在默默地往身上扛数据

展开

收起

赵慧@ApacheFlink中文社区 2018-10-18 13:27:53 4063 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

石权infinite
这个问题能再拿出聊一下么？
1. heap statebackend也不是完全驻留在内存，会扇出到磁盘的吧？
2. 阿里自己的statebackend大概怎么实现的？
2019-07-17 23:09:11

赞同展开评论
赵慧@ApacheFlink中文社区

Jerome：这种现象通过适当增加资源应该比较好解决吧
问：明明 off-heap 还有几十 GB 的空间，也开启 off-heap 选项了，后来发现状态这部分 Flink 是完全不用堆外的... 而且 snapshot 时各种 array copy 和 flatten, 内存很快就没了
付典：你用的heap statebackend，为什么不用rocksdb statebackend？
问：RocksDB 单用的话性能比不上 Heap...
放在 ramdisk / Alluxio 上效果会好一些，不过又要更多措施来保证数据可靠性了
如果把 local recovery 的 checkpoint stream 写入快速 SSD / offheap，结合 pre-allocate，那么扩容起来应该更快，只是成本就上去了
jerome：可以问问阿里同学怎么做的
他们数据量很大应该经常遇到性能问题
对了，他们自己实现了自己的statebackend
这个要贡献出来很有用

2019-07-17 23:09:11

赞同展开评论

问答分类：

Java 流计算实时计算 Flink版

问答标签：

实时计算 Flink版数据实时计算 Flink版checkpoint 实时计算 Flink版checkpoint数据实时计算 Flink版挂掉实时计算 Flink版启动

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Flink 任务 GC 高的原因

447

1

0

锁表会导致 flink任务的GC吗？

109

1

0

我这边有个flink job周末一直在报GC频繁，然后oom ，然后连接异常，被判定失联，怎么解决？

586

2

0

大佬们Flink CDC里 GC的这个问题怎么解决？

241

1

0

Flink运行java程序，然后java -jar 运行的，怎么能做大full GC的时候挂掉呢？

197

1

0

大家 flink 的 GC 有哪些监控指标, 网上找了好几个指标都获取不到值？

758

3

0

flink cdc 导致GC超时 tm 心跳丢失这个问题有处理办法么？

335

7

0

flink cdc的job可以开启gc日志吗？是否是在启动job命令追加jvm参数？

173

0

0

Flink CDC这个导致频繁GC 怎么破？

168

1

0

Flink实时sink mysql, 经常报GC 异常，有什么解决方案吗？

367

4

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

云端部署coclaw报错

相关文章

Java企业AI转型：构建稳定可落地的AI能力

SpringBoot 实现QPS监控：别等系统“咳血”了才想起装“心电图”！

毕设交付方式对比：自己写、找代写还是用AI生成器？

java工具：《Java获取昨日零点时间工具方法》

Java SafePoint 安全点：JVM 停顿、GC 与全局同步的底层调度核心

相关解决方案

更多

基于数据闪回，快速恢复数据

分析 Agent 实现一键 AI 数据洞察

泛时序数据一站式分析与洞察

多模态数据信息提取

高效存储和处理多媒体数据

还有其他疑问?