想问一下,有没有遇到flink cdc checkpoint oom的?而且flink cdc跑起来发现gc数不断涨,gc时间也变得越来越长
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在使用Flink CDC时,如果遇到Checkpoint OOM(内存溢出)以及GC次数和时间不断增加的问题,通常与以下几个方面有关。以下是详细的原因分析及解决方案:
scan.incremental.snapshot.chunk.size值设置过高,导致单个分片包含过多数据。调整分片参数:
scan.incremental.snapshot.chunk.size的值,以降低每个分片的数据量。例如:
scan.incremental.snapshot.chunk.size=5000
scan.incremental.snapshot.chunk.key-column指定其他字段进行分片划分。增加TaskManager内存:
taskmanager.memory.process.size=4g
升级引擎版本:
优化Checkpoint配置:
execution.checkpointing.interval=10min
优化内存配置:
taskmanager.memory.process.size=6g
调整Python UDF缓存参数:
python.fn-execution.bundle.size=50000
python.fn-execution.bundle.time=500
监控GC指标:
TM GC Count和TM GC Time)分析GC行为。如果发现GC次数和时间异常增加,需进一步排查内存使用情况。拆解算子链:
pipeline.operator-chaining: 'false'
compaction.file-size=256MB
sink.partition-commit.trigger=process-time
scan.incremental.snapshot.chunk.size、taskmanager.memory.process.size、execution.checkpointing.interval等参数的配置。通过以上优化措施,可以有效缓解Flink CDC作业中的Checkpoint OOM和GC问题。如果问题仍然存在,建议结合具体日志信息进一步分析。