Flink CDC1.13版本的checkpoint针对于大状态的设置调优能给下参考吗?现在做了13个人员子集的聚合,然后关联到人员主体上老是checkpoint失败,过段时间task manger不可用以后导致整个源头重新摄取了,而且数据量比较大,这样导致永远初始不完数据?
Flink CDC 1.13版本的checkpoint针对大状态的设置调优,主要需要考虑以下两个方面:首先,应用程序需要能够可靠地创建checkpoints;其次,在应用故障后,需要有足够的资源追赶数据输入流。
对于大状态的作业,如果发现Checkpoint时间过长,可以考虑优化Checkpoint的时间间隔。具体来说,可以通过调整Checkpoint之间的最小间隔参数,让Checkpoint之间根据执行速度进行调整。也就是说,前面的Checkpoint没有完全结束,后面的Checkpoint就不会开始,这样可以有效地提高作业的运行效率。
此外,还可以通过观察每个Checkpoint的启动时间来检测每个Checkpoint之前和之后是否存在空闲时间间隔,以此来进一步微调Flink Checkpoint操作。
总的来说,Flink提供了丰富的运行参数,用户可以根据自己的作业特点进行个性化的调优。例如,可以限制Checkpoint的最小制作间隔来避免不合理的高频Checkpoint制作影响集群上的其他作业。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。