大佬们,问一个flink运行问题,集群因为网络问题,flink的JM、TM通信超时后挂掉,这种挂掉应该不属于cancel吧?那么即使程序中没有设置cancel时保存checkpoint,也是会保留checkpoint吧?
在Flink中,当由于网络问题导致JobManager (JM) 和 TaskManager (TM) 之间的通信超时,从而导致集群中的某些组件挂掉时,这通常不属于正常的取消操作。
即使在没有显式设置取消操作时,Flink仍然会尝试保留检查点(checkpoint)。检查点是一种用于容错的机制,它可以在发生故障时恢复作业的状态。当Flink集群中的组件挂掉时,Flink会尝试使用最近的检查点来恢复作业的状态,以确保作业的连续性和数据一致性。
然而,要确保检查点的有效性和可用性,建议在Flink作业中显式地设置检查点配置,并定期保存检查点。通过设置适当的检查点间隔和保留策略,可以确保在发生故障时有足够的检查点可供恢复。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。