开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

大佬们,问一个flink运行问题,集群因为网络问题,flink的JM、TM通信超时后挂掉,这种挂掉应

大佬们,问一个flink运行问题,集群因为网络问题,flink的JM、TM通信超时后挂掉,这种挂掉应该不属于cancel吧?那么即使程序中没有设置cancel时保存checkpoint,也是会保留checkpoint吧?

展开
收起
游客3oewgrzrf6o5c 2022-07-22 17:01:40 741 0
1 条回答
写回答
取消 提交回答
  • 不断追求着最新的技术和趋势,在云技术的世界里,我不断寻找着新的机会和挑战,不断挑战自己的认知和能力。

    在Flink中,当由于网络问题导致JobManager (JM) 和 TaskManager (TM) 之间的通信超时,从而导致集群中的某些组件挂掉时,这通常不属于正常的取消操作。

    即使在没有显式设置取消操作时,Flink仍然会尝试保留检查点(checkpoint)。检查点是一种用于容错的机制,它可以在发生故障时恢复作业的状态。当Flink集群中的组件挂掉时,Flink会尝试使用最近的检查点来恢复作业的状态,以确保作业的连续性和数据一致性。

    然而,要确保检查点的有效性和可用性,建议在Flink作业中显式地设置检查点配置,并定期保存检查点。通过设置适当的检查点间隔和保留策略,可以确保在发生故障时有足够的检查点可供恢复。

    2023-07-22 23:08:43
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Session:更加安全、可靠的数据中心网络产品更新 立即下载
    Session:极简易用的全球化网络产品更新 立即下载
    Session:弹性、高可用、可观测的应用交付网络产品更新 立即下载