开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flink有遇到这样的问题吗?任务跑一段时间,突然报错关于checkpoint导致任务停止。是为啥?

请问有遇到这样的问题吗?就是任务跑了一段时间,突然报错关于checkpoint的,导致任务停止。这是一般什么原因导致了?

展开
收起
圆葱猪肉包 2023-04-19 16:37:22 443 0
2 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    是的,Flink在进行checkpoint时可能会遇到各种问题导致任务停止。关于checkpoint的异常情况,Flink官网有一个完整的文档:https://ci.apache.org/projects/flink/flink-docs-release-1.12/zh/dev/tasks/checkpoints.html#checkpoint-%E5%BC%82%E5%B8%B8

    其中常见的checkpoint异常情况如下:

    1. 资源不足:在进行checkpoint时,存在大量的数据需要进行持久化存储,如果TaskManager的资源不足(例如内存不足),就有可能导致checkpoint失败。

    2. 网络问题:进行checkpoint时,需要将状态数据在不同TaskManager之间进行传输,如果在传输过程中网络异常(例如丢包或延迟过高),也可能导致checkpoint失败。

    3. 存储问题:Flink默认将checkpoint存储在JobManager的内存中,但如果JobManager的内存不足,就有可能导致checkpoint存储失败。

    4. 并发问题:在多线程/并发访问状态数据时,如果没有进行合理的同步,就可能导致checkpoint失败。

    2023-04-30 23:06:25
    赞同 展开评论 打赏
  • 你这个日志不完整,你往上看看,一般checkpoint失败,会有显示具体是哪一个checkpoint在哪个taskmannerger上失败,此回答整理自钉群“【③群】Apache Flink China社区”

    2023-04-19 22:35:15
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载