文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Checkpoint 失败之Checkpoint Expire应如何解决？

Checkpoint 失败之Checkpoint Expire应如何解决？

展开

收起

Lee_tianbai 2020-12-30 11:17:13 1702 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

Lee_tianbai

如果 Checkpoint 做的非常慢，超过了 timeout 还没有完成，则整个 Checkpoint 也会失败。当一个 Checkpoint 由于超时而失败是，会在 jobmanager.log 中看到如下的日志：

Checkpoint 1 of job 85d268e6fbc19411185f7e4868a44178 expired before completing.

表示 Chekpoint 1 由于超时而失败，这个时候可以可以看这个日志后面是否有类似下面的日志：

Received late message for now expired checkpoint attempt 1 from
0b60f08bf8984085b59f8d9bc74ce2e1 of job 85d268e6fbc19411185f7e4868a44178.

我们按照下面的日志把 TM 端的 snapshot 分为三个阶段，开始做 snapshot 前，同步阶段，异步阶段：

DEBUG
Starting checkpoint (6751) CHECKPOINT on task taskNameWithSubtasks (4/4)

这个日志表示 TM 端 barrier 对齐后，准备开始做 Checkpoint。

DEBUG
2019-08-06 13:43:02,613 DEBUG org.apache.flink.runtime.state.
AbstractSnapshotStrategy -
DefaultOperatorStateBackend snapshot (FsCheckpointStorageLocation
{fileSystem=org.
apache.flink.core.fs.SafetyNetWrapperFileSystem@70442baf,
checkpointDirectory=xxxxxxxx,
sharedStateDirectory=xxxxxxxx, taskOwnedStateDirectory=xxxxxx,
metadataFilePath=xxxxxx,
reference=(default), fileStateSizeThreshold=1024}, synchronous part) in
thread Thread[Async calls on
Source: xxxxxx
_source -> Filter (27/70),5,Flink Task Threads] took 0 ms.

上面的日志表示当前这个 backend 的同步阶段完成，共使用了 0 ms。

DEBUG
DefaultOperatorStateBackend snapshot (FsCheckpointStorageLocation
{fileSystem=org.
apache.flink.core.fs.SafetyNetWrapperFileSystem@7908affe,
checkpointDirectory=xxxxxx,
sharedStateDirectory=xxxxx, taskOwnedStateDirectory=xxxxx,
metadataFilePath=xxxxxx,
reference=(default), fileStateSizeThreshold=1024}, asynchronous part) in
thread Thread[pool-48-
thread-14,5,Flink Task Threads] took 369 ms

上面的日志表示异步阶段完成，异步阶段使用了 369 ms 在现有的日志情况下，我们通过上面三个日志，定位 snapshot 是开始晚，同步阶段做的慢，还是异步阶段做的慢。然后再按照情况继续进一步排查问题。

2020-12-30 11:20:10

赞同展开评论

问答分类：

实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

287349

11

0

购买阿里国外的云服务器是否可以访问谷歌？

93744

50

0

this xml file does not appear to have any style in

62063

11

0

访问ECS服务器的网站提示“由于你访问的URL可能对网站造成安全威胁，您的访问被阻断”，这是什么原因？

142973

16

0

基础语言百问-Python

70219

30

0

搭建dnf私服需要大概啥配置的

10825

2

0

#支付宝授权提示请在支付宝客户端打开链接

25673

19

0

阿里云怎样设置二级域名以及域名解析？

67074

14

0

全息（Holography）技术是什么技术？

1381

1

0

C语言中default使用注意事项是什么？

1765

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

Flink CDC 3.6.0：支持 Flink 1.20/2.2, MySQL/PostgreSQL入湖入流支持Schema Evolution

相约深圳，全球征集｜Flink Forward Asia 2026 演讲议题征集正式启动

Flink Agents 0.3 Roadmap解读

Flink Forward Asia 2026 官宣深圳｜From Cloud Native to AI Native

Skill即服务：用Agent安全玩转云上Flink

热门讨论

热门文章

Flink CDC刚刚写了几条数据，但是里面有点问题，其他字段都是正常的。这是咋回事呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink cdc sqlserver 希望不同步某些数据行

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Segment Key主要应用在哪些场景？

Flink CDC 能适配达梦不？

flinkcdc在IDEA运行正常，打包就报错

有人遇到flink打不开web界面吗？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

有用flink cdc同步mysql到hive这样搞过的源码吗?

展开全部

数据仓库介绍与实时数仓案例

通过Flink实时构建搜索引擎的索引

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

广告场景下的实时计算

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

如何在 PyFlink 1.10 中自定义 Python UDF？

基于Flink的实时日志分析系统实践

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

深入了解 Flink 网络栈（二）：监控、指标和处理背压

展开全部

还有其他疑问?