备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC里任务失败会自动清除其他机器的checkpoint文件，只保留本机的东西吗？

Flink CDC里任务失败会自动清除其他机器的checkpoint文件，只保留本机的checkpoint么？我这个问题就是 taskmanager1执行任务然后挂掉了，重启，taskmanager2接手这个任务，但是在2这个机器里找不到checkpoint的文件。

展开

收起

小小鹿鹿鹿 2024-02-06 19:47:22 44 0

2 条回答

写回答

取消提交回答

1941623231718325
问题一解答：

Apache Flink 的 Checkpoint 存储机制不会自动清除其他 TaskManager 上的 Checkpoint 文件。在 Flink 集群中，Checkpoint 文件是全局共享的，这意味着当任务发生故障并需要在其他 TaskManager 上恢复时，新的 TaskManager 应该能够访问到之前存储在持久化存储上的 Checkpoint 数据。

当 TaskManager1 执行的任务失败并且 TaskManager2 接手任务时，TaskManager2 应该从集中式存储（如 HDFS、S3 或者 NFS）中读取 Checkpoint 数据进行恢复，而不是从本地磁盘查找。Flink 不会仅在本地保留 Checkpoint，而是会配置一个统一的 Checkpoint 存储目录，所有 TaskManager 都能访问这个目录。

如果在 TaskManager2 上找不到 Checkpoint 文件，可能的原因包括：
- Checkpoint 存储目录配置错误或不一致。
- Checkpoint 未成功写入到集中式存储。
- 网络问题导致 TaskManager2 无法访问集中式存储上的 Checkpoint。
- Checkpoint 已经被误删除或清理。
问题二解答：

对于 Checkpoint 文件丢失的情况，可以采取以下措施：
1. 检查配置：确认 Flink 作业的 Checkpoint 存储目录配置正确且所有 TaskManager 能够访问同一个共享目录。
2. 查看日志：查阅 Flink 作业和 TaskManager 的日志，寻找关于 Checkpoint 写入失败或读取失败的线索。
3. 手动备份恢复：如果确实有 Checkpoint 文件存在于部分 TaskManager 的本地磁盘上，可以尝试手动将其复制到正确的集中式存储位置，然后更改作业配置指向这个有效的 Checkpoint。
4. Checkpoints 清理策略：了解并确认 Flink 集群的 Checkpoint 清理策略，确保在任务失败后，有效的 Checkpoint 不会被过早地清理掉。
5. 验证存储系统健康状况：确认集中式存储系统的健康状况，确保没有 I/O 错误或其他问题阻止 Checkpoint 数据的写入和读取。
6. 维护一致性：在高可用模式下运行 JobManager 和 ZooKeeper（如果使用）以确保整个集群状态的一致性和可靠性。
2024-02-12 12:46:46

赞同展开评论打赏
小小杳杳杳

checkpoint 放到 oss或 minio 上是比较靠谱的方案，引入一个jar包就行。
https://nightlies.apache.org/flink/flink-docs-master/zh/docs/deployment/filesystems/oss/
或者你可以试试个土办法写个定时任务定时cp一份到其他集群。如果是http协议这个参数一定要加上。此回答来自钉群Flink CDC 社区。

2024-02-06 21:54:06

赞同展开评论打赏

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版任务实时计算 Flink版cdc任务实时计算 Flink版checkpoint 实时计算 Flink版cdc checkpoint

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关产品：

实时计算 Flink版

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

Flink这个参数是针对这个作业的所有流的状态保留时间吗？

13

1

0

Flink CDC里cdc2.4.0出现这个报错，如果任务失败，失败保留2个小时就看不到了是为啥？

34

1

0

Flink怎么设置idea打开一个新的github项目，自动索引文件吗？

19

0

0

Flink如果需要对历史跨多天的数据进行汇总，状态是否必须要一直保留？

8

1

0

Flink DataStream keyby以后reduce，如果只想保留最后的结果有什么好办法吗？

24

1

0

实时计算 Flink版如何设置taskmanager.out 只保留7天的数据？

35

2

0

Flink vvr有计划配合代码仓库打包文件部署任务吗？

29

1

0

Flink CDC关于doris的动态分区问题，对以及建好的动态分区表，能再次修改历史分区的保留吗？

47

2

0

Flink这里日志有效归档期是不是指的是日志的保留时间？

65

3

0

请问Flink 是否就会在maxcompute中产生多个小文件？

40

2

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关产品

实时计算 Flink版

文档详情产品详情

热门讨论

热门文章

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink这个未授权访问漏洞有什么解决方案吗？

flink1.15启动后无法访问webui的问题有人遇到过吗

Caused by: org.apache.kafka.common.errors.TimeoutE

Flink CDC有遇见这个问题的吗？

Flink-CDC 文档网站地址是什么？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

请问flink-connector-jdbc在sink时，如何设置批量写入？

Flink CDC 里这个问题有人遇到没？

flink都是100%占用，请问是什么情况呢？

展开全部

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

阿里云实时计算产品案例&解决方案汇总

开篇 | 揭秘 Flink 1.9 新架构，Blink Planner 你会用了吗？

Flink on YARN（下）：常见问题与排查思路

实时计算Flink云原生版本正式发布

官宣｜Apache Paimon 毕业成为顶级项目，数据湖步入实时新篇章！

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

基于OceanBase+Flink CDC，云粒智慧实时数仓演进之路

阿里云实时计算Flink的产品化思考与实践【下】

活动预告 | 5月16日 Streaming Lakehouse Meetup · Online 与你相约！

展开全部

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

582

29

去学习

Apache Flink 入门到实战 - Flink开源社区出品

1392

16

去学习

实时计算 Flink 版产品入门与实操

3806

10

去学习

开源 Flink 极速上手教程

1752

7

去学习

大数据实时计算框架Spark快速入门

778

93

去学习

Apache Flink 入门

4826

9

去学习

相关电子书

更多

Flink CDC Meetup PPT - 龚中强 立即下载

Flink CDC Meetup PPT - 王赫 立即下载

Flink CDC Meetup PPT - 覃立辉 立即下载

相关实验场景

更多