备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC里任务失败会自动清除其他机器的checkpoint文件，只保留本机的东西吗？

Flink CDC里任务失败会自动清除其他机器的checkpoint文件，只保留本机的checkpoint么？我这个问题就是 taskmanager1执行任务然后挂掉了，重启，taskmanager2接手这个任务，但是在2这个机器里找不到checkpoint的文件。

展开

收起

小小鹿鹿鹿 2024-02-06 19:47:22 84 0

2 条回答

写回答

取消提交回答

1941623231718325
问题一解答：

Apache Flink 的 Checkpoint 存储机制不会自动清除其他 TaskManager 上的 Checkpoint 文件。在 Flink 集群中，Checkpoint 文件是全局共享的，这意味着当任务发生故障并需要在其他 TaskManager 上恢复时，新的 TaskManager 应该能够访问到之前存储在持久化存储上的 Checkpoint 数据。

当 TaskManager1 执行的任务失败并且 TaskManager2 接手任务时，TaskManager2 应该从集中式存储（如 HDFS、S3 或者 NFS）中读取 Checkpoint 数据进行恢复，而不是从本地磁盘查找。Flink 不会仅在本地保留 Checkpoint，而是会配置一个统一的 Checkpoint 存储目录，所有 TaskManager 都能访问这个目录。

如果在 TaskManager2 上找不到 Checkpoint 文件，可能的原因包括：
- Checkpoint 存储目录配置错误或不一致。
- Checkpoint 未成功写入到集中式存储。
- 网络问题导致 TaskManager2 无法访问集中式存储上的 Checkpoint。
- Checkpoint 已经被误删除或清理。
问题二解答：

对于 Checkpoint 文件丢失的情况，可以采取以下措施：
1. 检查配置：确认 Flink 作业的 Checkpoint 存储目录配置正确且所有 TaskManager 能够访问同一个共享目录。
2. 查看日志：查阅 Flink 作业和 TaskManager 的日志，寻找关于 Checkpoint 写入失败或读取失败的线索。
3. 手动备份恢复：如果确实有 Checkpoint 文件存在于部分 TaskManager 的本地磁盘上，可以尝试手动将其复制到正确的集中式存储位置，然后更改作业配置指向这个有效的 Checkpoint。
4. Checkpoints 清理策略：了解并确认 Flink 集群的 Checkpoint 清理策略，确保在任务失败后，有效的 Checkpoint 不会被过早地清理掉。
5. 验证存储系统健康状况：确认集中式存储系统的健康状况，确保没有 I/O 错误或其他问题阻止 Checkpoint 数据的写入和读取。
6. 维护一致性：在高可用模式下运行 JobManager 和 ZooKeeper（如果使用）以确保整个集群状态的一致性和可靠性。
2024-02-12 12:46:46

赞同展开评论打赏
小小杳杳杳

checkpoint 放到 oss或 minio 上是比较靠谱的方案，引入一个jar包就行。
https://nightlies.apache.org/flink/flink-docs-master/zh/docs/deployment/filesystems/oss/
或者你可以试试个土办法写个定时任务定时cp一份到其他集群。如果是http协议这个参数一定要加上。此回答来自钉群Flink CDC 社区。

2024-02-06 21:54:06

赞同展开评论打赏

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版文件实时计算 Flink版cdc文件实时计算 Flink版任务实时计算 Flink版checkpoint

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关产品：

实时计算 Flink版

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

Flink历史checkpoint默认保留几个

32

1

0

Flink这个参数是针对这个作业的所有流的状态保留时间吗？

46

1

0

尝试在3台768G内存机器上跑1000个Flink任务，但面临配置问题导致任务无法正常运行怎么办？

82

1

0

Flink CDC这个ip是代码所在机器的ip吗？端口是默认的吗，我看没地方配置端口

32

0

0

Flink CDC 3.1.1 可以在目标表保留更新和删除前的数据吗？

29

1

0

Flink CDC 3.1.1 可以在目标表保留更新和删除前的数据吗？

30

0

0

在Flink CDC中，16版本的机器，从库没有这个 pg_replication_slots表吗？

22

1

0

在Flink CDC中如下是这个参数控制保留hive 多久的分区吗？

43

0

0

Flink的快照位点大概可以保留多久的 3天的么？

43

1

0

在Flink CDC中binlog太大了磁盘空间不够运维那边不让改只让保留一天的，如何解决？

34

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关产品

实时计算 Flink版

文档详情产品详情

热门讨论

热门文章

FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？

flink1.20.0 部署后发布报错，是怎么回事，各种配置都配置了

在建行，数据通常来源于哪些？

大佬，Caused by: java.lang.ClassNotFoundException: or

请问flink-connector-jdbc在sink时，如何设置批量写入？

Flink 集群重启后，所有的Jobs任务全都没有了。如果快速恢复所有的任务

Apache Flink未授权访问上传导致的RCE漏洞，这个漏洞目前方案解决吗？

Caused by: org.apache.kafka.common.errors.TimeoutE

Slot request bulk is not fulfillable，20以上job同时部署失败

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

展开全部

周末直播|Flink、Hologres、AI等热门话题全都安排！

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

实时计算 Flink版操作报错之遇到错误org.apache.flink.table.api.ValidationException: Could not find any factory for identifier 'jdbc'，该如何解决

实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎

参与Flink社区活动，免费赢取FFA大会两日通票～

Flink CDC：基于 Apache Flink 的流式数据集成框架

十大行业经典案例！Apache Flink 的 40 个最佳实践

实时计算引擎 Flink：从入门到深入理解

实时计算 Flink版操作报错之遇到报错org.postgresql.util.psqlexception: The connection attempt failed.，该怎么解决

Apache Flink 2.0-preview released

展开全部

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

609

29

去学习

Apache Flink 入门到实战 - Flink开源社区出品

1636

16

去学习

实时计算 Flink 版产品入门与实操

4024

10

去学习

开源 Flink 极速上手教程

1864

7

去学习

大数据实时计算框架Spark快速入门

1023

93

去学习

Apache Flink 入门

5122

9

去学习

相关电子书

更多

Flink CDC Meetup PPT - 龚中强 立即下载

Flink CDC Meetup PPT - 王赫 立即下载

Flink CDC Meetup PPT - 覃立辉 立即下载

相关实验场景

更多