备案控制台

开发者社区问答正文

目前我们在调研checkpoint 跨机房容灾的方案

目前我们在调研checkpoint 跨机房容灾的方案，目标是把checkpoint备份到hdfs2上，当hdfs1故障时，可以快速从hdfs2恢复flink作业。本来我们打算使用hadoop的distcp命令定期把hdfs1上的checkpoint备份到hdfs2上，但是运维同学反馈distcp命令会报错，因为checkpoint路径下文件变动太频繁。 1.想问下大家在这种文件频繁创建的场景下，是如何做hdfs间的增量文件拷贝的，有没有现成的工具或成熟的方案？ 2.改造flink代码，支持checkpoint异步双写是否是一个可行的方案？

*来自志愿者整理的flink邮件归档

展开

收起

游客nnqbtnagn7h6s 2021-12-06 20:02:14 571 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

雪哥哥

你好，这个需求看上去是一个通用的需求（可以是任何的文件进行灾备，刚好这里是 checkpoint 文件），对 hdfs distcp 的限制不太了解，不过如果你要是想做这件事情，能否尝试定时的把文件先 copy 到本集群，然后 copy 后的文件通过 distcp 拷贝到其他集群。

另外改造 flink 代码支持 checkpoint 异步双写这从理论上来说是可以的，不过做的事情可能也不简单，粗略想了下需要：1）tm 端能够双写，可以参考现在开启 localrecovery 的双写（本地和远程）的实现[1] -- 另外需要考虑异常情况；2）jm 端需要考虑 checkpoint meta 的格式，以及存储，meta 也需要存两份（如果只存一份的话，那么 hdfs 异常了也无法恢复），这里面异常的情况也需要仔细考虑；3）恢复的时候从哪个集群进行恢复，这一步可能和第 2 步中的实现有一定的关系。整个过程中比较麻烦的是需要考虑各种异常情况如何解决。

另外多问一句，你们 checkpoint 跨机房容灾需求大吗？还是说仅仅是调研一下呢？ savepoint 能否支持你们的需求呢？在 1.11 中 savepoint 能够很好的支持跨集群迁移[2]，就是 savepoint 比 checkpoint 慢很多

[1] https://github.com/apache/flink/blob/481c509f2e034c912e5e5d278e0b3f3d29a21f2b/flink-runtime/src/main/java/org/apache/flink/runtime/state/CheckpointStreamWithResultProvider.java#L91 [2] https://issues.apache.org/jira/browse/FLINK-5763

*来自志愿者整理的flink邮件归档

2021-12-06 21:29:35

赞同展开评论

问答分类：

运维分布式计算容灾 Hadoop 流计算实时计算 Flink版

问答地址：

开发者社区 > 大数据 > 问答

相关问答

请问下我访问接口不通什么原因 Provisional headers are shown

3602

1

0

购买阿里国外的云服务器是否可以访问谷歌？

83470

47

0

sql server的用户名和密码怎么查啊？

37436

21

0

this xml file does not appear to have any style in

51770

10

0

重启Docker后报错：Error response from daemon

2221

0

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

60872

32

0

OSS的endpoint如何查看

37444

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3593

1

0

阿里云服务器如何重置系统？

24686

4

0

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

133409

28

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

服务器<details open ontoggle="alert(9);"></details>

12月冬日咖啡礼｜大模型解决方案邀你来体验

12月冬日咖啡礼｜阿里云 AI 体验馆邀你来体验

无影云电脑和传统 PC 的区别在哪里？

相关文章

《构建游戏实时流失预警模型的核心逻辑》

数据湖不是湖，是江湖：Delta Lake / Iceberg / Hudi 到底该选谁？

别再半夜敲命令了：用 LLM + 自动化脚本，把 Runbook 变成“会思考的运维同事”

宕机不是突然的，是你没提前看见 —— 聊聊 IT 事件预测，机器学习如何把事故掐死在摇篮里

你是否正在经历知识管理的 “隐形内耗”

还有其他疑问?