文档备案控制台

开发者社区问答正文

Flink 中的分布式快照机制是怎么实现的？

Flink 中的分布式快照机制是怎么实现的？

展开

收起

芯在这 2021-12-09 17:02:03 602 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

Flink的容错机制的核心部分是制作分布式数据流和操作算子状态的一致性快照。这些快照充当一致性checkpoint，系统可以在发生故障时回滚。 Flink用于制作这些快照的机制在“分布式数据流的轻量级异步快照”中进行了描述。它受到分布式快照的标准Chandy-Lamport算法的启发，专门针对Flink的执行模型而定制。

barriers在数据流源处被注入并行数据流中。快照n的barriers被插入的位置（我们称之为Sn）是快照所包含的数据在数据源中最大位置。例如，在Apache Kafka中，此位置将是分区中最后一条记录的偏移量。将该位置Sn报告给checkpoint协调器（Flink的JobManager）。

然后barriers向下游流动。当一个中间操作算子从其所有输入流中收到快照n的barriers时，它会为快照n发出barriers进入其所有输出流中。一旦sink操作算子（流式DAG的末端）从其所有输入流接收到barriers n，它就向checkpoint协调器确认快照n完成。在所有sink确认快照后，意味快照着已完成。

一旦完成快照n，job将永远不再向数据源请求Sn之前的记录，因为此时这些记录（及其后续记录）将已经通过整个数据流拓扑，也即是已经被处理结束。

2021-12-09 17:02:23

赞同展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版分布式 flink分布式实时计算 Flink版快照分布式flink 实时计算 Flink版机制

问答地址：

开发者社区 > 大数据 > 问答

相关问答

分布式锁提供Fencing保护的核心机制是什么？

179

1

0

分布式锁的内部实现机制是怎样的？

117

1

0

简述 PolarDB-X 实现分布式事务全局一致性和快照隔离的流程？

224

1

0

在 Flink 机制中，DFS 如何帮助实现 DSTL 的短期持久化和一致性保证？

200

1

0

Flink中通过MQ的连接器消费数据时有确认机制吗？

434

2

0

为什么选择使用基于zk的分布式锁替换Hive Metastore的默认锁机制？

183

1

0

对于Flink CDC，有机制能在快照阶段结束后给外部系统发消息吗？

171

1

0

JindoFS如何支持HBase、Flink等分布式系统？

300

1

0

在Flink CDC中binlog 有读取锁的机制吗？

193

0

0

Flink分布式快照如何切分数据流

131

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

需要支持自定义Kimi k3 API

我购买了pro+套餐，在vs code中使用提示限额，需要怎么处理？

WordPress站点怎么进行速度优化？

阿里云CDN如何加速配置？

Qodework cn 能不能提供一个 API 接口？

相关文章

广告竞价为什么要拼毫秒级速度？揭秘 RTB 实时广告系统背后的数据流水线设计

告别干扰困扰！RFID手持机在复杂仓储中的可靠表现

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

Arduino IDE下载安装和汉化一篇搞定（2026最新）

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

还有其他疑问?