带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（5）-阿里云开发者社区

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（5）

2023-05-25 257

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（5）

《企业级云原生白皮书项目实战》——第五章大数据——5.3 实时计算Flink版——5.3.3 任务性能（4） https://developer.aliyun.com/article/1228336

5.3.3.3 CheckPoint失败排查方案

5.3.3.3.1 checkpoint机制

Checkpoint 是一种由 Flink 自动执行的快照，其目的是能够从故障中恢复。

Checkpoints 可以是增量的，当作业出现 failover 的情况下，Flink 会从最近成功的 Checkpoint 恢复任务。

Checkpoint机制：

当 checkpoint coordinator（job manager 的一部分）指示 task manager 开始 checkpoint 时，它会让所有 sources 记录它们的偏移量，并将编号的 checkpoint barriers 插入到它们的流中。这些 barriers 流经 job graph，标注每个checkpoint 前后的流部分。Checkpoint n将包含每个 operator 的 state，这些 state 是对应的 operator 消费了在 checkpoint barrier n之前的所有事件，当 job graph 中的每个 operator 接收到 barriers 时，它就会记录下其状态。拥有两个输入流的 Operators（例如 CoProcessFunction）会执行 barrier 对齐（barrier alignment）以便当前快照能够包含消费两个输入流 barrier 之前（但不超过）的所有 events 而产生的状态。

Flink 的 state backends 利用写时复制（copy-on-write）机制允许当异步生成旧版本的状态快照时，能够不受影响地继续流处理。只有当快照被持久保存后，这些旧版本的状态才会被当做垃圾回收。整体流程：

•JM trigger checkpoint

•Source 收到 trigger checkpoint 的 PRC，开始做 snapshot，并往下游发送 barrier

•下游接收 barrier（需要 barrier 都到齐才会开始做 checkpoint）

•Task 开始同步阶段 snapshot

•Task 开始异步阶段 snapshot

•Task snapshot 完成，汇报给 JM

《企业级云原生白皮书项目实战》——第五章大数据——5.3 实时计算Flink版——5.3.3 任务性能（6） https://developer.aliyun.com/article/1228334?groupCode=supportservice

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（5）

5.3.3.3 CheckPoint失败排查方案

5.3.3.3.1 checkpoint机制

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

带你读《企业级云原生白皮书项目实战》——5.3.3 任务性能（5）

5.3.3.3 CheckPoint失败排查方案

5.3.3.3.1 checkpoint机制

热门文章

最新文章

相关课程

相关电子书