备案控制台

开发者社区大数据文章正文

【Flink】（八）容错机制

2022-06-12 188

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 【Flink】（八）容错机制

文章目录

一、一致性检查点（Checkpoints）

二、从检查点恢复状态

三、检查点的实现算法

四、Flink 检查点算法

4.1 检查点分界线（Checkpoint Barrier）

五、保存点（Savepoints）

六、检查点的配置

一、一致性检查点（Checkpoints）

Flink 具体如何保证 exactly-once 呢? 它使用一种被称为"检查点"（checkpoint）的特性，在出现故障时将系统重置回正确状态。

假设你和两位朋友正在数项链上有多少颗珠子。你捏住珠子，边数边拨，每拨过一颗珠子就给总数加一。你的朋友也这样数他们手中的珠子。当你分神忘记数到哪里时，怎么办呢? 如果项链上有很多珠子，你显然不想从头再数一遍，尤其是当三人的速度不一样却又试图合作的时候，更是如此(比如想记录前一分钟三人一共数了多少颗珠子，回想一下一分钟滚动窗口)。

于是，你想了一个更好的办法: 在项链上每隔一段就松松地系上一根有色皮筋，将珠子分隔开; 当珠子被拨动的时候，皮筋也可以被拨动; 然后，你安排一个助手，让他在你和朋友拨到皮筋时记录总数。用这种方法，当有人数错时，就不必从头开始数。相反，你向其他人发出错误警示，然后你们都从上一根皮筋处开始重数，助手则会告诉每个人重数时的起始数值，例如在粉色皮筋处的数值是多少。

Flink 检查点的作用就类似于皮筋标记。数珠子这个类比的关键点是: 对于指定的皮筋而言，珠子的相对位置是确定的; 这让皮筋成为重新计数的参考点。总状态(珠子的总数)在每颗珠子被拨动之后更新一次，助手则会保存与每根皮筋对应的检查点状态，如当遇到粉色皮筋时一共数了多少珠子，当遇到橙色皮筋时又是多少。当问题出现时，这种方法使得重新计数变得简单。

Flink 故障恢复机制的核心，就是应用状态的一致性检查点

有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点一份拷贝（一份快照），这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候。

二、从检查点恢复状态

在执行流应用程序期间，Flink会定期保存状态的一致检查点

如果发生故障，Flink将会使用最近的检查点来一致恢复应用程序的状态，并重新启动处理流程

遇到故障后，第一步就是重新启动

第二步是从 checkpoint 中读取状态，将状态重置

从检查点重新启动应用程序后，其内部状态与检查点完成时的状态完全相同

第三步：开始消费并处理检查点到发生故障之间的所有数据

这种检查点的保存和恢复机制可以为应用程序提供“精确一次”（exactly-once）的一致性，因为所有的算子都会保存检查点并恢复其所有的状态，这样一来所有的输入流就都会被重置到检查点完成时的位置

三、检查点的实现算法

一种简单的想法

暂停应用，保存状态到检查点，再重新恢复应用

Flink 的改进实现

基于Chandy-Lamport 算法的分布式快照

将检查点的保存和数据处理分离开，不暂停整个应用

四、Flink 检查点算法

4.1 检查点分界线（Checkpoint Barrier）

Flink 的检查点算法用到了一种称为分界线（barrier）的特殊形式，用来吧一条流上数据按照不同的检查点分开

分界线之前来的数据导致的状态更改，都会被包含在当前分界线所属的检查点中；而基于分界线之后的数据导致的所有更改，就会被包含在之后的检查点中

现在是一个有两个输入流的应用程序，用并行的两个Source任务来读取

JobManager 会向每个 source 任务发送一条带有新检查点ID的消息，通过这种方式来启动检查点

数据源将它们的状态写入检查点，并发出一个检查点barrier

状态后端在状态存入检查点之后，会返回通知给source任务，source任务就会向JobManager确认检查点完成

分界线对齐：barrier向下游传递，sum任务会等待所有输入分区的barrier到达

对于barrier已经到达的分区，继续到达的数据会被缓存

而barrier尚未到达的分区，数据会被正常处理

当收到所有输入分区的barrier时，任务就将其状态保存到状态后端的检查点中，然后将barrier继续向下游转发

向下游转发检查点barrier后，任务继续正常的处理数据

Sink 任务向 JobManager 确认状态保存到checkpoint 完毕

当所有任务都确认已成功将状态保存到检查点时，检查点就真正完成了

五、保存点（Savepoints）

Flink 还提供了可以自定义的镜像保存功能，就是保存点（savepoints）

原则上，创建保存点使用的算法与检查点完全相同，因此保存点可以认为就是具有一些额外元数据的检查点

Flink 不会自动创建保存点，因此用户（或者外部调度程序）必须明确地触发创建操作

保存点是一个强大的功能。除了故障恢复外，保存点可以用于：有计划的手动备份，更新应用程序，版本迁移，暂停和重启应用等等。

六、检查点的配置

文章标签：

实时计算 Flink版

数据处理

流计算

算法

调度

缓存

关键词：

实时计算 Flink版机制

实时计算 Flink版容错

实时计算 Flink版容错机制

相关实践学习

基于Hologres轻松玩转一站式实时仓库

本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。

Linux入门到精通

本套课程是从入门开始的Linux学习课程，适合初学者阅读。由浅入深案例丰富，通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员，只要能够坚持把所有章节都学完，也一定会受益匪浅。

云祁

目录

相关文章

爱吃糖的范同学

|

7小时前

|

数据处理 Apache 流计算

【Flink】Flink的CEP机制

【4月更文挑战第21天】【Flink】Flink的CEP机制

爱吃糖的范同学

58 14 14

爱吃糖的范同学

|

7小时前

|

数据处理 Apache 流计算

【Flink】Flink 中的Watermark机制

【4月更文挑战第21天】【Flink】Flink 中的Watermark机制

爱吃糖的范同学

38 3 3

爱吃糖的范同学

|

7小时前

|

存储数据处理 Apache

【Flink】Flink状态机制

【4月更文挑战第21天】【Flink】Flink状态机制

爱吃糖的范同学

28 2 2

vohelon

|

8小时前

|

消息中间件存储 Kafka

在Flink中，可以通过配置`KafkaConsumer`的`properties`参数来设置两个不同的SASL机制

【1月更文挑战第19天】【1月更文挑战第91篇】在Flink中，可以通过配置`KafkaConsumer`的`properties`参数来设置两个不同的SASL机制

vohelon

89 3 4

大数据架构师

|

9月前

|

分布式计算数据处理流计算

【原理】Flink如何巧用WaterMark机制解决乱序问题

【原理】Flink如何巧用WaterMark机制解决乱序问题

大数据架构师

175 0 0

大数据架构师

|

9月前

|

存储关系型数据库 MySQL

Flink的Checkpoints机制详解

Flink的Checkpoints机制详解

大数据架构师

110 0 0

Maynor

|

8小时前

|

存储消息中间件 Kafka

2021年最新最全Flink系列教程__Flink容错机制(五)

2021年最新最全Flink系列教程__Flink容错机制(五)

Maynor

45 0 0

阿甘兄

|

6月前

|

存储算法 Java

Flink教程（14）- Flink高级API（容错机制）

Flink教程（14）- Flink高级API（容错机制）

阿甘兄

55 0 0

赵广陆

|

8月前

|

存储算法大数据

大数据Flink容错机制

大数据Flink容错机制

赵广陆

25 0 0

myysophia

|

10月前

|

流计算

从Flink 重启策略机制能学习到什么？

最近在学习Flink ，在看到Flink的重启策略机制时感觉这个设计很好。

myysophia

81 0 0

热门文章

最新文章

Flink读取Kafka报Error sending fetch request

Apache Flink 零基础入门（一）：基础概念解析

Flink: 实时规则引擎助力新零售发展

Apache Flink 进阶（三）：Checkpoint 原理解析与应用实践

Flink RocksDB 状态后端参数调优实践

【开通指南】实时计算Flink全托管版本

Flink 1.11.0 发布，有哪些值得关注的新特性？

Flink Unaligned Checkpoint 在 Shopee 的优化和实践

伴鱼：借助 Flink 完成机器学习特征系统的升级

PostgreSQL 无会话、有会话模式 - 客服平均响应速度（RT）实时计算实践(窗口查询\流计算)

在Kubernetes上运行Flink应用程序时

Flink CDC产品常见问题之大文件整库同步怎么解决

Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决

Flink CDC产品常见问题之look up hint 没有生效如何解决

Flink CDC产品常见问题之写hudi的时候报错如何解决

Flink CDC产品常见问题之tidb cdc 数据量大了就疯狂报空指针如何解决

Flink CDC产品常见问题之pg cdc程序已经停了但是执行删不掉如何解决

Flink CDC产品常见问题之没有报错但是一直监听不到数据如何解决

Flink CDC产品常见问题之flink集群jps命令报错如何解决

Flink CDC产品常见问题之mysql整库同步到starrock时任务挂掉如何解决

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

Apache Flink 入门到实战 - Flink开源社区出品

实时计算 Flink 版产品入门与实操

开源 Flink 极速上手教程

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Flink CDC Meetup PPT - 龚中强

Flink CDC Meetup PPT - 王赫

Flink CDC Meetup PPT - 覃立辉

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

基于Flink+Tair搭建实时监控大屏

5分钟上手Flink MySQL连接器

使用Flink实时发现最热Github项目

使用PolarDB-X与Flink搭建实时数据大屏

RocketMQ的常规运维实践应用

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考