备案控制台

开发者社区微服务文章正文

三、【计算】Exactly Once 语义在Flink中的实现（下） | 青训营笔记

2023-02-09 144

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 三、【计算】Exactly Once 语义在Flink中的实现（下） | 青训营笔记

👉引言💎

学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。热爱写作，愿意让自己成为更好的人............

	铭记于心
	🎉✨🎉我唯一知道的，便是我一无所知🎉✨🎉

三、端到端 Exactly-Once 实现

1 名词解析

Two-phase commit protocol: 两阶段提交协议
Transaction: 一系列保证原子性操作的集合，即操作同时执行或者都不执行
Kafka: 消息中间件
State Backend: 用于管理和保存状态到远端可靠存储

2 端到端的Exactly-once 语义

Checkpoint 能保证每条数据都对各个有状态的算子更新一次, sink输出算子仍然可能下发重复的数据
严格意义的端到端的Exactly-once语义需要特殊的sink算子实现

3 两阶段提交协议（2PC）

Coordinator：协作者，同步和协调所有节点处理逻辑的中心节点
Participant：参与者，被中心节点调度的其他执行处理逻辑的业务节点

3.1 预提交阶段

协作者向所有参与者发送一个commit消息;
每个参与的协作者收到消息后,执行事务,但是不真正提交;
若事务成功执行完成,发送一个成功的消息(vote yes);执行失败,则发送一个失败的消息(vote no)

3.2 提交阶段

若协作者成功接收到所有的参与者vote yes的消息,则将有以下系列步骤:

协作者向所有参与者发送一个commit消息;
每个收到commit消息的参与者释放执行事务所需的资源,并结束这次事务的执行
完成步骤2后,参与者发送一个ack消息给协作者
协作者收到所有参与者的ack消息后,标识该事务执行完成

若协作者有收到参与者vote no的消息(或者发生等待超时):

协作者向所有参与者发送一个rollback消息
每个收到rollback消息的参与者回滚事务的执行操作,并释放事务所占资源
完成步骤2后,参与者发送一个ack消息给协作者
协作者收到所有参与者的ack消息后,标识该事务成功完成回滚

4 两阶段提交协议在 Flink 中的应用

Flink 中协作者和参与者的角色分配
协作者（JobManager）发起阶段一提交
各算子 Checkpoint 的制作
提交阶段及 Checkpoint 的制作完成

5 Flink两阶段提交总结

事务开启:
在sink task向下游写数据之前,均会开启一个事务,后续所有写数据的操作均在这个事务中执行,事务未提交前，事务写入的数据下游不可读;
预提交阶段:
JobManager开始下发Checkpoint Barrier,当各个处理逻辑接收到barrier后停止处理后续数据,对当前状态制作快照,此时sink也不在当前事务下继续处理数据(处理后续的数据需要新打开下一个事务)。状态制作成功则向JM成功的消息,失败则发送失败的消息;
提交阶段:
若JM收到所有预提交成功的消息,则向所有处理逻辑(包括sink)发送可以提交此次事务的消息, sink接收到此消息后,则完成此次事务的提交,此时下游可以读到这次事务写入的数据;若JM有收到预提交失败的消息,则通知所有处理逻辑回滚这次事务的操作,此时sink则丢弃这次事务提交的数据下。

四、Flink 案例讲解

1 名词解析

Deduplication：去重，在 state 保留的时间内对重复消息进行去重
Aggregation：聚合操作，比如求和、求最大值等

2 案例介绍

2.1账单计算服务举例

场景简介
从Kafka中读取账单消息,进行处理后写入到MySQL中
当前方案

在上次记录的位点之后,从Kafka中读取固定大小的数据;
对该批数据进行去重和聚合计算,
处理完成后写入Mysql中,若全部写入成功,则记录下当前读取到的消息的终止位置;若处理或者写入失败,则不记录位点;
跳回步骤1

存在的问题:

非严格意义上的端到端的Exactly-Once语义:若该批数据处理完成后,在写入MySQL中发生异常,则存在部分数据写入的情况,下次作业启动后,这部分数据仍然会重复写入;
去重能力有限:只能在当前处理的一批数据内进行去重,无法在批与批之间进行去重

Flink解决方案:

严格意义上的端到端的Exactly-Once语义:下游读到的数据是不丢不重的;
增强的去重能力:可以在更长的时间维度对数据进行去重

2.2 支持两阶段提交协议的下游存储可以结合Flink Checkpoint机制实现严格意义上端到端的Exactly-Once 语义实现

数据流与动态表之间可以互相转化
处理无线数据流的算子可以是有状态的
Flink通过Checkpoint机制实现故障前后的状态快照制作和恢复
支持两阶段提交协议的下游存储可以结合Flink Checkpoint 机制实现严格意义上的端到端Exactly-Once语义实现

问题

流式处理中算子为什么会有状态？
对历史记录进行存储，以便于后续修改
数据流和动态表之间是如何进行转换的？.
在某一时刻对流数据的查询就是一个静态表，通过两种流处理机制动态化，反之 Upsert 流可以将动态表转化为数据流
Flink 作业为什么需要考虑故障恢复？
无限数据流的处理，没有一个精确精确时刻进行数据回滚以及故障修复，容易造成数据损失
Flink 故障恢复前为什么需要Checkpoint？
为什么不能保留任意时刻的状态作为故障恢复的时间点？
Flink Checkpoint 对作业性能的影响有多大？
两阶段提交协议对性能影响有多大？
写入下游如果不支持事务读写，能做到 Exactly-Once 语义么？

🌹写在最后💖：路漫漫其修远兮，吾将上下而求索！伙伴们，再见！🌹🌹🌹

文章标签：

实时计算 Flink版

容器服务Kubernetes版

消息中间件

数据处理

流计算

关系型数据库

MySQL

Kafka

调度

存储

关键词：

实时计算 Flink版语义

实时计算 Flink版exactly

实时计算 Flink版once

实时计算 Flink版笔记

实时计算 Flink版青训营

相关实践学习

基于Hologres轻松玩转一站式实时仓库

本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。

Linux入门到精通

本套课程是从入门开始的Linux学习课程，适合初学者阅读。由浅入深案例丰富，通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员，只要能够坚持把所有章节都学完，也一定会受益匪浅。

梦想new的出来

目录

相关文章

Sereinn

|

8月前

|

数据处理 Apache 流计算

Flink Watermark和时间语义

Flink Watermark和时间语义

Sereinn

79 2 2

爱吃糖的范同学

|

8月前

|

Apache 流计算

【Flink】Flink的三种时间语义

【4月更文挑战第19天】【Flink】Flink的三种时间语义

爱吃糖的范同学

620 7 7

武子康

|

3月前

|

消息中间件 Java Kafka

Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据进行计算SingleOutputStreamOperatorDataStreamSource

Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据进行计算SingleOutputStreamOperatorDataStreamSource

武子康

67 1 1

三分钟热度的鱼

|

6月前

|

SQL 网络安全 API

实时计算 Flink版产品使用问题之使用ProcessTime进行窗口计算，并且有4台机器的时间提前了2个小时，会导致什么情况

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

89 6 7

三分钟热度的鱼

|

7月前

|

SQL 关系型数据库 MySQL

实时计算 Flink版产品使用问题之在进行DWS层的实时聚合计算时，遇到多次更新同一个字段的情况，该如何处理

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

115 3 3

程序员三木

|

8月前

|

存储缓存算法

[尚硅谷flink] 检查点笔记

[尚硅谷flink] 检查点笔记

程序员三木

212 3 3

行走的蒲公英

|

8月前

|

数据处理 Apache 流计算

Flink Watermark和时间语义

Flink Watermark和时间语义

行走的蒲公英

69 0 0

vohelon

|

8月前

|

流计算

Flink CDC里假设我做widow计算使用ProcessTime计算

【1月更文挑战第23天】【1月更文挑战第113篇】Flink CDC里假设我做widow计算使用ProcessTime计算

vohelon

231 45 47

程序员三木

|

8月前

|

存储传感器消息中间件

[尚硅谷 flink] 状态管理笔记

[尚硅谷 flink] 状态管理笔记

程序员三木

99 0 0

极客李华

|

8月前

|

Java 数据处理分布式数据库

Flink中的Exactly-Once语义是什么？请解释其作用和实现原理。

Flink中的Exactly-Once语义是什么？请解释其作用和实现原理。

极客李华

89 0 0

热门文章

最新文章

Flink on YARN（上）：一张图轻松掌握基础架构与启动流程

Flink入坑指南第四章：SQL中的经典操作Group By+Agg

Apache Flink 漫谈系列(10) - JOIN LATERAL

江铃汽车基于 Flink 构建数据集成平台的设计与实现

使用阿里云的 flink-connector-clickhouse 插件

【Flink】（四）详解 Flink 中的窗口(Window)

流数据湖平台Apache Paimon（二）集成 Flink 引擎

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

大数据平台搭建（容器环境）——Flink on Yarn安装配置

Flink 1.14.0 全新的 Kafka Connector

10分钟了解Flink SQL使用

基于OceanBase+Flink CDC，云粒智慧实时数仓演进之路

Blink实时计算：Explorer大基数表的写入性能优化

Flink DataStream API 批处理能力演进之路

人工智能平台PAI 操作报错合集之在集群上提交了包含alink相关功能的flink任务，但是却报错如何解决

阿里巴巴瓴羊基于 Flink 实时计算的优化和实践

[尚硅谷flink] 检查点笔记

[尚硅谷 flink] 状态管理笔记

[尚硅谷flink学习笔记] 实战案例TopN 问题

[尚硅谷 flink] 基于时间的合流——双流联结

相关课程

更多

大数据Flink实时旅游平台环境篇 2020版

Apache Flink 入门到实战 - Flink开源社区出品

实时计算 Flink 版产品入门与实操

开源 Flink 极速上手教程

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Flink CDC Meetup PPT - 龚中强

Flink CDC Meetup PPT - 王赫

Flink CDC Meetup PPT - 覃立辉

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

基于Flink+Tair搭建实时监控大屏

5分钟上手Flink MySQL连接器

使用Flink实时发现最热Github项目

基于MaxCompute的热门话题分析

下一篇

DataWorks智能交互式数据开发与分析之旅