Flink原理简介和使用(2)-阿里云开发者社区

Flink原理简介和使用(2)

2022-04-25 233

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： Flink原理简介和使用(2)

所有的Flink由三部分组成 Source、Transformation、Sink

Source负责读取数据源
Transformation利用各种算子进行处理加工
Sink负责输出
在运行时 Flink上运行的程序会被映射成 "逻辑数据流" dataflows 它包含了这三部分
每一个dataflow以一个或多个sources开始
以一个或多个sinks结束

dataflow类似于任意的有向无环图(DAG)

在大部分情况下 程序的转换算法（transformations）跟dataflow中的算子(operator)是一一对应关系
但有时候一个transformations可能对应多个operator

执行图(ExecutionGraph)

由Flink程序直接映射成数据流图 StreamGraph 也被成为逻辑流图 因为它们表示的是计算逻辑的高级视图 
为了执行一个流处理程序 Flink需要将逻辑流图转换为物理数据流图（也叫执行图）详细说明程序的执行方式

Flink执行图可以分为四层

StreamGraph -> JobGraph -> ExecutionGraph -> 物理执行图

StreamGraph

是根据用户通过Stream API编写的代码生成的最初的图 用来表示程序的拓扑结构

JobGraph

StreamGraph经过优化后生成了JobGraph 提交给JobManager的数据结构
主要优化为：
将多个符合条件的节点 chain在一起作为一个节点  这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗

ExecutionGraph

JobManager根据JobGraph生成了ExecutionGraph
ExecutionGraph是JobGraph的并行化版本 是调度层最核心的数据结构

物理执行图

JobManager根据ExecutionGraph对Job进行调度后
在各个TaskManager上部署Task后形成的“图”
并不是一个具体的数据结构

并行度(Parallelism)

Flink程序的执行具有并行、分布式特性 
一个流包含了一个或多个分区(stream partition)
而每一个算子(operator)可以包含一个或多个子任务(operator subtask)
这些子任务在不同的线程、不同物理机或不同的容器中不依赖的执行

并行数据流

一个特定算子的子任务(subtask)的个数被称为并行度
一般情况下 一个流程序的并行度 可以认为其所有算子中最大的并行度

一个程序中 不同的算子可能具有不同的并行度
Stream在算子之间传输数据的形式可以是 one-to-one(forwarding)的模式也可以是redistributing的模式 具体是哪一种形式 取决于算子的种类
one-to-one:
stream(比如在source和map operator之间) 维护着分区以及元素的顺序 那意味着map算子的子任务看到的元素的个数以及顺序跟source算子的子任务生产的元素的个数、顺序相同 map、filter、flatMap等算子都是one-to-one的对应关系
Redistributing:
stream(map()跟keyBy/window之间或者keyBy/window跟slink之间)的分区会发生改变
每一个算子的子任务依据所选择的transformation发送数据到不同的目标任务
例如：
keyBy()基于hashCode重分区 
broadcast和rebalance会随机重新分区
这些算子都会引起redistribute过程
该过程就类似于spark中的shuffle
类似于spark的窄依赖、宽依赖

Flink原理简介和使用(2)

执行图(ExecutionGraph)

并行度(Parallelism)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Flink原理简介和使用(2)

执行图(ExecutionGraph)

并行度(Parallelism)

热门文章

最新文章

相关课程

相关电子书

相关实验场景