Flink 内核原理与实现-应用（下）-阿里云开发者社区

Flink 内核原理与实现-应用（下）

2022-12-30 191

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： Flink 内核原理与实现-应用

Fold

Fold与Reduce类似，区别在于Fold是一个提供了初始值的Reduce,用初始值进行合并运算。该类运算应用在KeyedStream上，输出结果为DataStream。Folder接口对应的是FoldFunction,其类泛型为FoldFunction<O,T>,O为KeyStream中的数据类型，T为初始值类型和Fold方法返回值类型。

FoldFunction<O,T>已经被标记为Deprecated废弃，替代接口是AggregateFunction<IN,ACC,OUT>。

Aggregation

渐进聚合具有相同Key的数据流元素，以min和minBy为例，min返回的是整个KeyedStream的最小值，按照Key进行分组，返回每个组的最小值。聚合运算输出结果为DataStream。

Window

对KeyedStream数据，按照Key进行时间窗口切分。输出结果为WindowedStream。输出结果的类泛型为<T,K,W extends Window>，T为KeyedStream中的元素数据类型，K为指定Key的数据类型，W为窗口类型。

WindowAll

对一般的DataStream进行窗口切分，即全局一个窗口。输出结果为AllWindowedStream。

注意：在一般的DataStream上进行窗口切分，往往会导致无法并行计算，所有的数据都集中在WindowAll算子的一个Task上。

Window Apply

将Window函数应用到窗口上，Window函数将一个窗口的数据作为整体进行处理。Window Stream有两种：分组后的WindowedStream和未分组的AllWindowedStream。

1、WindowedStream

WindowedStream上应用的是WindowFunction，输出结果为DataStream。WindowFunction<IN,OUT,KEY,W extends Window>中IN表示输入值的类型，OUT表示输出值的类型，KEY表示Key的类型，W表示窗口的类型。

2、AllWindowedStream

AllWindowedStream上应用的是AllWindowFunction，输出结果为DataStream。AllWindowFunction<IN,OUT,KEY,W extends Window>中IN表示输入值的类型，OUT表示输出值的类型，KEY表示Key的类型，W表示窗口的类型。

Window Reduce

在WindowedStream上应用ReduceFunction，结果输出为DataStream。

Window Fold

在WindowedStream上应用FoldFunction，结果输出为DataStream。

Window Aggregation

统计聚合运算，在WindowedStream应用该运算，应用AggregationFunction，输出结果为DataStream。

Union

把两个或多个DataStream合并，所有DataStream中的元素都会组合成一个新的DataStream，但是不去重，如果在自身上应用Union运算，则每个元素在新的DataStram出现两次。

Window Join

在相同时间范围的窗口上Join两个DataStream数据流，输出结果为DataStream。Join核心逻辑在JoinFunction<IN1,IN2,OUT>中实现，IN1为第一个DataStream中的数据类型，IN2为第二个DataStream中的数据类型，OUT为Join结果的数据类型。

Interval Join

对两次KeyedStream进行Join，需要指定时间范围和Join时使用的Key,输出结果为DataStream。Join的核心逻辑在ProcessJoinFunction<IN1,IN2,OUT>中实现，IN1为第一个DataStream中的元素数据类型，IN2为第2个DataStream中的元素数据类型，OUT为结果输出类型。

WindowCoGroup

两个DataStream在相同时间窗口上应用CoGroup运算，输出结果为DataStream，CoGroup和Join功能类似，CoGroup接口对应的是CoGroupFunction,其类泛型为CoGroupFunction<IN1,IN2,O>，IN1代表第一个DataStream中是元素类型，IN2代表第二个DataStream中是元素类型，O为输出结果类型。