深入理解Flink Streaming SQL

2018-12-12 20678

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 序言时效性提升数据的价值，所以Flink这样的流式(Streaming)计算系统应用得越来越广泛。广大的普通用户决定一个产品的界面和接口。 ETL开发者需要简单而有效的开发工具，从而把更多时间花在理业务和对口径上。 &n

序言

时效性提升数据的价值，所以Flink这样的流式(Streaming)计算系统应用得越来越广泛。

广大的普通用户决定一个产品的界面和接口。
ETL开发者需要简单而有效的开发工具，从而把更多时间花在理业务和对口径上。
因此流式计算系统都趋同以SQL作为唯一开发语言，让用户以Table形式操作Stream。

程序开发三部曲：First make it work, then make it right, and, finally, make it fast.

流计算开发者面对的现状及趋势：

第一步，让程序运行起来。
开发者能用SQL方便地表达问题。
开发者能通过任务管理系统一体化地管理任务，如：开发，上线，调优，监控和排查任务。

第二步，让程序运行正确。
简单数据清洗之外的流计算开发需求通常会涉及到Streaming SQL的两个核心扩展：Window 和 Emit。
开发者深入理解Window和 Emit的语义是正确实现这些业务需求的关键，
否则无法在数据时效性和数据准确性上做适合各个业务场景的决策和折中。

第三步，让程序运行越来越快。
苹果每年都会发布新手机：使用了**芯片，性能提升了多少，耗电降低了多少，增加**功能...。
当前，流计算系统每年也会有很大的性能提升和功能扩展，但想要深入调优及排错，
还是要学习分布式系统的各个组件及原理，各种算子实现方法，性能优化技术等知识。
以后，随着系统的进一步成熟和完善，开发者在性能优化上的负担会越来越低，
无需了解底层技术实现细节和手动配置各种参数，就能享受性能和稳定性的逐步提升。

分布式系统的一致性和可用性是一对矛盾。
流计算系统的数据准确性和数据时效性也是一对矛盾。
应用开发者都需要认识到这些矛盾，并且知道自己在什么场景下该作何种取舍。

本文希望通过剖析Flink Streaming SQL的三个具体例子：Union，Group By 和 Join ，
来依次阐述流式计算模型的核心概念: What, Where, When, How 。
以便开发者加深对Streaming SQL的Window 和 Emit语义的理解，
从而能在数据准确性和数据时效性上做适合业务场景的折中和取舍。
也顺带介绍Streaming SQL的底层实现，以便于SQL任务的开发和调优。

UNION

通过这个例子来阐述Streaming SQL的底层实现和优化手段：Logical Plan Optimization 和 Operator Chaining。

例子

改编自Flink StreamSQLExample 。只在最外层加了一个Filter，以便触发Filter下推及合并。

Source

SQL

Sink

运行结果

转换Table为Stream

Flink 会把基于Table的Streaming SQL转为基于Stream的底层算子，并同时完成Logical Plan及Operator Chaining等优化

转为逻辑计划(Logical Plan)

上述UNION ALL SQL依据Relational Algebra转换为下面的逻辑计划:

SQL字段与逻辑计划有如下的对应关系：

优化Logical Plan

理论基础

幂等

数学: 19 * 10 * 1 * 1 = 19 * 10 = 190
SQL: SELECT * FROM (SELECT user, product FROM OrderA) = SELECT user, product FROM OrderA

交换律

数学：10 * 19 = 19 * 10 = 190
SQL: tableA UNION ALL tableB = tableB UNION ALL tableA

结合律

数学:
（1900 * 0.5）* 0.2 = 1900 * (0.5 * 0.2) = 190
1900 * (1.0 + 0.01) = 1900 * 1.0 + 1900 * 0.01 = 1919

SQL:
SELECT * FROM (SELECT user, amount FROM OrderA) WHERE amount > 2
SELECT * FROM (SELECT user, amount FROM OrderA WHERE amount > 2)

优化过程

Flink的逻辑计划优化规则清单请见: FlinkRuleSets
此Union All例子根据幂等，交换律和结合律来完成以下三步优化：

消除冗余的Project

利用幂等特性，消除冗余的Project。

下推Filter

利用交换率和结合律特性，下推Filter。

合并Filter

利用结合律，合并Filter。

转为物理计划（Physical Plan）

转换后的Flink的物理执行计划如下：

有Physical Plan优化这一步骤，但对以上例子没有效果，所以忽略。

这样，加上Source和Sink，产生了如下的Stream Graph：

优化Stream Graph

通过Task Chaining来减少上下游算子的数据传输消耗，从而提高性能。

Chaining判断条件

Chaining结果

按深度优先的顺序遍历Stream Graph，最终产生5个Task任务。

GROUP BY

将以滚动窗口的GROUP BY来阐述Streaming SQL里的Window和Emit语义，
及其背后的Streaming的Where(Window)和When(Watermark和Trigger)的概念及关系。