Flink SQL 功能解密系列 —— 解决热点问题的大杀器MiniBatch-阿里云开发者社区

Flink SQL 功能解密系列 —— 解决热点问题的大杀器MiniBatch

2018-02-08 6438

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，1000CU*H 3个月

简介： 在Blink的流式任务中，State相关的操作通常都会成为整个任务的性能瓶颈。实时计算部-查询和优化团队开发了MiniBatch功能，大幅降低了State操作的开销，在今年的双11中，几乎所有适用的任务都启用了MiniBatch功能。

阿里巴巴实时计算团队-墨简

在Blink的流式任务中，State相关的操作通常都会成为整个任务的性能瓶颈。实时计算部-查询和优化团队开发了MiniBatch功能，大幅降低了State操作的开销，在今年的双11中，几乎所有适用的任务都启用了MiniBatch功能。

MiniBatch的一个典型场景-无限流上的GroupBy

在Blink-SQL中，通常会使用无限流的GroupBy来完成去重或者聚合计算，一个简单的例子如下

SELECT a, count(b) FROM dual GROUP BY a

标准实现的计算方式

MiniBatch实现的计算方式

StateBackend的Batch操作

从上图可知，开启MiniBatch之后要求State能支持Batch读写，目前默认的RocksDBStateBackend暂时不支持，Batch的读写实际是循环读写，而NiagaraStateBackend则支持真正的Batch读写。

用户的参数设置以及实现方案

目前用户在使用Bayes提交Blink-SQL任务时，可以设置以下两种触发逻辑

# 表示整个job允许的延迟(必须参数)
blink.miniBatch.allowLatencyMs=5000
# 单个batch的size(可选参数)
blink.miniBatch.size=1000

由于最终的SQL任务是一个DAG，需要在GroupBy节点上分配时间使得整个任务的在攒数据上的延迟不超过该值，目前时间分配的策略是简单地做均分，一个可能的例子如下

适用场景

当前MiniBatch支持Blink-SQL中的无限流GroupBy和无限流Proctime Over Window
如果Blink-SQL任务有热Key，则非常适合启用MiniBatch优化, 一些任务启用了MiniBatch，可以看出往下游发送的数据比原有少了约2个数量级

优化模型及后续

从上可以看出现有的时间分配策略只是给了可行但不是最优的方案，Key的分布更密集的节点不一定分配到了更多的时间。
完整MiniBatch的优化需要通过Key的分布，source节点输入速率，节点处理能力等信息来计算每个节点的时间分配，在后续的版本中会结合HotUpdate功能做到动态调整，最大化发挥出MiniBatch的威力。

相关实践学习

基于Hologres+Flink搭建GitHub实时数据大屏

通过使用Flink、Hologres构建实时数仓，并通过Hologres对接BI分析工具（以DataV为例），实现海量数据实时分析.

实时计算 Flink 实战课程

如何使用实时计算 Flink 搞定数据处理难题？实时计算 Flink 极客训练营产品、技术专家齐上阵，从开源 Flink功能介绍到实时计算 Flink 优势详解，现场实操，5天即可上手！欢迎开通实时计算 Flink 版： https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍： Flink Forward 是由 Apache 官方授权，Apache Flink Community China 支持的会议，通过参会不仅可以了解到 Flink 社区的最新动态和发展计划，还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验，是 Flink 开发者和使用者不可错过的盛会。去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与，一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况，Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。

Flink SQL 功能解密系列 —— 解决热点问题的大杀器MiniBatch

MiniBatch的一个典型场景-无限流上的GroupBy

标准实现的计算方式

MiniBatch实现的计算方式

StateBackend的Batch操作

用户的参数设置以及实现方案

适用场景

优化模型及后续

实时计算 Flink

热门文章

最新文章

相关产品

相关课程

相关电子书