Flink入坑指南 第四章:SQL中的经典操作Group By+Agg

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。 简介 Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等,详情参见Flink支持的聚合操作列表。
Flink入坑指南系列文章,从实际例子入手,一步步引导用户零基础入门实时计算/Flink,并成长为使用Flink的高阶用户。

简介

Group By + Agg这个最经典的SQL使用方式。Group By是SQL中最基础的分组操作,agg的全称是aggregation(聚合操作),是一类SQL算子的统称,Flink中最常用的Agg操作有COUNT/SUM/AVG等。在实际使用中,Group By+Agg绝大部分场景下都会一起出现。作为最常用的SQL模式,学习好这种模式的最优写法,也就非常重要了。本章从两个需求开始,进一步了解一下Group By + Agg模式的最优写法,及实时计算产品/Alibaba Flink版本中的部分优化.

需求

上一章中,小明已经把第一个需求完成了,同时也了解了持续查询state等流计算中的基础概念。熟悉了Flink/实时计算的基础用法之后,小明开始着手开发其他的需求:

  1. 从0点开始,每个类目的成交额
  2. 从0点开始,每个店铺的uv/pv
  3. 从0点开始,每个用户点击了多少商品,多少店铺

Group By + Agg

先看需求1:从0点开始,每个类目的成交额。进入Flink的原始数据结构如下:

ctime category\_id shop\_id item\_id price
2018-12-04 15:44:54 cat\_01 shop\_01 item\_01 10
2018-12-04 15:45:46 cat\_02 shop\_02 item\_02 11.1
2018-12-04 15:46:11 cat\_01 shop\_03 item\_03 12.4

FlinkSQL代码如下,看上去与传统数据库/批处理的SQL相同:

SELECT 
    date_format(ctime, '%Y%m%d') as cdate, -- 将数据从时间戳格式(2018-12-04 15:44:54),转换为date格式(20181204)
       category_id,
    sum(price) as category_gmv
FROM src
GROUP BY date_format(ctime, '%Y%m%d'), category_id; --按照天做聚合

以这个例子入手,着重说明Group By+Agg通用模式的两个问题:

  1. 计算特点
  2. 常见问题及解法

Group by+Agg模式在底层的有一些特点:

  1. Group by分组操作,会产生数据shuffle
  2. 按Key的agg操作,最终都需要落到同一个物理进程上才能保证计算的正确性

以这个最简单SQL为例,其数据流程图如下,不同颜色代表不同的category\_id:

image

数据源进来的数据先经过group by进行分组,同一个key的数据被分到同一个worker上之后再进行聚合操作。特点2就决定了,Group By + Agg 模式中,SQL作业性能与数据分布非常相关,如果数据中存在__数据倾斜__,也就是某个key的数据异常的多,那么某个聚合节点就会成为瓶颈,作业就会有明显的反压及延时现象。

为了解决这个问题,就需要将堵住的聚合节点进行拆分,优化后的SQL如下:

SELECT cdate,category_id,sum(category_gmv_p) as category_gmv
FROM(
    SELECT 
        date_format(ctime, '%Y%m%d') as cdate, -- 将数据从时间戳格式(2018-12-04 15:44:54),转换为date格式(20181204)
           category_id,
        sum(price) as category_gmv_p
    FROM src
    GROUP BY category_id, mod(hash_code(FLOOR(RAND(1)*1000), 256),date_format(ctime, '%Y%m%d'); --按照天做聚合
)
GROUP BY cdate,category_id

SQL中做了将一个Group By+Agg拆称了两个,子查询里按照category\_id和mod(hash\_code(FLOOR(RAND(1)*1000), 256)分组,将同一个category\_id上的数据打散成了256份,先做一层聚合。外层Group By+Agg,将子查询聚合后的结果再次做聚合。这样通过两层聚合的方式,即可大大缓解某聚合节点拥堵的现象。其数据流程图如下:
image

如果用户用的是开源Flink1.7版本,如果作业出现数据倾斜情况,就需要按以上方法对SQL进行改造,以提高作业吞吐,降低由于数据倾斜造成的业务延时。

相关函数用法,Floor, Rand, Hash\_Code

实时计算产品__使用 Flink版本,针对这种情况做了特殊优化,使用Local-Global Agg的方式完美解决了Group By+Agg模式中的数据倾斜问题,用户使用第一种(最简单)的SQL即可。__关于Local-Global Agg原理方面的介绍,后续会有专门文章,敬请期待。

GroupBy+单Distinct Agg

第二个需求:计算从0点开始,每个店铺的uv/pv
原始数据:

ctime category\_id shop\_id item\_id uid action
2018-12-04 15:44:54 cat\_01 shop\_01 item\_01 10001
2018-12-04 15:45:46 cat\_02 shop\_02 item\_02 10001
2018-12-04 15:46:11 cat\_01 shop\_03 item\_03 10002

其中action有三种:

  • 0: 浏览
  • 1: 点击
  • 2: 加购
  • 3: 购买

经过这段时间的学习,小明三两下就写出SQL:

SELECT 
    date_format(ctime, '%Y%m%d') as cdate, -- 将数据从时间戳格式(2018-12-04 15:44:54),转换为date格式(20181204)
       shop_id,
    count(distinct uid) as shop_uv, -- shop uv
    count(uid) as shop_pv -- show pv
FROM src
GROUP BY date_format(ctime, '%Y%m%d'), shop_id; --按照天做聚合

同样,按照上节所述,如果这个作业出现了数据倾斜的现象,就需要将SQL优化为:

select 
    cdate,
    shop_id, 
    sum(shop_uv_partial) as shop_uv,
    sum(shop_pv_partial) as shop_pv
from (
    select 
        date_format(ctime, '%Y%m%d') as cdate, -- 将数据从时间戳格式(2018-12-04 15:44:54),转换为date格式(20181204)
        shop_id, 
        count(distinct uid) as shop_uv_partial,
        count(uid) as shop_pv_partial
    from src
    group by shop_id, mod(hash_code(uid), 256),date_format(ctime, '%Y%m%d')
)
group by cdate,shop_id

本例子中,将原始SQL中的一层查询,拆成了两层查询。内层子查询,按照shop\_id和mod(hash\_code(uid),256)做聚合,将同一个shop\_id的数据打散到多个节点中。外层查询,将子查询聚合后的结果,再按shop\_id聚合。通过两层聚合即可大大缓解数据倾斜情况下聚合节点的压力。

Group By+Agg场景与Group By+Distinct Agg场景的主要区别,在于state中存储的数据。上一章中提到过,Flink是增量计算,state中会保存增量数据,比如上次SUM的值等等,但是在DISTINCT计算过程中,就需要保留所有的distinct的key,在本例子中,就是uid。且在每一次计算过程中,都要查询当前state中是否有同一个uid,并计数。因此在大数据量情况下distinct节点往往成为Flink作业的瓶颈。需要通过扩并发等方式解决。

同样,在实时计算产品使用 Flink版本,针对这种情况做了特殊优化,使用Partial-Final Agg的方式完美解决了Group By+Distinct Agg模式中的数据倾斜问题,用户使用第一种(最简单)的SQL即可。关于Partial-Final Agg原理方面的介绍,后续会有专门文章,敬请期待。

Group By+多Distinct Agg

第三个需求:从0点开始,每个用户点击了多少商品,多少店铺,以及该用户总点击item次数。原始数据如下:

ctime category\_id shop\_id item\_id uid action
2018-12-04 15:44:54 cat\_01 shop\_01 item\_01 10001
2018-12-04 15:45:46 cat\_02 shop\_02 item\_02 10001
2018-12-04 15:46:11 cat\_01 shop\_03 item\_03 10002

经过一番思索,小明写出了如下SQL:

SELECT UDTF
    date_format(ctime, '%Y%m%d') as cdate, -- 将数据从时间戳格式(2018-12-04 15:44:54),转换为date格式(20181204)
       uid,
    count(distinct shop_id) as shop_cnt,
    count(distinct item_id) as item_cnt,
    count(item_id) as click_cnt

FROM src
GROUP BY date_format(ctime, '%Y%m%d'), uid;

需求2相比,SQL中distinct个数变成了多个,这种情况下要优化SQL就更复杂了。有一种比较原始的做法:

  1. 先使用UDTF,将原始数据一行拆成多行,每行添加n+1列,n为distinct的个数。n列分别对distinct的值做hash。具体例子如下:
ctime
category_id
shop_id
item_id
uid
action
hash_shop
hash_item
flag
2018-12-04 15:44:54
cat_01
shop_01
item_01
10001
hash(shop_01)
null
flag0
2018-12-04 15:44:54
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">cat_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">shop_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">item_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">10001</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p"></div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">hash(item_01)</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">flag1</div>
    </td>
  </tr>
  <tr height="34px">
    <td rowspan="1" colSpan="1">
      <div data-type="p"><strong>2018-12-04 15:44:54</strong>
      </div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">cat_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">shop_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">item_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">10001</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p"></div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">flag2</div>
    </td>
  </tr>
  <tr height="34px">
    <td rowspan="1" colSpan="1">
      <div data-type="p">2018-12-04 15:45:46</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">cat_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">shop_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">item_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">10001</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p"></div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">hash(shop_02)</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">flag0</div>
    </td>
  </tr>
  <tr height="34px">
    <td rowspan="1" colSpan="1">
      <div data-type="p">2018-12-04 15:45:46</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">cat_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">shop_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">item_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">10001</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p"></div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">hash(item_02)</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">flag1</div>
    </td>
  </tr>
  <tr>
    <td rowspan="1" colSpan="1">
      <div data-type="p"><strong>2018-12-04 15:45:46</strong></div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">cat_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">shop_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">item_02</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">10001</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">​</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">flag2</div>
    </td>
  </tr>
  <tr>
    <td rowspan="1" colSpan="1">
      <div data-type="p"><strong>2018-12-04 15:46:11</strong></div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">cat_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">shop_03</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">item_03</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">10002</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">​</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">hash(shop_03)</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">flag0</div>
    </td>
  </tr>
  <tr height="34px">
    <td rowspan="1" colSpan="1">
      <div data-type="p">2018-12-04 15:46:11</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">cat_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">shop_03</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">item_03</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">10002</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p"></div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">hash(item_03)</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">flag1</div>
    </td>
  </tr>
  <tr height="34px">
    <td rowspan="1" colSpan="1">
      <div data-type="p">2018-12-04 15:46:11</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">cat_01</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">shop_03</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">item_03</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">10002</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p"></div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">null</div>
    </td>
    <td rowspan="1" colSpan="1">
      <div data-type="p">flag2</div>
      <div data-type="p"></div>
      <div data-type="p"></div>
    </td>
  </tr>
</tbody>

  1. 在SQL中,先在子查询中分别计算各指标的count值,在外层再做一层sum即可,SQL示例如下:
select 
    cdate,
    uid, 
    sum(shop_cnt_p) as shop_cnt, 
    sum(item_id_p) as item_id_cnt, 
    sum(item_cnt_p) as item_cnt
from (
    select
        date_format(ctime, '%Y%m%d') as cdate,
        uid,
        count(distinct shop_id) filter (where flag = flag0) as shop_cnt_p,
        count(distinct item_id) filter (where flag = flag1) as item_id_p ,
        sum(item_id) filter (where flag = flag2) as item_cnt_p
    from Expand_T
    group by uid, hash_user, hash_shop, date_format(ctime, '%Y%m%d')
    )
group by uid

这种问题可以解决多个distinct中的数据倾斜问题,但是会增加sql复杂度,并且计算过程中数量会膨胀,并且占用更多资源。

同样,在实时计算产品使用 Flink版本,针对这种情况做了特殊优化,使用Partial-Final Agg+Incremental Agg的方式完美解决了Group By+多个Distinct Agg模式中的数据倾斜问题,用户不需要在SQL上做拆分。关于Partial-Final Agg+Incremental Agg原理方面的介绍,后续会有专门文章,敬请期待。

数据倾斜相关配置

在使用实时计算产品时,如果遇到数据倾斜问题,可以增加以下配置,即可解决,不需要手动进行SQL优化。

# 开启5秒的microbatch
blink.microBatch.allowLatencyMs=5000
blink.miniBatch.allowLatencyMs=5000
blink.miniBatch.size=20000
# Local 优化,默认已经开启
# blink.localAgg.enabled=true
# 开启 Partial 优化,解决count distinct热点
blink.partialAgg.enabled=true
# Incremental 优化,默认已经开启
# blink.incrementalAgg.enabled=true
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
3月前
|
SQL 存储 API
Flink实践:通过Flink SQL进行SFTP文件的读写操作
虽然 Apache Flink 与 SFTP 之间的直接交互存在一定的限制,但通过一些创造性的方法和技术,我们仍然可以有效地实现对 SFTP 文件的读写操作。这既展现了 Flink 在处理复杂数据场景中的强大能力,也体现了软件工程中常见的问题解决思路——即通过现有工具和一定的间接方法来克服技术障碍。通过这种方式,Flink SQL 成为了处理各种数据源,包括 SFTP 文件,在内的强大工具。
194 15
|
3天前
|
SQL 存储 缓存
Flink SQL Deduplication 去重以及如何获取最新状态操作
Flink SQL Deduplication 是一种高效的数据去重功能,支持多种数据类型和灵活的配置选项。它通过哈希表、时间窗口和状态管理等技术实现去重,适用于流处理和批处理场景。本文介绍了其特性、原理、实际案例及源码分析,帮助读者更好地理解和应用这一功能。
44 14
|
2月前
|
SQL 大数据 API
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
55 0
|
3月前
|
SQL 安全 数据处理
揭秘数据脱敏神器:Flink SQL的神秘力量,守护你的数据宝藏!
【9月更文挑战第7天】在大数据时代,数据管理和处理尤为重要,尤其在保障数据安全与隐私方面。本文探讨如何利用Flink SQL实现数据脱敏,为实时数据处理提供有效的隐私保护方案。数据脱敏涉及在处理、存储或传输前对敏感数据进行加密、遮蔽或替换,以遵守数据保护法规(如GDPR)。Flink SQL通过内置函数和表达式支持这一过程。
89 2
|
3月前
|
SQL 大数据 数据处理
奇迹降临!解锁 Flink SQL 简单高效的终极秘籍,开启数据处理的传奇之旅!
【9月更文挑战第7天】在大数据处理领域,Flink SQL 因其强大功能与简洁语法成为开发者首选。本文分享了编写高效 Flink SQL 的实用技巧:理解数据特征及业务需求;灵活运用窗口函数(如 TUMBLE 和 HOP);优化连接操作,优先采用等值连接;合理选择数据类型以减少计算资源消耗。结合实际案例(如实时电商数据分析),并通过定期性能测试与调优,助力开发者在大数据处理中更得心应手,挖掘更多价值信息。
52 1
|
4月前
|
SQL 资源调度 流计算
慢sql治理问题之在 Flink 中, userjar 分发问题如何优化
慢sql治理问题之在 Flink 中, userjar 分发问题如何优化
|
3月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
1月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
1161 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
zdl
|
1月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
150 56

相关产品

  • 实时计算 Flink版