奇思妙想的SQL|去重Cube计算优化新思路

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 本文主要分享了作者在蚂蚁集团高管数据链路改造升级过程中,针对去重Cube的优化实践。

来源|阿里云开发者公众号

作者|佳二

引言

SQL作为目前最通用的数据库查询语言,其功能和特性复杂度远不止大家常用的“SELECT * FROM tbl”这样简单,一段好的SQL和差的SQL,其性能可能有几十乃至上千倍的差距。而写出一个好的能兼顾性能和易用性的SQL,考验的不仅仅是了解到多少新特性新写法,而是要深入理解数据的处理过程,然后设计好数据的处理过程。

因此想推出本系列文章,并取名为《奇思妙想的SQL》,希望能以实际案例出发,和大家分享一些SQL处理数据的新方案新思路,并在过程中融入对问题本质的理解,希望大家能喜欢~。

本篇为系列第1篇,分享下在蚂蚁集团高管数据链路改造升级过程中,针对去重Cube的优化实践。

一、场景描述

在做数据汇总计算和统计分析时,最头疼的就是去重类指标计算(比如用户数、商家数等),尤其还要带多种维度的下钻分析,由于其不可累加的特性,几乎每换一种统计维度组合,都得重新计算。数据量小时可以暴力的用明细数据直接即时统计,但当数据量大时就不得不考虑提前进行计算了。

典型场景如下:省、市、区等维度下的支付宝客户端的日支付用户数(其中省、市、区为用户支付时所在的位置,表格中指标数据均为虚构的)。

存在一个情况,某用户早上在杭州市使用支付宝支付了一次,下午跑到绍兴市时又使用支付宝线下支付了一次。那么在统计省+市维度的日支付用户数,需要为杭州市、绍兴市各计1;但在省维度下,需要按用户去重,只能为浙江省计1。针对这种情况,通常就需要以Cube的方式完成数据预计算,同时每个维度组合都需要进行去重操作,因为不可累加。本文将此种场景简称为去重Cube。

二、常见的实现方法

直接计算,每个维度组合单独计算。比如单独生成省、省+市、省+市+区等维度组合的多张表。每个表只计算固定的维度。然后是数据膨胀再计算,如Union All或者Lateral View Explode或者MaxCompute的 Cube计算功能,通过数据膨胀实现一行数据满足多种维度组合的数据计算方法,如下图所示。

这三种写法其实都类似,重点都在于对数据进行膨胀,再进行去重统计。其执行流程如下图所示,核心思路都是先把数据"膨胀"拆为多行,再按照“普通”的Distinct去重统计,因此性能上本身无太大差异,主要在于代码可维护性上。

三、性能分析

上述方法核心都是先把数据"膨胀"拆为多行,再按照“普通”的Distinct去重统计,本身性能无太大差异,主要在于代码可维护性上。这几种方案计算消耗会随着所需维度组合线性增加,同时还要叠加Distinct本身的计算性能差的影响。

在实际实验中,我们发现,去重Cube的计算过程中,80%+的计算成本消耗在数据膨胀和数据传输上。比如高管核心指标场景,需要计算各种组合维度下的支付用户数以支持分析。实际实验中,选取100亿数据x25种维度组合进行测试,实际执行任务如下图所示,其中R3_2为核心的数据膨胀过程,数据膨胀近10倍,中间结果数据大小由100GB膨胀至1TB、数据量由100亿膨胀至近1300亿,大部分计算资源和计算耗时都花在数据膨胀和传输上了。若实际的组合维度进一步增加的话,数据膨胀大小也将进一步增加。

四、一种新的思路

首先对问题进行拆解下,去重Cube的计算过程核心分为两个部分,数据膨胀+数据去重。数据膨胀解决的是一行数据同时满足多种维度组合的计算,数据去重则是完成最终的去重统计,核心思路还是在于原始数据去匹配结果数据的需要。其中数据去重本身的计算量就较大,而数据膨胀会导致这一情况加剧,因为计算过程中需要拆解和在shuffle过程中传输大量的数据。数据计算过程中是先膨胀再聚合,加上本身数据内容的中英文字符串内容较大,所以才导致了大量的数据计算和传输成本。

而我们的核心想法是能否避免数据膨胀,同时进一步减少数据传输大小。因此我们联想到,是否可以采用类似于用户打标签的数据打标方案,先进行数据去重生成UID粒度的中间数据,同时让需要的结果维度组合反向附加到UID粒度的数据上,在此过程中并对结果维度进行编号,用更小的数据结构去存储,避免数据计算过程中的大量数据传输。整个数据计算过程中,数据量理论上是逐渐收敛的,不会因为统计维度组合的增加而增加。


4.1.核心思路

核心计算思路如上图,普通的数据膨胀计算cube的方法,中间需要对数据进行膨胀,再聚合,其中结果统计需要的组合维度数就是数据膨胀的倍数,比如上述的“省、省+市”共计两种维度组合,数据预计要膨胀2倍。

而新的数据聚合方法,通过一定的策略方法将维度组合拆解为维度小表并进行编号,然后将原本的订单明细数据聚合至用户粒度的中间过程数据,其中各类组合维度转换为数字标记录至用户维度的数据记录上,整个计算过程数据量是呈收敛聚合的,不会膨胀。


4.2.逻辑实现

  • 明细数据准备:以用户线下支付数据为例,明细记录包含订单编号、用户ID、支付日期、所在省、所在市、支付金额。最终指标统计需求为统计包含省、市组合维度+支付用户数的多维Cube。

订单编号

用户ID

支付日期

所在省

所在市

支付金额

2023111101

U001

2023-11-11

浙江省

杭州市

1.11

2023111102

U001

2023-11-11

浙江省

绍兴市

2.22

2023111103

U002

2023-11-11

浙江省

杭州市

3.33

2023111104

U003

2023-11-11

江苏省

南京市

4.44

2023111105

U003

2023-11-11

浙江省

温州市

5.55

2023111106

U004

2023-11-11

江苏省

南京市

6.66

整体方案流程如下图。

  • STEP1:对明细数据进行所需的维度提取(即Group By对应字段),得到维度集合。

  • STEP2:对得到的维度集合生成Cube,并对Cube的行进行编码 (假设最终需要所在省、所在省+所在市 2种组合维度),可以用ODPS的Cube功能实现,再根据生成的Cube维度组合进行排序生成唯一编码。

原始维度:所在省

原始维度:所在省

Cube 维度:所在省

Cube 维度:所在市

Cube行ID(可通过排序生成)

浙江省

杭州市

浙江省

ALL

1

浙江省

杭州市

浙江省

杭州市

2

浙江省

绍兴市

浙江省

ALL

1

浙江省

绍兴市

浙江省

绍兴市

3

浙江省

温州市

浙江省

ALL

1

浙江省

温州市

浙江省

温州市

4

江苏省

南京市

江苏省

ALL

5

江苏省

南京市

江苏省

南京市

6


  • STEP3:将Cube的行编码,根据映射关系回写到用户明细上,可用Mapjoin的方式实现。

订单编号

用户ID

支付日期

所在省

所在市

汇总Cube ID

2023111101

U001

2023-11-11

浙江省

杭州市

[1,2]

2023111102

U001

2023-11-11

浙江省

绍兴市

[1,3]

2023111103

U002

2023-11-11

浙江省

杭州市

[1,2]

2023111104

U003

2023-11-11

江苏省

南京市

[5,6]

2023111105

U003

2023-11-11

浙江省

温州市

[1,4]

2023111106

U004

2023-11-11

江苏省

南京市

[5,6]

  • STEP4:汇总到用户维度,并对 Cube ID集合字段进行去重 (可以用ARRAY 的DISTINCT)

  • STEP5:按照Cube ID进行计数计算(由于STEP4已经去重啦,因此这里不需要再进行去重);然后按照映射关系进行维度还原。

Cube ID

下单用户数指标

Cube 维度还原:所在省

Cube 维度还原:所在市

1

3

浙江省

ALL

2

2

浙江省

杭州市

3

1

浙江省

绍兴市

4

1

浙江省

温州市

5

2

江苏省

ALL

6

2

江苏省

江苏省


  • Over~


4.3.代码实现


WITH -- 基本的明细数据表准备base_dwd AS (  SELECT   pay_no          ,user_id          ,gmt_pay          ,pay_amt          ,prov_name          ,prov_code          ,city_name          ,city_code  FROM tmp_user_pay_order_detail)-- 生成多维Cube,并进行编码,dim_cube AS (  -- Step02:CUbe生成  SELECT *,DENSE_RANK() OVER(PARTITION BY 1 ORDER BY cube_prov_name,cube_city_name) AS cube_id   FROM (    SELECT dim_key          ,COALESCE(IF(GROUPING(prov_name) = 0,prov_name,'ALL'),'na') AS cube_prov_name                       ,COALESCE(IF(GROUPING(city_name) = 0,city_name,'ALL'),'na') AS cube_city_name     FROM (      -- Step01:维度统计        SELECT  CONCAT(''                       ,COALESCE(prov_name ,''),'#'                        ,COALESCE(city_name     ,''),'#'                 ) AS dim_key                ,prov_name                ,city_name        FROM base_dwd        GROUP BY prov_name        ,city_name    ) base    GROUP BY dim_key            ,prov_name              ,city_name    GROUPING SETS (           (dim_key,prov_name)          ,(dim_key,prov_name,city_name)    )  ))-- 将CubeID回写到明细记录上,并生成UID粒度的中间过程数据,detail_ext AS (  -- Step04:指标统计  SELECT   user_id          ,ARRAY_DISTINCT(SPLIT(WM_CONCAT(';',cube_ids),';')) AS cube_id_arry  FROM (    -- Step03:CubeID回写明细    SELECT  /*+ MAPJOIN(dim_cube) */           user_id        ,cube_ids    FROM (        SELECT   user_id                ,CONCAT(''                       ,COALESCE(prov_name,''),'#'                       ,COALESCE(city_name,''),'#'                  ) AS dim_key        FROM base_dwd    ) dwd_detail    JOIN (        SELECT dim_key,WM_CONCAT(';',cube_id) AS cube_ids        FROM dim_cube         GROUP BY dim_key    ) dim_cube    ON dwd_detail.dim_key = dim_cube.dim_key  ) base  GROUP BY user_id)-- 指标汇总并将CubeID翻译回可理解的维度,base_dws AS (  -- Step05:CubeID翻译  SELECT cube_id        ,MAX(prov_name) AS prov_name        ,MAX(city_name    ) AS city_name        ,MAX(uid_cnt      ) AS user_cnt  FROM (      SELECT cube_id              AS cube_id            ,COUNT(1)             AS uid_cnt            ,CAST(NULL AS STRING) AS prov_name            ,CAST(NULL AS STRING) AS city_name      FROM detail_ext      LATERAL VIEW EXPLODE(cube_id_arry) arr AS cube_id      GROUP BY cube_id      UNION ALL       SELECT CAST(cube_id AS STRING) AS cube_id            ,CAST(NULL AS BIGINT) AS uid_cnt            ,cube_prov_name       AS prov_name            ,cube_city_name       AS city_name          FROM dim_cube  ) base   GROUP BY cube_id)-- 大功告成,输出结果!!!SELECT   prov_name        ,city_name        ,user_cntFROM base_dws;

  • 实际的执行过程(ODPS的Logview)如下图。


4.4.实验效果

左边是基于Cube打标方案的新链路。实验过程中将实验数据由100亿增加至200亿,组合维度数由原来的25个增加至50种组合维度,整体耗时在18分钟,若只计算和原始数据量、组合维度均相同的数据,整体计算耗时可控制在10分钟内。

右边是基于数据膨胀计算的老链路。实验数据设定为100亿,组合维度数为25种,中间过数据将膨胀至1300亿+,数据大小更是膨胀至1TB+,整体耗时47分钟。若此方案扩展至新方法的200亿数据x50种组合维度,中间过程数据将膨胀至4000亿+,数据大小增加将膨胀至3TB+,整体计算耗时预估将达到2.5小时+。

新方法目前已经在业务核心高管链路上线,在数据统计维度组合、数据计算量都大幅增加的情况下,整体核心指标产出相较于以往,进一步提前1小时以上,有效的保障了相关核心指标数据的稳定性。


4.5.方案总结

常见的基于数据膨胀的Cube计算方法,数据计算大小和过程数据传输量将随着组合维度的数量呈线性增长,组合维度数越多,花费在数据膨胀与Shuffle传输的资源和耗时占比越高。在实验过程中,100亿实验数据x25种维度组合场景,过程数据已经膨胀至1300亿+,数据大小由100GB膨胀至1TB,当数据量和维度组合数进一步增加时,整个计算过程基本上难以完成。

为了解决数据膨胀过程中产生的大量过程数据,我们基于数据打标的思路反向操作,先对数据聚合为UID粒度,过程中将需要的维度组合转化编码数字并赋予明细数据上,整个计算过程数据呈收敛聚合状,数据计算过程较为稳定,不会随着维度组合的进一步增加而大幅增加。在实验中,将实验数据由100亿增加至200亿+,组合维度数由原来的25个增加至50种组合维度,整体耗时控制在18分钟左右。若同等的数据量,采用老的数据膨胀方案,中间过程数据将膨胀至4000亿+,数据大小将增加至3TB+,整体计算耗时将达到2.5小时+。

综上,当前的方案整体性能相较于以往有大幅度的提升,并且不会随着维度组合的增加而有明显的增加。但当前的方案也有不足之处,即代码的可理解性和可维护性,过程中的打标计算过程虽然流程较为固定,但整体上需要有个初始化理解的过程,目前尚无法做到普通UnionAll/Cube等方案的易读和易写。另外,当组合维度数较少(即数据膨胀倍数不高)时,两者的性能差异不大,此时建议还是用原始普通的Cube计算方案;但当组合维度数达几十倍时,可以改用这种数据打标的思路进行压缩,毕竟此时的性能优势开始凸显,并且维度组合数越高,此方案的性能优势越大。

五、其他方案

BitMap方案。核心思路在于将不可累计的数据指标,通过可累加计算的数据结构,近似实现可累加指标的效果。具体实现过程方案是对用户ID进行编码,存入BitMap结构中,比如一个二进制位表示一个用户是否存在,消耗1个Bit。维度统计上卷时,再对BitMap的数据结构进行合并和计数统计。

HyperLogLog方案。非精确数据去重,相对于Distinct的精确去重,性能提升明显。

这两种方案,性能上相对于普通的Cube计算有巨大的提升,但BitMap方案需要对去重统计用的UID进行编码存储,对一般用户的理解和实操成本较高,除非系统级集成此功能,不然通常需要额外的代码开发实现。而HyperLogLog方案的一大弊端就是数据的非精确统计。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10天前
|
SQL 存储 缓存
Flink SQL Deduplication 去重以及如何获取最新状态操作
Flink SQL Deduplication 是一种高效的数据去重功能,支持多种数据类型和灵活的配置选项。它通过哈希表、时间窗口和状态管理等技术实现去重,适用于流处理和批处理场景。本文介绍了其特性、原理、实际案例及源码分析,帮助读者更好地理解和应用这一功能。
77 14
|
8天前
|
SQL Oracle 数据库
使用访问指导(SQL Access Advisor)优化数据库业务负载
本文介绍了Oracle的SQL访问指导(SQL Access Advisor)的应用场景及其使用方法。访问指导通过分析给定的工作负载,提供索引、物化视图和分区等方面的优化建议,帮助DBA提升数据库性能。具体步骤包括创建访问指导任务、创建工作负载、连接工作负载至访问指导、设置任务参数、运行访问指导、查看和应用优化建议。访问指导不仅针对单条SQL语句,还能综合考虑多条SQL语句的优化效果,为DBA提供全面的决策支持。
31 11
|
1月前
|
SQL 缓存 监控
大厂面试高频:4 大性能优化策略(数据库、SQL、JVM等)
本文详细解析了数据库、缓存、异步处理和Web性能优化四大策略,系统性能优化必知必备,大厂面试高频。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
大厂面试高频:4 大性能优化策略(数据库、SQL、JVM等)
|
28天前
|
SQL 缓存 数据库
SQL慢查询优化策略
在数据库管理和应用开发中,SQL查询的性能优化至关重要。慢查询优化不仅可以提高应用的响应速度,还能降低服务器负载,提升用户体验。本文将详细介绍针对SQL慢查询的优化策略。
|
28天前
|
SQL 存储 BI
gbase 8a 数据库 SQL合并类优化——不同数据统计周期合并为一条SQL语句
gbase 8a 数据库 SQL合并类优化——不同数据统计周期合并为一条SQL语句
|
28天前
|
SQL 数据库
gbase 8a 数据库 SQL优化案例-关联顺序优化
gbase 8a 数据库 SQL优化案例-关联顺序优化
|
1月前
|
SQL 数据库 UED
SQL性能提升秘籍:5步优化法与10个实战案例
在数据库管理和应用开发中,SQL查询的性能优化至关重要。高效的SQL查询不仅可以提高应用的响应速度,还能降低服务器负载,提升用户体验。本文将分享SQL优化的五大步骤和十个实战案例,帮助构建高效、稳定的数据库应用。
65 3
|
1月前
|
SQL 存储 缓存
如何优化SQL查询性能?
【10月更文挑战第28天】如何优化SQL查询性能?
152 10
|
1月前
|
SQL 存储 缓存
SQL Server 数据太多如何优化
11种优化方案供你参考,优化 SQL Server 数据库性能得从多个方面着手,包括硬件配置、数据库结构、查询优化、索引管理、分区分表、并行处理等。通过合理的索引、查询优化、数据分区等技术,可以在数据量增大时保持较好的性能。同时,定期进行数据库维护和清理,保证数据库高效运行。
|
2月前
|
SQL 资源调度 分布式计算
如何让SQL跑快一点?(优化指南)
这篇文章主要探讨了如何在阿里云MaxCompute(原ODPS)平台上对SQL任务进行优化,特别是针对大数据处理和分析场景下的性能优化。