SparkSQL自适应执行

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。

阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能。

解决哪些问题

SparkSQL自适应执行解决以下问题:

shuffle partition个数

目前SparkSQL中reduce阶段的task个数取决于固定参数spark.sql.shuffle.partition(默认值200),一个作业一旦设置了该参数,它运行过程中的所有阶段的reduce个数都是同一个值。

而对于不同的作业,以及同一个作业内的不同reduce阶段,实际的数据量大小可能相差很大,比如reduce阶段要处理的数据可能是10MB,也有可能是100GB, 如果使用同一个值对实际运行效率会产生很大影响,比如10MB的数据一个task就可以解决,如果spark.sql.shuffle.partition使用默认值200的话,那么10MB的数据就要被分成200个task处理,增加了调度开销,影响运行效率。

SparkSQL自适应框架可以通过设置shuffle partition的上下限区间,在这个区间内对不同作业不同阶段的reduce个数进行动态调整。

通过区间的设置,一方面可以大大减少调优的成本(不需要找到一个固定值),另一方面同一个作业内部不同reduce阶段的reduce个数也能动态调整。

参数:

属性名称 默认值 备注
spark.sql.adaptive.enabled false 自适应执行框架的开关
spark.sql.adaptive.minNumPostShufflePartitions 1 reduce个数区间最小值
spark.sql.adaptive.maxNumPostShufflePartitions 500 reduce个数区间最大值
spark.sql.adaptive.shuffle.targetPostShuffleInputSize 67108864 动态调整reduce个数的partition大小依据,如设置64MB则reduce阶段每个task最少处理64MB的数据
spark.sql.adaptive.shuffle.targetPostShuffleRowCount 20000000 动态调整reduce个数的partition条数依据,如设置20000000则reduce阶段每个task最少处理20000000条的数据

数据倾斜

join中会经常碰到数据倾斜的场景,导致某些task处理的数据过多,出现很严重的长尾。目前SparkSQL没有对倾斜的数据进行相关的优化处理。

SparkSQL自适应框架可以根据预先的配置在作业运行过程中自动检测是否出现倾斜,并对检测到的倾斜进行优化处理。

优化的主要逻辑是对倾斜的partition进行拆分由多个task来进行处理,最后通过union进行结果合并。

支持的Join类型:

join类型 备注
Inner 左/右表均可处理倾斜
Cross 左/右表均可处理倾斜
LeftSemi 只对左表处理倾斜
LeftAnti 只对左表处理倾斜
LeftOuter 只对左表处理倾斜
RightOuter 只对右表处理倾斜

参数:

属性名称 默认值 备注
spark.sql.adaptive.enabled false 自适应执行框架的开关
spark.sql.adaptive.skewedJoin.enabled false 倾斜处理开关
spark.sql.adaptive.skewedPartitionFactor 10 当一个partition的size大小 大于 该值(所有parititon大小的中位数) 且 大于spark.sql.adaptive.skewedPartitionSizeThreshold,或者parition的条数 大于 该值(所有parititon条数的中位数) 且 大于 spark.sql.adaptive.skewedPartitionRowCountThreshold, 才会被当做倾斜的partition进行相应的处理
spark.sql.adaptive.skewedPartitionSizeThreshold 67108864 倾斜的partition大小不能小于该值
spark.sql.adaptive.skewedPartitionRowCountThreshold 10000000 倾斜的partition条数不能小于该值
spark.shuffle.statistics.verbose false 打开后MapStatus会采集每个partition条数的信息,用于倾斜处理

Runtime执行计划优化

SparkSQL的Catalyst优化器会将sql语句转换成物理执行计划,然后真正运行物理执行计划。但是Catalyst转换物理执行计划的过程中,由于缺少Statistics统计信息,或者Statistics统计信息不准等原因,会到时转换的物理执行计划可能并不是最优的,比如转换为SortMergeJoinExec,但实际BroadcastJoin更合适。

SparkSQL自适应执行框架会在物理执行计划真正运行的过程中,动态的根据shuffle阶段shuffle write的实际数据大小,来调整是否可以用BroadcastJoin来代替SortMergeJoin,提高运行效率。

参数:

属性名称 默认值 备注
spark.sql.adaptive.enabled false 自适应执行框架的开关
spark.sql.adaptive.join.enabled true 开关
spark.sql.adaptiveBroadcastJoinThreshold 等于spark.sql.autoBroadcastJoinThreshold 运行过程中用于判断是否满足BroadcastJoin条件

测试

以TPC-DS中某些query为例

shuffle partition个数

query30
原生Spark:
image

自适应调整reduce个数:
image

Runtime执行计划优化(SortMergeJoin转BroadcastJoin)

image

自适应转换为BroadcastJoin
image

欢迎加入E-MapReduce用户群
c7c8f09ebf3cc7795e0dd0da330cec88

目录
相关文章
|
2月前
|
存储 缓存 Apache
StarRocks+Paimon 落地阿里日志采集:万亿级实时数据秒级查询
A+流量分析平台是阿里集团统一的全域流量数据分析平台,致力于通过埋点、采集、计算构建流量数据闭环,助力业务提升流量转化。面对万亿级日志数据带来的写入与查询挑战,平台采用Flink+Paimon+StarRocks技术方案,实现高吞吐写入与秒级查询,优化存储成本与扩展性,提升日志分析效率。
271 1
|
机器学习/深度学习 搜索推荐 算法
多任务学习之mmoe理论详解与实践
多任务学习之mmoe理论详解与实践
多任务学习之mmoe理论详解与实践
|
存储 SQL druid
什么是Druid
什么是Druid
5183 1
什么是Druid
|
机器学习/深度学习 编解码 自然语言处理
【自然语言处理NLP】社区发现快速入门(1)
【自然语言处理NLP】社区发现快速入门
427 2
|
数据采集 数据挖掘 Python
微博热搜的爬虫实现
微博热搜的爬虫实现
382 2
|
10月前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
SQL 分布式计算 HIVE
sparksql 参数调优
sparksql 参数调优
|
Python
【已解决】Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
【已解决】Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
642 0
|
SQL 存储 关系型数据库
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
1615 0
|
Linux 数据安全/隐私保护
Red Hat 8 重置root管理员密码
Red Hat 8 重置root管理员密码
538 0