SPARK中的wholeStageCodegen全代码生成--以aggregate代码生成为例说起（10）-阿里云开发者社区

SPARK中的wholeStageCodegen全代码生成--以aggregate代码生成为例说起（10）

2022-10-09 180

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SPARK中的wholeStageCodegen全代码生成--以aggregate代码生成为例说起（10）

背景

本文基于 SPARK 3.3.0

从一个unit test来探究SPARK Codegen的逻辑，

  test("SortAggregate should be included in WholeStageCodegen") {
    val df = spark.range(10).agg(max(col("id")), avg(col("id")))
    withSQLConf("spark.sql.test.forceApplySortAggregate" -> "true") {
      val plan = df.queryExecution.executedPlan
      assert(plan.exists(p =>
        p.isInstanceOf[WholeStageCodegenExec] &&
          p.asInstanceOf[WholeStageCodegenExec].child.isInstanceOf[SortAggregateExec]))
      assert(df.collect() === Array(Row(9, 4.5)))
    }
  }

该sql形成的执行计划第二部分的全代码生成部分如下：

WholeStageCodegen
*(2) SortAggregate(key=[], functions=[max(id#0L), avg(id#0L)], output=[max(id)#5L, avg(id)#6])
   InputAdapter
+- Exchange SinglePartition, ENSURE_REQUIREMENTS, [id=#13]

分析

第二阶段wholeStageCodegen

第二阶段的代码生成涉及到SortAggregateExec和ShuffleExchangeExec以及InputAdapter的produce和consume方法，这里一一来分析：

第二阶段wholeStageCodegen数据流如下：

 WholeStageCodegenExec      SortAggregateExec(Final)      InputAdapter       ShuffleExchangeExec        
  ====================================================================================
  -> execute()
      |
   doExecute() --------->   inputRDDs() -----------------> inputRDDs() -------> execute()
      |                                                                            |
   doCodeGen()                                                                  doExecute()     
      |                                                                            |
      +----------------->   produce()                                           ShuffledRowRDD
                              |
                           doProduce() 
                              |
                           doProduceWithoutKeys() -------> produce()
                                                              |
                                                          doProduce()
                                                              |
                           doConsume() <------------------- consume()
                              |
                           doConsumeWithoutKeys()
                              |并不是doConsumeWithoutKeys调用consume,而是由doProduceWithoutKeys调用
   doConsume()  <--------  consume()

SortAggregateExec(Final) 的inputRDDs()

val rdds = child.asInstanceOf[CodegenSupport].inputRDDs()

调用的是子类的inputRDDS,也就是SortAggregateExec的inputRDDS方法，最终调用到InputAdaptor的inputRDD方法：

  override def inputRDD: RDD[InternalRow] = child.execute()

,也就是调用的是ShuffleExchangeExec的execute方法：

protected override def doExecute(): RDD[InternalRow] = {

// Returns the same ShuffleRowRDD if this plan is used by multiple plans.
if (cachedShuffleRDD == null) {
  cachedShuffleRDD = new ShuffledRowRDD(shuffleDependency, readMetrics)
}
cachedShuffleRDD
 ```
 这样整个链路就串联起来了。

SPARK中的wholeStageCodegen全代码生成--以aggregate代码生成为例说起（10）

背景

分析

SortAggregateExec(Final) 的inputRDDs()

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

SPARK中的wholeStageCodegen全代码生成--以aggregate代码生成为例说起（10）

背景

分析

SortAggregateExec(Final) 的inputRDDs()

热门文章

最新文章

相关课程

相关电子书