【spark系列11】spark 的动态分区裁剪下(Dynamic partition pruning)-物理计划-阿里云开发者社区

【spark系列11】spark 的动态分区裁剪下(Dynamic partition pruning)-物理计划

2022-05-29 8063

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【spark系列11】spark 的动态分区裁剪下(Dynamic partition pruning)-物理计划

背景

本文基于delta 0.7.0

spark 3.0.1

spark 3.x引入了动态分区裁剪，在 spark 的动态分区裁剪上(Dynamic partition pruning)-逻辑计划我们提到在逻辑计划阶段会加入DynamicPruningSubquery，今天我们分析一下在物理阶段怎么对DynamicPruningSubquery进行优化以及实现的

分析

直接转到PlanDynamicPruningFilters的apply方法：

override def apply(plan: SparkPlan): SparkPlan = {
    if (!SQLConf.get.dynamicPartitionPruningEnabled) {
      return plan
    }
    plan transformAllExpressions {
      case DynamicPruningSubquery(
          value, buildPlan, buildKeys, broadcastKeyIndex, onlyInBroadcast, exprId) =>
        val sparkPlan = QueryExecution.createSparkPlan(
          sparkSession, sparkSession.sessionState.planner, buildPlan)
        // Using `sparkPlan` is a little hacky as it is based on the assumption that this rule is
        // the first to be applied (apart from `InsertAdaptiveSparkPlan`).
        val canReuseExchange = SQLConf.get.exchangeReuseEnabled && buildKeys.nonEmpty &&
          plan.find {
            case BroadcastHashJoinExec(_, _, _, BuildLeft, _, left, _) =>
              left.sameResult(sparkPlan)
            case BroadcastHashJoinExec(_, _, _, BuildRight, _, _, right) =>
              right.sameResult(sparkPlan)
            case _ => false
          }.isDefined
        if (canReuseExchange) {
          val mode = broadcastMode(buildKeys, buildPlan)
          val executedPlan = QueryExecution.prepareExecutedPlan(sparkSession, sparkPlan)
          // plan a broadcast exchange of the build side of the join
          val exchange = BroadcastExchangeExec(mode, executedPlan)
          val name = s"dynamicpruning#${exprId.id}"
          // place the broadcast adaptor for reusing the broadcast results on the probe side
          val broadcastValues =
            SubqueryBroadcastExec(name, broadcastKeyIndex, buildKeys, exchange)
          DynamicPruningExpression(InSubqueryExec(value, broadcastValues, exprId))
        } else if (onlyInBroadcast) {
          // it is not worthwhile to execute the query, so we fall-back to a true literal
          DynamicPruningExpression(Literal.TrueLiteral)
        } else {
          // we need to apply an aggregate on the buildPlan in order to be column pruned
          val alias = Alias(buildKeys(broadcastKeyIndex), buildKeys(broadcastKeyIndex).toString)()
          val aggregate = Aggregate(Seq(alias), Seq(alias), buildPlan)
          DynamicPruningExpression(expressions.InSubquery(
            Seq(value), ListQuery(aggregate, childOutputs = aggregate.output)))
        }
    }
  }

如果没有开启动态分区裁剪，则直接跳过

QueryExecution.createSparkPlan( sparkSession, sparkSession.sessionState.planner, buildPlan) 通过逻辑计划构造物理计划

判断是否reuseExchange,如果spark.sql.exchange.reuse配置为true，且存在join的是broadcastHashjoin，而且计算结果和要进行过滤的物理计划的结果一样，则进行下一步,

进行物理计划执行前的准备, 得到executedPlan

构建BroadcastExchangeExec，broadcastValues，InSubqueryExec,DynamicPruningExpression，BroadcastExchangeExec内部就是进行spark的broadcast操作

注意：这里的BroadcastExchangeExec会在ReuseExchange规则中被优化, 最终会被BroadcastQueryStageExec调用,从而公用同一个broacast的值

如果以上不满足，默认DynamicPruningExpression(Literal.TrueLiteral),也就是不会进行裁剪

如果不是broadcastHashjoin，但是能够加速，则按照需要过滤的key做一次聚合，之后再组成DynamicPruningExpression

至此动态裁剪的物理计划优化就分析完了

【spark系列11】spark 的动态分区裁剪下(Dynamic partition pruning)-物理计划

背景

分析

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【spark系列11】spark 的动态分区裁剪下(Dynamic partition pruning)-物理计划

背景

分析

热门文章

最新文章

相关课程

相关电子书