SPARK的计算向量化-spark本身的向量化-阿里云开发者社区

SPARK的计算向量化-spark本身的向量化

2022-05-29 526

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SPARK的计算向量化-spark本身的向量化

背景

我们知道，随着计算引擎战争的结束（SPARK赢得了离线处理的霸权），越来越多的公司致力于性能的优化，而引擎的优化，目前直指计算的向量化，

这片文章来说说spark本身对于向量化的实现。

spark本身的优化

我们都知道spark的Tungsten项目，这个项目中有一点就是Code Generation（代码生成）。代码生成除了消除虚函数的调用等功能外，其实在向量化这块也是做了处理的。

直接跳到ColumnarToRowExec代码：

val columnarBatchClz = classOf[ColumnarBatch].getName
    val batch = ctx.addMutableState(columnarBatchClz, "batch")
  ...
 val localIdx = ctx.freshName("localIdx")
    val localEnd = ctx.freshName("localEnd")
    val numRows = ctx.freshName("numRows")
    val shouldStop = if (parent.needStopCheck) {
      s"if (shouldStop()) { $idx = $rowidx + 1; return; }"
    } else {
      "// shouldStop check is eliminated"
    }
    s"""
       |if ($batch == null) {
       |  $nextBatchFuncName();
       |}
       |while ($limitNotReachedCond $batch != null) {
       |  int $numRows = $batch.numRows();
       |  int $localEnd = $numRows - $idx;
       |  for (int $localIdx = 0; $localIdx < $localEnd; $localIdx++) {
       |    int $rowidx = $idx + $localIdx;
       |    ${consume(ctx, columnsBatchInput).trim}
       |    $shouldStop
       |  }
       |  $idx = $numRows;
       |  $batch = null;
       |  $nextBatchFuncName();
       |}
     """.stripMargin

spark中向量化的核心就在于这块代码中，这块代码主要的就是ColumnarBatch,也就是列批，这种列批的数据结构，用FOR循环这种方式进行数据的访问，

这在JIT中会进行优化（优化成向量化）。

而这里还有一个重点就是：Parquet或者ORC这种列式存储，读取出来的时候，天然就是一个列批的数据结构，很方便做向量化操作。

但是，利用JIT进行向量化是有缺点的：

利用了JIT进行优化，这个是需要编译器追踪循环的次数的，如果循环次数不够，就不会进行进行JIT，也就无法做到向量化。

所以好多公司把这种着力于用其他语句实现来进行真正意义上的向量化。

参考

本文参考了

深度解读｜Spark 中 CodeGen 与向量化技术的研究

Velox: 现代化的向量化执行引擎

SPARK的计算向量化-spark本身的向量化

背景

spark本身的优化

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

SPARK的计算向量化-spark本身的向量化

背景

spark本身的优化

热门文章

最新文章

相关课程

相关电子书