Paimon与Spark

2024-04-10 319

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Paimon与Spark

Paimon与Spark的深度集成：查询性能优化实践

，数据湖存储技术的发展日新月异。Apache Paimon，作为流式数据湖存储技术的新星，正以其高吞吐、低延迟的特性，为用户提供了强大的数据摄入、流式订阅以及实时查询能力。本文将分享我们在Paimon与Spark集成过程中的关键优化实践，通过一系列创新举措，我们将Paimon x Spark的性能提升了37%以上，使其与Parquet x Spark持平。接下来，让我们一起探索这些优化点的奥秘。

动态分区裁剪（Dynamic Partition Prunning, DPP）

动态分区裁剪是SQL优化中的一个常见技术，它通过谓词下推（Predicate PushDown）的方式，最小化从数据源中读取数据的IO成本，从而降低计算成本。在数仓场景中，我们经常需要将大的事实表与小的维度表进行关联查询，DPP在这里发挥了重要作用。通过Paimon的Spark DataSource V2查询框架，我们实现了动态分区裁剪的能力，显著减少了参与Join操作的数据量，大幅提升了查询性能。

Exchange复用

在Spark中，Exchange是物理计划中的关键操作，对应逻辑计划中的Shuffle。在复杂的SQL中，通过公共表表达式（CTE）定义的SQL片段可能会被多次使用。Exchange复用优化允许这些数据只被执行一次，然后缓存起来供后续操作使用，减少了冗余计算和IO网络开销。我们解决了Paimon中的实现问题，使得Paimon能够使用Spark提供的Exchange复用优化。

动态调整Scan并发

任务执行时的并发度是影响作业性能的关键因素之一。在DataSource V2框架下，Paimon提供了基于当前作业可用core数动态调整数据源的数据分片的能力，从而提升了查询效率。这一优化使得Paimon在执行复杂查询时表现出色。

合并标量子查询

合并标量子查询优化通过遍历整个SQL逻辑执行计划，提取出标量子查询，并尝试将多个标量子查询合并起来，减少了冗余的计算。我们在Paimon侧单独实现了这一优化，并通过Spark的Extensions接口将优化注入到了Spark优化器中。

Cost-Based优化

基于成本的优化（CBO）是Spark SQL中用于提升查询性能的重要工具，尤其在多路Join场景中效果显著。Paimon在元数据中增加了statistics信息，并通过Spark Analyze命令完成收集，使得Spark SQL可以利用Paimon的表级/列级信息进行查询优化。

优化效果

通过上述优化，Paimon x Spark的性能得到了显著提升。在没有column级统计信息的情况下，优化后的Paimon与Parquet已经基本持平。当开启column级统计信息后，Paimon的性能虽然略逊于Parquet，但差距已经在缩小，这也是我们未来优化工作的重点方向之一。

后续规划

在湖仓体系下，读写查询优化是一项长期而艰巨的任务。我们将继续推进Paimon充分利用Spark SQL现有的优化规则和框架，并利用Paimon自身的特性，如Index或Clustering等，进一步提升性能。同时，我们也在规划对append表支持Upsert能力，以满足更多无主键表的使用场景。

Paimon与Spark

Paimon与Spark的深度集成：查询性能优化实践

动态分区裁剪（Dynamic Partition Prunning, DPP）

Exchange复用

动态调整Scan并发

合并标量子查询

Cost-Based优化

优化效果

后续规划

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Paimon与Spark

Paimon与Spark的深度集成：查询性能优化实践

动态分区裁剪（Dynamic Partition Prunning, DPP）

Exchange复用

动态调整Scan并发

合并标量子查询

Cost-Based优化

优化效果

后续规划

热门文章

最新文章

相关课程

相关电子书