开发者社区问答正文

Cost-Based Optimizer in Apache Spark 2.2

Ron Hu等在Spark Summit 2017上做了主题为《Cost-Based Optimizer in Apache Spark 2.2》的演讲，就statistics collection 框架和基础优化组合等进行了深入的分享。

https://yq.aliyun.com/download/424?spm=a2c4e.11154804.0.0.4df76a79Ww2lUW

展开

收起

福利达人 2018-05-27 18:15:06 1115 版权

阿里云 AI 助理回答

Ron Hu在Spark Summit 2017上的演讲《Cost-Based Optimizer in Apache Spark 2.2》确实是一个非常有价值的内容，它深入探讨了Apache Spark 2.2中引入的成本基础优化器（Cost-Based Optimizer, CBO）的细节。这个优化器对于提升Spark SQL查询性能有着重要意义。

Statistics Collection 框架

在Spark 2.2中，为了支持CBO，引入了一个更加强大的statistics collection框架。这个框架负责收集和维护表、列的各种统计信息，比如表的大小、列的唯一值数量（即基数）、列的最大最小值等。这些统计信息对于优化器来说至关重要，因为它们帮助优化器做出更加精准的执行计划选择，从而减少数据扫描量，提高查询效率。

基础优化组合

CBO的核心在于能够基于收集到的统计信息评估不同查询执行计划的成本，并选择成本最低的方案来执行。这包括但不限于：

Join Reorder：通过分析表之间的连接关系和大小，重新排序连接顺序，以减少中间结果集的大小。
Partition Pruning：利用分区信息剔除不必要的数据读取，只读取与查询条件匹配的分区。
Predicate Pushdown：将过滤条件尽可能下推到数据读取阶段，减少后续处理的数据量。
Column Pruning：仅读取查询中实际需要的列，避免全表扫描。

阿里云产品关联

阿里云的MaxCompute（原名ODPS）作为一个大数据处理平台，也深度集成了类似的成本优化技术。MaxCompute不仅支持丰富的SQL查询功能，还内置了先进的优化策略，确保大数据作业高效运行。例如，MaxCompute会自动进行分区剪枝、列剪枝等优化，同时提供详尽的表和列统计信息管理功能，用户可以通过MaxCompute的SQL接口或者DataWorks等工具来管理这些统计信息，进一步提升查询性能。

如果您对如何在阿里云MaxCompute或EMR（Elastic MapReduce，阿里云的托管Hadoop/Spark服务）上应用这些优化技术感兴趣，可以参考官方文档和最佳实践指南，了解如何配置和利用CBO以及其他高级优化特性，以达到最优的大数据处理效果。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 Apache Spark

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Cost-Based Optimizer in Apache Spark 2.2

Statistics Collection 框架

基础优化组合

阿里云产品关联

相关文章