在SPARK SUMMIT 2017上,Berni Schiefer IBM, Spark Technology Center分享了题为《Spark SQL 2.0/2.1 Experiences using TPC-DS》,就TPC-DS Elapsed Time,Spark 2.2等方面的内容做了深入的分析。
https://yq.aliyun.com/download/2078?spm=a2c4e.11154804.0.0.37ce6a79w9d507
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在2017年的Spark SUMMIT上,Berni Schiefer来自IBM Spark Technology Center分享了题为《Spark SQL 2.0/2.1 Experiences using TPC-DS》的演讲,该演讲深入探讨了TPC-DS性能测试中的Elapsed Time(执行时间)问题,并对Spark 2.2版本在TPC-DS基准测试中的表现进行了分析。虽然直接的演讲内容细节未在提供的知识库资料中展示,但我们可以根据TPC-DS在Spark环境下的运行实践,推测其可能涵盖的关键点和优化建议。
Spark SQL 2.0/2.1性能提升:演讲可能详细讨论了Spark SQL 2.0及2.1版本相较于之前版本在处理TPC-DS数据集时的性能改进,包括查询优化器的增强、 Catalyst表达式优化以及代码生成等方面的进步。
TPC-DS Elapsed Time分析:针对TPC-DS测试套件,演讲者可能展示了不同SQL查询的执行时间,对比了Spark 2.0/2.1与更早版本或竞争对手的性能差异,强调了Spark如何通过内存计算、DAG执行模型减少数据读写延迟来缩短查询时间。
Spark 2.2新特性与性能影响:提及Spark 2.2版本的新功能,如更好的Tungsten执行引擎优化、自适应查询执行(AQE)等,这些特性如何进一步降低查询响应时间和提高资源利用率。
配置与调优建议:鉴于TPC-DS Benchmark在Spark集群上的执行,演讲或许提供了关于如何调整Spark配置以应对大规模数据集测试的具体指导,比如适当增加spark_thrift_daemon_memory
值以避免OutOfMemory错误。
实战操作指南:分享了在EMR集群上使用Spark Beeline或Hive运行TPC-DS SQL的步骤,包括如何利用Spark SQL工具集进行数据加载、表统计信息获取以及单个或批量执行SQL脚本的实践细节。
综上所述,尽管没有直接引用演讲的具体内容,但结合Spark在TPC-DS基准测试中的通用实践和优化方向,可以构建出上述可能涉及的核心议题和实用建议框架。