文档备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

7月30日产品直播【EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework】

2020-07-30 1589

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。

主题：

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

时间：

7月30日周四 19:00

参与直播方式：

扫描下方钉钉二维码进群，届时是直接观看
或届时进入直播间
https://developer.aliyun.com/live/43579

议题简介：

EMR团队探索并开发了SparkSQL Native Codegen框架，为SparkSQL换了引擎，新引擎带来最高4倍性能提升，为EMR再次获取世界第一立下汗马功劳，本次直播将详细介绍Native Codegen框架。

讲师简介：

周克勇，花名一锤，阿里巴巴计算平台事业部EMR团队技术专家，大数据领域技术爱好者，对Spark有浓厚兴趣和一定的了解，目前主要专注于EMR产品中开源计算引擎的优化工作。

参考文章

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

文章标签：

开源大数据平台 E-MapReduce

分布式计算

Spark

大数据

关键词：

SQL性能

SQL优化

emr spark

emr apache spark

apache spark性能

阿里云E-MapReduce团队

目录

相关文章

阿里云大数据

|

SQL 分布式计算 Serverless

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求，采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升，支持业务快速发展、计算效率提升，增强SLA保障，稳定性提升，降低运维成本，并支撑全球化数据架构部署。

阿里云大数据

1471 56 57

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

蓝易云

|

9月前

|

SQL 存储监控

SQL日志优化策略：提升数据库日志记录效率

通过以上方法结合起来运行调整方案, 可以显著地提升SQL环境下面向各种搜索引擎服务平台所需要满足标准条件下之数据库登记作业流程综合表现; 同时还能确保系统稳健运行并满越用户体验预期目标.

蓝易云

435 6 6

程序员小假

|

9月前

|

SQL 关系型数据库 MySQL

为什么这些 SQL 语句逻辑相同，性能却差异巨大？

我是小假期待与你的下一次相遇 ~

程序员小假

363 0 0

技术自由圈/原疯狂创客圈

|

SQL 存储自然语言处理

SQL的解析和优化的原理：一条sql 执行过程是什么？

SQL的解析和优化的原理：一条sql 执行过程是什么？

技术自由圈/原疯狂创客圈

496 3 3

SQL的解析和优化的原理：一条sql 执行过程是什么？

探索云世界

|

人工智能分布式计算 DataWorks

一体系数据平台的进化：基于阿里云 EMR Serverless Spark 的持续演进

本文介绍了一体系汽配供应链平台如何借助阿里云EMR Serverless Spark实现从传统Hadoop平台向云原生架构的迁移。通过融合高质量零部件供应与创新互联网科技，一体系利用EMR Serverless Spark和DataWorks构建高效数据分析体系，解决大规模数据处理瓶颈。方案涵盖实时数据集成、Lakehouse搭建、数仓分层设计及BI/ML应用支持，显著提升数据处理性能与业务响应速度，降低运维成本，为数字化转型奠定基础。最终实现研发效率提升、运维压力减轻，并推动AI技术深度整合，迈向智能化云原生数据平台。

探索云世界

467 4 4

大熊计算机

|

SQL 关系型数据库 PostgreSQL

CTE vs 子查询：深入拆解PostgreSQL复杂SQL的隐藏性能差异

本文深入探讨了PostgreSQL中CTE（公共表表达式）与子查询的选择对SQL性能的影响。通过分析两者底层机制，揭示CTE的物化特性及子查询的优化融合优势，并结合多场景案例对比执行效率。最终给出决策指南，帮助开发者根据数据量、引用次数和复杂度选择最优方案，同时提供高级优化技巧和版本演进建议，助力SQL性能调优。

大熊计算机

1456 1 1

游客mass6jalwg5qm

|

SQL 关系型数据库 MySQL

如何优化SQL查询以提高数据库性能？

这篇文章以生动的比喻介绍了优化SQL查询的重要性及方法。它首先将未优化的SQL查询比作在自助餐厅贪多嚼不烂的行为，强调了只获取必要数据的必要性。接着，文章详细讲解了四种优化策略：**精简选择**（避免使用`SELECT *`）、**专业筛选**（利用`WHERE`缩小范围）、**高效联接**（索引和限制数据量）以及**使用索引**（加速搜索）。此外，还探讨了如何避免N+1查询问题、使用分页限制结果、理解执行计划以及定期维护数据库健康。通过这些技巧，可以显著提升数据库性能，让查询更高效流畅。

游客mass6jalwg5qm

711 18 18

素履

|

SQL 缓存分布式计算

Spark性能调优与故障处理

Spark性能调优 Spark数据倾斜 Spark Troubleshooting

素履

789 0 1

大熊计算机

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

697 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

分布式快照算法: Chandy-Lamport

JindoFS: 云上大数据的高性能数据湖存储方案

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

JindoFS解析 - 云上大数据高性能数据湖存储方案

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

HIVE MapJoin异常问题处理总结

5W1H(六何分析法)全景洞察大数据

Apache Spark 3.0 将内置支持 GPU 调度

钉钉群直播【Spark Relational Cache 原理和实践】

HBase写性能优化

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

从数据湖到多模态湖仓-基于阿里云 EMR Serverless StarRocks 与 DLF Paimon 构建AI时代的统一分析检索架构

优路教育借助阿里云Flink+StarRocks+Paimon湖仓一体化构建职业教育业务全链路实时数据服务平台

OpenClaw + QQ 机器人！保姆级图文教程，一步到位

1688商品详情API（1688.item_get）Python实战：构建B2B供应链数据中台

迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

一套底座支撑多场景：高德地图基于 Paimon + StarRocks 轨迹服务实践

相关课程

更多

如何在 PolarDB-X 中优化慢 SQL

SQL完全自学手册

SQL Server on Linux入门教程

SQL入门与实践

数据库及SQL/MySQL基础

SQL进阶及查询

相关电子书

更多

SQL Server在电子商务中的应用与实践

GeoMesa on Spark SQL

原生SQL on Hadoop引擎- Apache HAWQ 2.x最新技术解密malili

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！