Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。

作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台。


端午节宅家,Spark + AI Summit 2020 在网上如火如荼。刚看了 Matei 先生的keynote,他对 Spark 10 年做了非常精彩的演讲和深情的回顾,不禁很多感想,却千头万绪。我想这次简单点,不啰嗦,直接挑个重点说吧,看下图。

这是我在 Youtube 上看的视频做的一个截图。这张 slide 无需解读,我相信大家都能看出以下几点。
A11E2E41-5DB2-4040-BCAD-5C2058808003.png

第一. SQL 万物归宗,成为Spark 诸多语言 API 的核心,SparkSQL 和 Spark Core 以后就是一回事。大家可以收收心吧,做好 SQL 是没有问题的,围绕着 SQL 做优化还是王道。

第二. SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。

第三. 在所有云厂商里面,阿里云在 Spark 技术上继续保持领先水平。今年第二次冲顶的成绩在这儿明摆着,感谢 Matei 对我们的认可。阿里一边大力发展 Flink,在Spark 上也不忘投入,毕竟客户和生态在那儿。相信以后再也不用跟同学解释,阿里是不是不搞 Spark 了。值得提出的是,在不断冲顶成绩的背后,是我们扎实的持续的技术投入。我们在 SQL 优化器上,native 代码生成和执行上,在基于对象存储做缓存上,我们一直都在加大投入,经常光顾我们 Spark 社群公众号的同学应该对此都不会陌生,EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework。在这次大会上首次曝光的 Photon 项目,是不是在诸多方面有异曲同工之妙?说白了,架构层面的事情都优化完了,还是要回到native 层面,最后估计大家都是殊途同归,何况榨干机器这种事情在云上面尤其有着特别大的意义。关于Photon 引擎,这个后面找机会另文展开,这里先打住。

第四. 数砖跟云厂商的关系越来越和谐,也越来越自信了。其实相比较这次, 阿里云 E-MapReduce(EMR)在 TPC-DS 上第一次利用 Spark 冲顶,更具有突破性的意义。然而却是在今年,代表 Spark 背后的公司数砖,由Spark 作者在一年一度的最重要的这次大会上认可了这件事,毫无疑问值得玩味。一句话,Spark 的发展离不开云厂商,数砖也会继续拥抱和深耕云平台,开源和云厂商可以合作共赢。

Spark 10年了,相信这次大会有更多的东西可以去发掘。希望精彩继续,我也接着学习去了。祝大家节日愉快!


相关活动:

我们欠国内Spark开发者的,用一场掷地有声的中文峰会来还

1920-1080 banner.jpg
7月4日-5日,Apache Spark中国技术交流社区举办首次SPARK + AI SUMMIT 2020 中文精华版线上峰会,在北美summit结束第一时间为国内开发者奉上一场技术盛筵。本次活动由阿里云开发者社区牵头,联合阿里云计算平台、Databricks、达摩院、英特尔、领英,在超过覆盖五万开发者的渠道进行投票,票选出了12个最受关注的大会topic进行中文讲解,邀请十几位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。直播间链接 https://developer.aliyun.com/live/43188


推荐阅读:
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework


阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区近万人Spark技术同学在线提问答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!
image.png

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。

image.png

Apache Spark技术交流社区公众号,微信扫一扫关注

image.png

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
2月前
|
分布式计算 Apache 数据安全/隐私保护
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
流计算引擎数据问题之在 Spark Structured Streaming 中水印计算和使用如何解决
42 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
3D智能导诊系统源码,基于AI引擎,针对患者的病情及症状,结合性别年龄特征,智能推荐医院科室
智能导诊系统是一款基于AI技术的医疗辅助工具,利用自然语言处理和机器学习分析患者病情,精准推荐科室和医生。系统支持按性别分类导诊,设有3D人体模型辅助定位症状,界面简洁易操作。采用B/S架构,可无缝对接HIS数据库,支持多种接入形式,包括公众号、小程序和App,有效提升就诊效率并减轻医护人员负担。
|
2月前
|
人工智能 数据可视化 API
Dify-生成式 AI 应用创新引擎,本地搭建以及使用
Dify-生成式 AI 应用创新引擎,本地搭建以及使用
809 1
|
3月前
|
分布式计算 Apache Spark
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
|
4月前
|
机器学习/深度学习 人工智能
可控核聚变新里程碑,AI首次实现双托卡马克3D场全自动优化,登Nature子刊
【6月更文挑战第4天】AI在可控核聚变研究中实现双托卡马克装置3D磁场全自动优化,助力抑制边缘能量爆发(ELMs),提升核聚变性能90%,成果登上《自然通讯》。虽有ELMs少量出现及装置适应性问题,但这一突破为经济可行的核聚变能源发展迈出重要步伐。[论文链接](https://www.nature.com/articles/s41467-024-48415-w)
79 1
|
5月前
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
|
5月前
|
机器学习/深度学习 数据采集 人工智能
KAN核心团队震撼力作!MIT华人用AI首次发现物理学全新方程
【5月更文挑战第21天】MIT华人科研团队运用AI开发OptPDE工具,首次找到3个新可积PDE家族,增强人类在物理学方程发现中的能力。OptPDE通过优化PDE系数最大化守恒量,CQFinder自动识别守恒量,二者协同工作,重新发现KdV方程并揭示新方程的特殊性质。该研究展示AI与人类科学家合作的潜力,为复杂问题解决开辟新路径。论文链接:https://arxiv.org/abs/2405.04484
88 3
|
5月前
|
机器学习/深度学习 分布式计算 数据处理
Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎,可以进行大规模数据处理和分析
105 3