作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台。
端午节宅家,Spark + AI Summit 2020 在网上如火如荼。刚看了 Matei 先生的keynote,他对 Spark 10 年做了非常精彩的演讲和深情的回顾,不禁很多感想,却千头万绪。我想这次简单点,不啰嗦,直接挑个重点说吧,看下图。
这是我在 Youtube 上看的视频做的一个截图。这张 slide 无需解读,我相信大家都能看出以下几点。
第一. SQL 万物归宗,成为Spark 诸多语言 API 的核心,SparkSQL 和 Spark Core 以后就是一回事。大家可以收收心吧,做好 SQL 是没有问题的,围绕着 SQL 做优化还是王道。
第二. SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。
第三. 在所有云厂商里面,阿里云在 Spark 技术上继续保持领先水平。今年第二次冲顶的成绩在这儿明摆着,感谢 Matei 对我们的认可。阿里一边大力发展 Flink,在Spark 上也不忘投入,毕竟客户和生态在那儿。相信以后再也不用跟同学解释,阿里是不是不搞 Spark 了。值得提出的是,在不断冲顶成绩的背后,是我们扎实的持续的技术投入。我们在 SQL 优化器上,native 代码生成和执行上,在基于对象存储做缓存上,我们一直都在加大投入,经常光顾我们 Spark 社群公众号的同学应该对此都不会陌生,EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework。在这次大会上首次曝光的 Photon 项目,是不是在诸多方面有异曲同工之妙?说白了,架构层面的事情都优化完了,还是要回到native 层面,最后估计大家都是殊途同归,何况榨干机器这种事情在云上面尤其有着特别大的意义。关于Photon 引擎,这个后面找机会另文展开,这里先打住。
第四. 数砖跟云厂商的关系越来越和谐,也越来越自信了。其实相比较这次, 阿里云 E-MapReduce(EMR)在 TPC-DS 上第一次利用 Spark 冲顶,更具有突破性的意义。然而却是在今年,代表 Spark 背后的公司数砖,由Spark 作者在一年一度的最重要的这次大会上认可了这件事,毫无疑问值得玩味。一句话,Spark 的发展离不开云厂商,数砖也会继续拥抱和深耕云平台,开源和云厂商可以合作共赢。
Spark 10年了,相信这次大会有更多的东西可以去发掘。希望精彩继续,我也接着学习去了。祝大家节日愉快!
相关活动:
7月4日-5日,Apache Spark中国技术交流社区举办首次SPARK + AI SUMMIT 2020 中文精华版线上峰会,在北美summit结束第一时间为国内开发者奉上一场技术盛筵。本次活动由阿里云开发者社区牵头,联合阿里云计算平台、Databricks、达摩院、英特尔、领英,在超过覆盖五万开发者的渠道进行投票,票选出了12个最受关注的大会topic进行中文讲解,邀请十几位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。直播间链接 https://developer.aliyun.com/live/43188
推荐阅读:
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework
阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区近万人Spark技术同学在线提问答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!
对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。
Apache Spark技术交流社区公众号,微信扫一扫关注