Spark 10年,作者 Matei 在 Spark + AI Summit 2020 上深情回顾,Photon 引擎首次曝光

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 在Spark + AI Summit 2020上, Matei 先生的keynote对 Spark 10 年做了非常精彩的演讲和深情的回顾。SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。

作者:郑锴,花名铁杰,阿里巴巴高级技术专家,Apache Hadoop PMC,Apache Kerby 创立者。深耕分布式系统开发和开源大数据多年,目前专注于在阿里云上提供更好用更有弹性的 Hadoop/Spark 大数据平台。


端午节宅家,Spark + AI Summit 2020 在网上如火如荼。刚看了 Matei 先生的keynote,他对 Spark 10 年做了非常精彩的演讲和深情的回顾,不禁很多感想,却千头万绪。我想这次简单点,不啰嗦,直接挑个重点说吧,看下图。

这是我在 Youtube 上看的视频做的一个截图。这张 slide 无需解读,我相信大家都能看出以下几点。
A11E2E41-5DB2-4040-BCAD-5C2058808003.png

第一. SQL 万物归宗,成为Spark 诸多语言 API 的核心,SparkSQL 和 Spark Core 以后就是一回事。大家可以收收心吧,做好 SQL 是没有问题的,围绕着 SQL 做优化还是王道。

第二. SparkSQL 重回巅峰,在性能上大幅超越 Presto。在过去几年,我们见过了太多的 benchmark,大家都在纷纷超越 Spark。Spark 3.0 这一进展可以说大大提振了大家对 Spark 的信心,可谓及时雨。

第三. 在所有云厂商里面,阿里云在 Spark 技术上继续保持领先水平。今年第二次冲顶的成绩在这儿明摆着,感谢 Matei 对我们的认可。阿里一边大力发展 Flink,在Spark 上也不忘投入,毕竟客户和生态在那儿。相信以后再也不用跟同学解释,阿里是不是不搞 Spark 了。值得提出的是,在不断冲顶成绩的背后,是我们扎实的持续的技术投入。我们在 SQL 优化器上,native 代码生成和执行上,在基于对象存储做缓存上,我们一直都在加大投入,经常光顾我们 Spark 社群公众号的同学应该对此都不会陌生,EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework。在这次大会上首次曝光的 Photon 项目,是不是在诸多方面有异曲同工之妙?说白了,架构层面的事情都优化完了,还是要回到native 层面,最后估计大家都是殊途同归,何况榨干机器这种事情在云上面尤其有着特别大的意义。关于Photon 引擎,这个后面找机会另文展开,这里先打住。

第四. 数砖跟云厂商的关系越来越和谐,也越来越自信了。其实相比较这次, 阿里云 E-MapReduce(EMR)在 TPC-DS 上第一次利用 Spark 冲顶,更具有突破性的意义。然而却是在今年,代表 Spark 背后的公司数砖,由Spark 作者在一年一度的最重要的这次大会上认可了这件事,毫无疑问值得玩味。一句话,Spark 的发展离不开云厂商,数砖也会继续拥抱和深耕云平台,开源和云厂商可以合作共赢。

Spark 10年了,相信这次大会有更多的东西可以去发掘。希望精彩继续,我也接着学习去了。祝大家节日愉快!


相关活动:

我们欠国内Spark开发者的,用一场掷地有声的中文峰会来还

1920-1080 banner.jpg
7月4日-5日,Apache Spark中国技术交流社区举办首次SPARK + AI SUMMIT 2020 中文精华版线上峰会,在北美summit结束第一时间为国内开发者奉上一场技术盛筵。本次活动由阿里云开发者社区牵头,联合阿里云计算平台、Databricks、达摩院、英特尔、领英,在超过覆盖五万开发者的渠道进行投票,票选出了12个最受关注的大会topic进行中文讲解,邀请十几位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。直播间链接 https://developer.aliyun.com/live/43188


推荐阅读:
Apache Spark 3.0.0 正式版终于发布了,重要特性全面解析
EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework


阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区近万人Spark技术同学在线提问答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!
image.png

对开源大数据和感兴趣的同学可以加小编微信(下图二维码,备注“进群”)进入技术交流微信群。

image.png

Apache Spark技术交流社区公众号,微信扫一扫关注

image.png

相关文章
|
2月前
|
存储 人工智能 自然语言处理
AI在法律行业难以从简单工具转变为认知引擎,法律知识图谱如何解决这一难题?
本文AI产品专家三桥君探讨了AI如何从法律行业的辅助工具升级为具备认知能力的智能引擎。通过构建法律知识图谱,AI可实现法条精准引用、案件智能分析等核心功能,解决法律语义鸿沟和动态更新等挑战。三桥君介绍了知识图谱的构建过程及其在案件匹配、法条推理中的应用场景,并展示了智能助理在录音转写、案例检索、文书生成等实务中的落地价值。三桥君认为,法律知识图谱将推动AI从工具属性向认知引擎跃迁,提升法律服务效率与透明度。
84 1
|
4月前
|
人工智能 缓存 安全
算力引擎如何按下 AI 落地加速键?
本文探讨了AI时代企业对算力的新需求及应对策略,涵盖高吞吐与实时性、向量数据库挑战、隐私保护与成本控制等关键议题。文章还分析了垂直场景下的算力解决方案,如PolarDB的“Data+AI”理念和身份安全领域的多模态检测系统。同时介绍了英特尔至强六代处理器与阿里云G9i实例的创新实践,并展望了AI未来发展趋势,强调降低门槛、多元算力生态建设及端到端工程化思维的重要性。
|
4月前
|
人工智能 Cloud Native 安全
云原生+AI 为企业出海提供全新技术引擎!明天见
5月22日 14:00「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强将重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的全球一体化架构、开箱即用的云原生 AI 工程化能力,为中国企业出海提供全新技术引擎。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
FastRead——AI驱动的智能读写生产力引擎,重构信息处理与内容创作新范式
FastRead是一款智能内容处理工具,基于大模型技术,自动解析网页、文档、音频等多源内容,提取关键信息并生成多模态知识卡片。它重构信息处理流程,提升内容创作效率,适用于新闻、金融、教育、营销等多个场景,助力用户高效获取与输出知识。
FastRead——AI驱动的智能读写生产力引擎,重构信息处理与内容创作新范式
|
3月前
|
存储 人工智能 JavaScript
AI + 低代码技术揭秘(四):引擎、提供程序和服务
VTJ低代码平台架构包含三大核心组件:引擎、提供程序和服务层,支撑可视化设计与Vue源码双向转换。引擎管理设计时环境,提供程序处理运行时依赖,服务层抽象后端接口,共同实现高效开发流程。
85 1
AI + 低代码技术揭秘(四):引擎、提供程序和服务
|
2月前
|
人工智能 分布式计算 DataWorks
分布式×多模态:当ODPS为AI装上“时空穿梭”引擎
本文深入探讨了多模态数据处理的技术挑战与解决方案,重点介绍了基于阿里云ODPS的多模态数据处理平台架构与实战经验。通过Object Table与MaxFrame的结合,实现了高效的非结构化数据管理与分布式计算,显著提升了AI模型训练效率,并在工业质检、多媒体理解等场景中展现出卓越性能。
|
2月前
|
人工智能 监控 数据处理
数据标注管理工具:AI燃料工厂的精益引擎
本文详解如何构建高吞吐数据标注系统,涵盖实时质检、智能调度与全息监控三大技术支柱,结合真实案例与代码实现,揭示从技术债到工程化落地的完整路径。
|
2月前
|
人工智能 安全 JavaScript
革新低代码开发!VTJ.PRO v0.12.58 发布:首推「AI代码校验修复引擎」,破解生成式代码质量隐患
VTJ.PRO发布v0.12.58版本,推出「AI-CodeFix」智能引擎,实现AI生成代码的自动校验、诊断与修复,解决低代码开发调试难题。通过动态语义扫描、智能修复策略和开发者体验升级,大幅降低错误率,提升开发效率与代码质量,助力企业实现安全可控的AI开发。
97 0
|
3月前
|
人工智能 自然语言处理 搜索推荐
Spark-TTS: AI语音合成的"变声大师"
Spark-TTS 是一款革命性的语音合成模型,被誉为“变声大师”。它通过创新的 BiCodec 技术将语音分解为语义和全局两种 Token,实现对音色、性别、语速等属性的精细控制。结合统一的 LLM 架构,Spark-TTS 简化了传统 TTS 的复杂流程,同时提供了前所未有的灵活性。此外,团队还发布了 VoxBox 开源数据集,为行业提供标准评估基准。尽管在零样本场景下仍存改进空间,但 Spark-TTS 已经开启了语音合成新时代,让个性化、可控的 AI 语音成为可能。
|
4月前
|
存储 人工智能 搜索推荐