云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。

演讲人:

王峰|阿里云智能集团研究员、开源大数据平台负责人

李钰|阿里云智能集团资深技术专家

范振|阿里云智能集团高级技术专家

李劲松|阿里云智能集团高级技术专家

蒋乾|七猫免费小说数仓负责人

活动: 2024 云栖大会 - 开源大数据专场

基于向量化的大数据计算技术在近几年呈现爆发趋势,Databricks 推出了向量化 Spark 引擎-Photon,Facebook 开源了 Velox 向量化批计算引擎。向量化计算推动离线批计算能力大幅提升,与此同时业务时效性的提升也让企业对于实时流计算有了更多的需求,在这样的背景之下,9月20日2024年云栖大会之上,阿里云阿里云智能集团研究员、开源大数据平台负责人王峰宣布阿里云实时计算 Flink 产品推出业界首款向量化流计算引擎-Flash,100%兼容 Apache Flink 业界流计算标准,且相对开源 Flink 具备5-10倍性能优势,助力企业在大数据实时化升级的道路上降本增效。

image.png

王峰表示:“我们对这项技术充满信心,计划通过阿里云向公有云领域推广,旨在服务于更多中小型客户。特别是那些已采用 Flink 的中小企业,或是云环境中的云原生企业,我们将使它们能够在无需修改代码的前提下,利用新的向量化兼容 Flash 引擎,达到降低成本并提升效率的目的。”

image

目前凭借在阿里巴巴内部生产环境中的超过10个业务部分,10万以上的 CU 规模进行了实际应用和业务测试,Flash 已成功助力业务方节省52%的平均成本,并展现出广泛的应用潜力。阿里云计划采取分阶段策略推广 Flash,以确保产品的稳定性和可靠性,同时也鼓励感兴趣的开发者和企业参与测试,共同探索向量化计算在大数据处理领域的更多可能。

开源大数据平台实现全面 Serverless 产品化

近年来随着大数据业务的快速发展和云原生技术的普及,计算服务 Serverless 化已经成为刚需,在本次云栖大会上,阿里云智能集团资深技术专家、EMR团队负责人李钰宣布 EMR Serverless Spark 产品正式启动商业化。阿里云开源大数据平台已全面实现了 Serverless 产品化,包括 EMR Serverless Spark、EMR Serverless StarRocks、Serverless 实时计算 Flink 版等。

EMR Serverless Spark 是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。该产品自研向量化 Fusion 引擎,100% 兼容开源 Spark 编程接口,相比于开源 Spark 性能提升300%;提供交互式 Notebook 以及嵌入式 SQL Editor 开发环境、并提供版本管理、工作流调度、监控诊断等一站式平台能力;支持弹性伸缩、按量付费,进一步降低计算成本。结合 DLF 新一代湖仓数据管理平台,助力阿里云客户构建兼容开源和全面开放的数据湖仓解决方案。

Spark一站式全托管湖仓分析利器0913final.png

今年是 EMR Serverless StarRocks 存算一体版本正式商业化一周年,自发布以来已在超过 500+ 生产客户,覆盖 20+ 行业落地,为企业提供稳定高效,开箱即用的全托管企业级数据平台的同时,也面临一些技术场景的挑战,在云栖大会上 EMR Serverless StarRocks 正式宣布推出商业化生产可用的 2.0 存算分离架构,提供了 StarOS 升级、Multi-Warehouse、弹性伸缩、内表优化、湖表优化等能力。

24云栖大会_SR_范振_0913.png

近年来,通过对大数据业务和在线业务进行离在线负载混部实现降本增效,逐渐成为客户的通用诉求。在2024 云栖大会上,李钰发布了EMR 管控平台的全面升级:EMR on ACS 引入了与ACS的无缝集成、资源队列和定额(Quota)管理、作业监控及诊断分析功能,并新增对多计算引擎的支持;而在 EMR on ECS 产品形态中,全新推出了自动化弹性伸缩与智能化诊断分析能力。这些增强的能力都将助力客户智能化的实现在离线混部和降本增效。

EMR管控全面升级-20240913_final.png

阿里云湖仓架构全面升级

随着数据湖和数据仓库技术的不断演进,湖仓架构开始在数据基础设施中发挥关键作用可帮助企业快速构建一体化数据分析平台,加速获取 AI 赋能的业务洞察,有效降低数据基础设施与管理成本。在这样的行业趋势之下,Apache Paimon 作为一种高性能、高扩展性的存储层,正成为构建实时湖仓架构的关键技术之一。阿里云智能集团高级技术专家李劲松在2024云栖大会上介绍到了 Paimon 的发展历史以及 Apache Paimon 在 Streaming+实时场景的优势。Apache Paimon 作为一种高性能、高扩展性的存储层为用户提供了数据湖实时流式处理、湖上 OLAP 加速、数据湖非结构化处理等技术方案。Paimon 自2022年从Flink社区开始孵化以来,短短两年,已在越来越多的公司及场景落地,帮助业务更实时、更开放、成本更低的构建湖仓架构。结合在2024云栖大会正式对外发布的阿里云 OpenLake 解决方案,企业可构建大数据、搜索、AI 一体化的能力体系,实现多模态数据统一纳管、多种计算引擎平权计算、大数据 AI 一体化开发,基于数据资产构筑竞争力。

终版Paimon 助力数据湖仓架构实时化升级0914-1.png

七猫免费小说云上数仓实践

在2024年云栖大会的开源大数据专场上,七猫免费小说的数据仓库负责人蒋乾分享了关于云上数据仓库数据治理的最佳实践。借助阿里云EMR的强大技术支持,**七猫免费小说**成功实现了数据仓库架构与数据治理的规范化和流程化演进,核心体现在如下三个方面:

  • 存算分离架构的升级:为数据处理提供了更高的灵活性和扩展性。

  • 元数据和数据血缘的构建:为数据的追踪和管理奠定了坚实的基础。

  • 数据治理实践:在数据治理的过程中逐步形成了规范的体系。

lQDPKd8_ai7TNWPNB9DNC7iwM4ymNbvqCusG1k8XVjzBAA_3000_2000.jpeg

Flink Forward Asia 2024 是一场大数据行业的盛会,将于11月29日至30日在上海举行。这是了解 Flink 社区最新动态和发展计划的绝佳机会,也是与国内外一线厂商分享生产实践经验、交流技术成果的重要平台。参与者可通过官网提交议题或报名参会。现在报名不仅可享受早鸟优惠,参会更有机会获得活动精美周边相送。无论您是开发者还是数据领域的从业者,都不可错过这场汇聚行业精英的盛会!

推文封面-其他平台.png

点击下方报名链接参与议题征集与报名特惠活动:

PC 端:https://asia.flink-forward.org/shanghai-2024/

打开 FFA 2024 官网,点击「立即报名」或「提交议题」

移动端:

扫描下方二维码立即报名

购票.png
欢迎各位踊跃报名,一起分享和学习现下流行新技术!


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc

retouch_2024070417440476.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
4天前
|
SQL 消息中间件 Kafka
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。
331 20
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
|
3天前
|
SQL 运维 BI
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
浙江霖梓早期基于 Apache Doris 进行整体架构与表结构的重构,并基于湖仓一体和查询加速展开深度探索与实践,打造了 Doris + Paimon 的实时/离线一体化湖仓架构,实现查询提速 30 倍、资源成本节省 67% 等显著成效。
湖仓分析|浙江霖梓基于 Doris + Paimon 打造实时/离线一体化湖仓架构
|
2月前
|
机器学习/深度学习 编解码 人工智能
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
一支由麻省理工学院、香港科技大学(广州)、浙江大学和格里菲斯大学的华人研究团队,开发了名为TimeMixer++的时间序列分析模型。该模型在8项任务中超越现有技术,通过多尺度时间图像转换、双轴注意力机制和多尺度多分辨率混合等技术,实现了性能的显著提升。论文已发布于arXiv。
205 84
|
1天前
|
安全 NoSQL MongoDB
XJ-Survey:这个让滴滴日均处理1.2亿次问卷请求的开源系统,今天终于公开了它的架构密码!
嗨,大家好,我是小华同学。今天为大家介绍一款由滴滴开源的高效调研系统——XJ-Survey。它功能强大,支持多类型数据采集、智能逻辑编排、精细权限管理和数据在线分析,适用于问卷、考试、测评等场景。采用 Vue3、NestJS 等先进技术栈,确保高性能与安全性。无论是企业还是个人,XJ-Survey 都是你不可错过的神器!项目地址:[https://github.com/didi/xiaoju-survey](https://github.com/didi/xiaoju-survey)
37 15
|
5天前
|
SQL 弹性计算 安全
【上云基础系列04】基于标准架构的数据库升级
本文回顾了业务上云从基础到进阶的理念,涵盖基础版和全栈版架构。在“入门级:上云标准弹性架构基础版”的基础上,本文针对数据库升级,重点介绍了高可用数据库架构的升级方案,确保数据安全和业务连续性。最后,附有详细的“上云标准弹性架构”演进说明,帮助用户选择合适的架构方案。
|
6天前
|
存储 关系型数据库 分布式数据库
PolarDB 开源基础教程系列 1 架构解读
PolarDB 是阿里云研发的云原生分布式数据库,基于 PostgreSQL 开源版本,旨在解决传统数据库在大规模数据和高并发场景下的性能和扩展性问题。其主要特点包括: 1. **存储计算分离架构**:通过将计算与存储分离,实现极致弹性、共享一份数据以降低成本、透明读写分离。 2. **HTAP 架构**:支持混合事务处理和分析处理(HTAP),能够在同一系统中高效执行 OLTP 和 OLAP 查询。 3. **优化的日志复制机制**:采用只复制元数据的方式减少网络传输量,优化页面回放和 DDL 锁回放过程。 4. **并行查询与索引创建**:引入 MPP 分布式执行引擎。
33 7
|
1月前
|
开发框架 前端开发 .NET
一个适用于 .NET 的开源整洁架构项目模板
一个适用于 .NET 的开源整洁架构项目模板
57 26
|
1月前
|
存储 数据采集 大数据
AllData数据中台技术架构升级演进
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
2月前
|
人工智能 自然语言处理
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
RWKV-7是RWKV系列的最新大模型架构版本,具有强大的上下文学习能力,超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。
178 7
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
|
2月前
|
SQL 存储 缓存
EMR Serverless StarRocks 全面升级:重新定义实时湖仓分析
本文介绍了EMR Serverless StarRocks的发展路径及其架构演进。首先回顾了Serverless Spark在EMR中的发展,并指出2021年9月StarRocks开源后,OLAP引擎迅速向其靠拢。随后,EMR引入StarRocks并推出全托管产品,至2023年8月商业化,已有500家客户使用,覆盖20多个行业。 文章重点阐述了EMR Serverless StarRocks 1.0的存算一体架构,包括健康诊断、SQL调优和物化视图等核心功能。接着分析了存算一体架构的挑战,如湖访问不优雅、资源隔离不足及冷热数据分层困难等。