带你读《2022年开源大数据热力报告》——热力趋势二:一体化演进迈入2.0时代

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 带你读《2022年开源大数据热力报告》——热力趋势二:一体化演进迈入2.0时代

从计算一体化到存储一体化

在对热力变迁数据的观察中,我们发现,从2015年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在2019年出现第一个热力峰值。以数据湖存储为代表的存储一体化从2019年起进入了一个新的发展阶段,并在2021年前后进入了开发迭代的热力高速增长期,在此期间, 涌现了Delta Lake、 Iceberg和Hudi等热点项目。


image.png


热力变迁背后是用户使用痛点的转移

多元化技术的蓬勃发展,在一定程度上增加了开源生态体系的复杂性,系统架构也存在性能瓶颈,且扩展能力有限。业界需要统一、融合的大数据系统,能够将多种计算模式有机地融合在一起,易于扩展,能够支持新的模式,降低开源软件的开发、运维复杂度。


以「流批一体」为例,这种计算融合技术最早提出于 2015 年,它的初衷是让开发人员能够使用同一套接口实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。使用统一的计算框架,用户可以不用区分实时和离线计算的场景,减少用户的学习成本,减少开发和维护两套框架的运维成本。流批一体技术演进过程中的几个关键时间节点,2015年Spark提出流批一体,到2019年基于Apache Flink在阿里巴巴双11项目中大规模落地流批一体应用,再到2022年Flink Table Store 流式数仓发布,每一次重大技术更迭,都会牵引大量开发者关注和参与,促使流处理领域热力值显著提升。


开发者在初尝了计算一体化带来的技术红利之后,开始在其他技术领域进行一体化的尝试。而另一方面,为多种不同的计算模型管理多套不同的存储已经成为了一个新的痛点。开发者深刻体会到传统数仓的难以逾越的缺陷,比如数据更新较为昂贵,缺乏跨数据源的高效联邦查询等。从2019年开始,数据湖存储解决方案 Delta Lake出现,以及后续的 Iceberg 和 Hudi等,都致力于解决存储一体化问题。



相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
5月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
282 3
|
5月前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB开源:云原生数据库的新篇章
阿里云自研的云原生数据库PolarDB于2023年5月正式开源,采用“存储计算分离”架构,具备高性能、高可用及全面兼容性。其开源版本提供企业级数据库解决方案,支持MySQL、PostgreSQL和Oracle语法,适用于高并发OLTP、核心业务系统等场景。PolarDB通过开放治理与开发者工具构建完整生态,并展望更丰富的插件功能与AI集成,为中国云原生数据库技术发展贡献重要力量。
471 17
|
7月前
|
Kubernetes Cloud Native 开发者
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
199 61
|
Cloud Native 安全 大数据
云原生与大数据
【8月更文挑战第27天】云原生与大数据
198 5
|
Cloud Native 关系型数据库 分布式数据库
《阿里云产品四月刊》—瑶池数据库云原生化和一体化产品能力升级
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
196 1
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
447 0
|
人工智能 Cloud Native API
Higress 重磅更新:AI 能力全面开源,云原生能力再升级
Higress 最新的 1.4 版本基于为通义千问,以及多家云上 AGI 厂商客户提供 AI 网关的积累沉淀,开源了大量 AI 原生的网关能力。同时也在 Ingress、可观测、流控等云原生能力上做了全方位升级。
21878 364
|
9月前
|
编解码 弹性计算 大数据
软硬结合助力倚天云原生算力再进化,加速大数据、视频转码上云步伐
本文介绍了云原生算力的进化,重点讨论了倚天710 CPU在大数据和视频转码场景中的应用与优势。倚天710采用ARM架构,通过物理核设计和CIPU加速卡优化,显著提升了高负载下的性能稳定性,并在实际应用中帮助客户实现了20%-40%的性能提升和成本降低。此外,文章还探讨了操作系统、编译器等底层软件的优化,以及如何通过龙蜥社区和阿里云平台支持更多应用场景,助力企业实现高效迁移和性能优化。
|
数据采集 运维 Cloud Native
Flink+Paimon在阿里云大数据云原生运维数仓的实践
构建实时云原生运维数仓以提升大数据集群的运维能力,采用 Flink+Paimon 方案,解决资源审计、拓扑及趋势分析需求。
18694 54
Flink+Paimon在阿里云大数据云原生运维数仓的实践
|
12月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
607 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展