带你读《2022年开源大数据热力报告》——热力趋势二:一体化演进迈入2.0时代

简介: 带你读《2022年开源大数据热力报告》——热力趋势二:一体化演进迈入2.0时代

从计算一体化到存储一体化

在对热力变迁数据的观察中,我们发现,从2015年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在2019年出现第一个热力峰值。以数据湖存储为代表的存储一体化从2019年起进入了一个新的发展阶段,并在2021年前后进入了开发迭代的热力高速增长期,在此期间, 涌现了Delta Lake、 Iceberg和Hudi等热点项目。


image.png


热力变迁背后是用户使用痛点的转移

多元化技术的蓬勃发展,在一定程度上增加了开源生态体系的复杂性,系统架构也存在性能瓶颈,且扩展能力有限。业界需要统一、融合的大数据系统,能够将多种计算模式有机地融合在一起,易于扩展,能够支持新的模式,降低开源软件的开发、运维复杂度。


以「流批一体」为例,这种计算融合技术最早提出于 2015 年,它的初衷是让开发人员能够使用同一套接口实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。使用统一的计算框架,用户可以不用区分实时和离线计算的场景,减少用户的学习成本,减少开发和维护两套框架的运维成本。流批一体技术演进过程中的几个关键时间节点,2015年Spark提出流批一体,到2019年基于Apache Flink在阿里巴巴双11项目中大规模落地流批一体应用,再到2022年Flink Table Store 流式数仓发布,每一次重大技术更迭,都会牵引大量开发者关注和参与,促使流处理领域热力值显著提升。


开发者在初尝了计算一体化带来的技术红利之后,开始在其他技术领域进行一体化的尝试。而另一方面,为多种不同的计算模型管理多套不同的存储已经成为了一个新的痛点。开发者深刻体会到传统数仓的难以逾越的缺陷,比如数据更新较为昂贵,缺乏跨数据源的高效联邦查询等。从2019年开始,数据湖存储解决方案 Delta Lake出现,以及后续的 Iceberg 和 Hudi等,都致力于解决存储一体化问题。



相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
监控 安全 Cloud Native
云原生开源沙龙北京站开启报名 | 微服务安全零信任架构
「微服务安全零信任架构」主题技术沙龙将于4月13日在北京阿里中心举行,欢迎报名!~
云原生开源沙龙北京站开启报名 | 微服务安全零信任架构
|
2月前
|
Cloud Native 关系型数据库 分布式数据库
开发者视角看云原生数据库一体化技术趋势
随着云原生数据库技术的不断发展,一体化数据库解决方案成为技术圈的热点,云原生数据库一体化技术是当前数据库领域的重要趋势,对于开发者而言,学习理解和应对这一趋势,对于业务开发的成功实施非常重要。比如,阿里云瑶池数据库和PolarDB-X等产品通过离在线一体化、处理分析一体化和集中分布一体化等创新理念,引领了数据库领域的新变革。那么本文就来从开发者的角度探讨云原生数据库一体化技术趋势,并分析在业务处理分析一体化、集中式与分布式数据库边界模糊和云原生一体化数据库的选择等方面的影响。
288 4
|
2月前
|
Cloud Native 数据处理 云计算
探索云原生技术在大数据分析中的应用
随着云计算技术的不断发展,云原生架构作为一种全新的软件开发和部署模式,正逐渐引起企业的广泛关注。本文将探讨云原生技术在大数据分析领域的应用,介绍其优势与挑战,并探讨如何利用云原生技术提升大数据分析的效率和可靠性。
|
5月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
75 0
|
5月前
|
SQL 大数据 关系型数据库
开源大数据比对平台(dataCompare)新版本发布
开源大数据比对平台(dataCompare)新版本发布
84 0
|
3月前
|
Prometheus Cloud Native 数据库
Grafana 系列文章(九):开源云原生日志解决方案 Loki 简介
Grafana 系列文章(九):开源云原生日志解决方案 Loki 简介
|
5月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
136 0
|
5月前
电子好书发您分享《阿里云云原生一体化数仓新能力解读》
电子好书发您分享《阿里云云原生一体化数仓新能力解读》
268 2
|
25天前
|
Cloud Native OLAP OLTP
如何看待云原生数据库一体化的技术趋势?
【4月更文挑战第12天】如何看待云原生数据库一体化的技术趋势?
|
1月前
|
Cloud Native 安全 微服务
云原生开源沙龙北京站火热报名中丨微服务安全零信任架构
云原生开源沙龙北京站火热报名中丨微服务安全零信任架构。