从计算一体化到存储一体化
在对热力变迁数据的观察中,我们发现,从2015年开始,计算部分率先进入「一体化」演进历程,其中的典型代表「流批一体」在2019年出现第一个热力峰值。以数据湖存储为代表的存储一体化从2019年起进入了一个新的发展阶段,并在2021年前后进入了开发迭代的热力高速增长期,在此期间, 涌现了Delta Lake、 Iceberg和Hudi等热点项目。
热力变迁背后是用户使用痛点的转移
多元化技术的蓬勃发展,在一定程度上增加了开源生态体系的复杂性,系统架构也存在性能瓶颈,且扩展能力有限。业界需要统一、融合的大数据系统,能够将多种计算模式有机地融合在一起,易于扩展,能够支持新的模式,降低开源软件的开发、运维复杂度。
以「流批一体」为例,这种计算融合技术最早提出于 2015 年,它的初衷是让开发人员能够使用同一套接口实现大数据的流计算和批计算,进而保证处理过程与结果的一致性。使用统一的计算框架,用户可以不用区分实时和离线计算的场景,减少用户的学习成本,减少开发和维护两套框架的运维成本。流批一体技术演进过程中的几个关键时间节点,2015年Spark提出流批一体,到2019年基于Apache Flink在阿里巴巴双11项目中大规模落地流批一体应用,再到2022年Flink Table Store 流式数仓发布,每一次重大技术更迭,都会牵引大量开发者关注和参与,促使流处理领域热力值显著提升。
开发者在初尝了计算一体化带来的技术红利之后,开始在其他技术领域进行一体化的尝试。而另一方面,为多种不同的计算模型管理多套不同的存储已经成为了一个新的痛点。开发者深刻体会到传统数仓的难以逾越的缺陷,比如数据更新较为昂贵,缺乏跨数据源的高效联邦查询等。从2019年开始,数据湖存储解决方案 Delta Lake出现,以及后续的 Iceberg 和 Hudi等,都致力于解决存储一体化问题。