流计算迎来代际变革:流式湖仓 Flink + Paimon 加速落地、Flink CDC 重磅升级

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: 2023 年 12 月 9 日,Flink Forward Asia 2023 在北京圆满结束。70+ 演讲议题、30+ 一线大厂技术与实践分享,以及座无虚席的现场,无一不昭示着重回线下的 FFA 的行业号召力。

2023 年 12 月 9 日,Flink Forward Asia 2023 (以下简称 FFA )在北京圆满结束。70+ 演讲议题、30+ 一线大厂技术与实践分享,以及座无虚席的现场,无一不昭示着重回线下的 FFA 的行业号召力。

借用 Apache Flink 中文社区发起人、Apache Paimon PPMC Member、阿里云智能开源大数据平台负责人王峰的话来说:“经过近十年的发展,Flink 已然成为了流式计算的事实标准。”

当然,对于社区开发者而言,这次大会上带来的流计算的新趋势、新实践与新进展或许才是关注的重点。

一、Flink 两大版本更新,深入场景、精益求精

过去十年,随着大数据、物联网和实时分析等需求的日益增长,传统的批量处理和静态分析方法无法满足新型数据处理场景下的高效、实时的要求,流计算的概念由此出现。流计算具有实时性强、处理实时数据流等能力,使得系统能够更加及时地响应和分析从大规模设备、传感器以及其他数据源产生的数据。Apache Flink 开始崭露头角,并且凭借其出色的性能和灵活性在全球范围内赢得了众多企业和开发者的青睐。

发布会上,王峰表示:“Flink 作为开源大数据领域的一棵常青树,一直保持着快速的发展,根本原因是我们在核心技术领域的不断演进。2023 年我们同样取得了一些新的进展,依然保持一年两个大版本的发布,包括 Flink1.17 和 1.18,也产生了很多新的贡献者。”

1

“在核心的流处理领域内,整体总结就是精益求精。”王峰提到。事实上,从技术层面来看,当前 Flink 已经成为了全球流计算领域的标杆,所以 2023 年 Flink 把版本更新的重点放到了深入场景、持续打磨上。比如持续完善 Flink 在批处理模式下的性能问题、功能完善性问题等,让 Flink 成为一款对有限数据集和无限数据集都能统一处理的计算引擎。

具体来说,在用户最关注且使用最多的开发语言—— Flink SQL 方面,Flink 团队进行了数百项调整或优化。比如,今年社区推出了一项新的功能特性—— Plan Advice,它可以帮助用户智能检查流式 SQL。Plan Advice 会在用户编写完流式 SQL 后,自动检查 SQL 可能存在的问题或风险,并第一时间给出提示和可行的建议。目前这项功能受到了用户的热烈欢迎。

在 Streaming Runtime 也就是真正的 Streaming 核心架构上,今年同样做出了较大的升级。“Flink 最大的特点是面向状态计算,自带状态存储和状态访问能力,因此状态管理、State 管理、Checkpoint、快照管理等都是 Flink 非常核心的部分,也是用户有很强诉求的部分。虽然 Flink 定期会做全局一致性快照,但用户希望快照频率越快越好,且代价越小越好,可行的思路是让系统在出现容错的时候,尽量少的数据回放,比如做到秒级的 Checkpoint。”王峰表示。经过一年的努力,通用的增量 Checkpoint 能力在 Flink1.17 和 1.18 成功落地,并且达到了一个完全生产可用的状态。

此外,在 Batch(批处理)引擎层面,Flink 也做了很多性能优化。王峰介绍称:“Flink 作为一款流批一体的引擎,除了强大的流计算能力,我们希望它在批处理方面同样优秀,给用户带来一站式的数据计算、数据开发体验。”

今年,Flink 不仅基于核心的流引擎优势来优化批处理场景下的执行效率,同时也将传统批处理上的优化手段引入到了 Flink 中去。经测试,Flink 1.18 版本的 Batch 执行模式在 TPC-DS 10T 数据集上的性能比 Flink 1.16 提高了 54%,基本达到了业界领先水平。

“这些优化会持续下去,保障 Flink 不仅在流计算领域达到业界的最强水平,在批处理领域依然可以达到一流的引擎执行能力。实际上今年我们已经看到非常多的公司在分享基于 Flink 的流批一体实践了。”王峰介绍道。

在部署架构方面,Flink 社区开发者也做了大量工作,以推动 Flink 在云上更好地运行。毋庸置疑的是,云原生不仅是大数据的新趋势,也为包括 AI 的普惠提供了基础。为了满足越来越多的项目和软件能够更好地在云上运行并提升用户体验,社区开发者做了大量工作。比如支持用户通过 API 在线、实时地进行扩缩容且不必重启整个 Flink 实例。同时为了实现云上全程无人值守的弹性扩缩容, Flink 社区还推出了基于 Kubernetes 的 Autoscaling 技术,通过 Autoscaling 去动态地、实时地监控整个任务的负载和延迟性,来保障用户的弹性扩缩容体验。

在场景方面,王峰表示,为了让更多的数据流动起来,Flink 社区也做了非常多的尝试,比如让 Flink 跟 Lakehouse 的架构协同,希望利用 Flink 强大的实时计算能力,加速 Lakehouse 的数据流动与分析。值得一提的是,今年 Flink 的两个版本加入了许多新的 API 来实现对 Lakehouse 的支持;同时也增加了对 JDBC driver 的支持,用户利用传统的 BI 工具就能实现与 Flink 的无缝对接。

“其实 Flink 的演进一直遵循着一个规律,即大数据行业的发展趋势。当前,大数据的场景正在从离线向实时加速升级转换。在这个大的浪潮下,Flink 的每一项工作都在不停地被验证。”王峰总结道。

发布会现场,曹操出行基础研发部负责人史何富分享了他们基于 Flink 的实时数仓实践。根据介绍,目前曹操出行公司运营中有三类主要的实时数据需求。首先,管理层需要实时的数据来随时了解公司的运营状况;其次,运营团队也需要一个聚焦的工具来可视化掌握运营细节;最后,算法对实时数据的要求越来越高,越实时的数据对于算法的效果越好。

“在过去的一年多里,通过基于 Flink 的流式数仓 ,曹操出行能够生成多样化的指标和实时特征,并输送给算法引擎,最终使得乘客补贴效率提高了 60%,司机效率提高了 20%。更令人振奋的是我们的毛利增长了 10 倍。” 曹操出行基础研发部负责人史何富表示。

2

对于 Flink 的后续规划,阿里云智能 Flink 分布式执行负责人、Apache Flink PMC 成员、Flink 2.0 Release Manager 宋辛童表示:“我们刚刚在 10 月份推出的 1.18 版本,在明年的 2 月份和 6 月份,我们会分别推出 1.19 跟 1.20 版本,以满足 API 迁移周期的需求。另外,我们将在明年的 10 月份推出全新的 Flink2.0 版本,将围绕流处理的极致优化与技术演进、流批一体架构演进、用户体验提升三个核心方向,大力推动存算分离状态管理、Batch 动态执行优化、流批统一 SQL 语法、流批融合计算模式、API 与配置系统升级等工作,期待更多的社区小伙伴们能够加入共建!”

二、Apache Paimon:引领流式湖仓新变革

除了持续加速 Flink 的演进外,Flink 社区过去一年还孵化出了一个全新的项目,并且成功捐赠给了 Apache 社区,它便是 Apache Paimon。

Apache Paimon 前身为 Flink Table Store,是一项流式数据湖存储技术,可以为用户提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。

事实上,随着 Lakehouse 成为了数据分析领域新的架构趋势,越来越多的用户将传统的基于 Hive、Hadoop 的数仓体系,转移到 Lakehouse 架构上。Lakehouse 架构主要有五大优势:计算存储分离、存储冷热分层、操作更灵活、查询可更换以及分钟级时效性。

“时效性是业务迁移的核心动力,而 Flink 是把时效性降低下来的核心计算引擎,有没有可能把 Flink 融入到 Lakehouse 中去,解锁一个全新的 Streaming House 的架构呢?这就是 Paimon 的设计初衷。”阿里云智能开源表存储负责人、Founder of Paimon、Flink PMC 成员李劲松表示。

当然,为了实现这一构想,Flink 团队同样经历了不小的挑战。其中最大的挑战源于“湖格式”,流技术以及流当中产生的大量更新,对湖存储格式带来了非常巨大的挑战。

“首先 Iceberg 是一个架构简单、生态开放的优秀湖存储格式,早在 2020 年,我们就在试图把 Flink 融入 Iceberg 当中,让 Iceberg 具备了流读、流写的能力。但是逐渐我们发现, Iceberg 整体还是面向离线设计的,它必须保持简洁的架构设计来面向各类计算引擎,而这给我们对它做内核改进带来了极大的阻碍。”李劲松解释道。

在 Flink+ Iceberg 的探索碰壁之后,Flink 团队开始思考 Flink+Hudi 的集成。Flink 接入之后,把 Hudi 的时延从 Spark 更新的小时级降低到了十分钟级。但是再往下,又遇到了新的阻碍,因为 Hudi 本身是面向 Spark,面向批计算设计的,它的架构不符合流计算以及更新的需求。

“在总结了 Flink+Iceberg 与 Flink+Hudi 这两套架构的经验之后,我们重新设计了一套全新的流式数据湖架构,也就是 Flink+Paimon。”李劲松表示。

Flink+Paimon 具有湖存储 +LSM 原生的设计,专为流更新而构建。Paimon 与 Flink、 Spark 都有良好的兼容性,并支持强大的流读流写功能,从而能够真正将延迟降低至 1-5 分钟。

3

“Apache Paimon 是一个流批一体的湖存储格式,它只是一个格式,把数据存储在的 OSS 或者 HDFS 上。然后基于这样的湖格式,通过我们推出的 Flink CDC 就能实现一键入湖,也能通过 Flink、Spark 来流写、批写到 Paimon 中去,后面 Paimon 也将支持各种主流开源引擎的读以及 Flink、Spark 的流读。”李劲松补充道。

“随着 Paimon 的版本迭代,你可以看到非常巨大的进步,目前 Paimon 社区已经有了 120 个来自各行各业的 Contributors,Star 数也达到了 1500+,越来越多的企业开始应用 Paimon 并且分享 Paimon 相关的实践。”

发布会上,同程旅行分享了他们基于 Paimon 的数据湖实践。据介绍,目前同程旅行已将 80% 的 Hudi 湖仓切换至 Paimon,涵盖了 500 多个任务和十多个基于 Paimon 的实时链路场景,处理大约 100TB 的数据量,整体数据条数达到约 1000 亿。

同程旅行大数据专家、Apache Hudi & Paimon Contributor 吴祥平表示,同程旅行基于 Paimon 做了架构升级之后,ODS 层同步效率提高了约 30%,写入速度提升约 3 倍,部分查询速度甚至提升了 7 倍;利用 Tag 的能力,在导出场景节省了约 40% 的存储空间;通过中间数据的可复用性,指标开发人员的工作效率提高了 约 50%。

此外,在汽车服务领域,汽车之家同样成功将 Paimon 应用于运营分析和报表等场景,不仅带来了极大的便利,同时也帮助业务取得了显著的收益。

汽车之家大数据计算平台负责人邸星星表示,通过与 Flink CDC 深度合作,汽车之家实现了流式读取,将数据写入 Paimon,并使用 Flink 再次消费 Paimon 的增量数据,从而将整个 Pipeline 打造成一个实时智能化的系统。

同样,得益于对 Flink+Paimon 的结合使用,在保证数据一致性的基础上,实现了架构简化,主机资源相较于之前减少了约 50%,同时在数据订正、实时批量分析以及中间结果实时查询等方面都获得了很好的支持。

从以上案例中,不难看出 Paimon 在实现流批一体方面发挥了重要作用。它成功地将流计算和批计算这两种不同的计算模式融合到了一起,与 Flink 的流批一体计算和存储能力相结合,打造出一个真正融合流和批的架构。Paimon 最常见的应用场景是数据实时入湖,而在这个过程中,Flink CDC 与 Paimon 的结合能够实现极简的入湖链路,使入湖操作达到全量与增量一体化的状态。这种组合为构建实时数据仓库、实时分析系统等提供了强有力的支持。

三、Flink CDC 3.0 实时数据集成框架发布,并宣布捐赠 Apache 基金会

Flink CDC 是一款基于 Flink 打造的一系列数据库的连接器,主要用于帮助 Flink 去读取隐藏在业务数据库里的增量变更日志。目前 Flink CDC 支持十多种主流的数据源,同时又能跟 Flink SQL 无缝链接,让用户通过 SQL 就能构建丰富的应用形态。

据悉,通过捕获数据变更,Flink CDC 能够实时地将数据变更传输到目标系统,从而实现近实时的数据处理。这种处理方式大大缩短了数据处理的时延,能够将数据处理的时效性从天级别降低到分钟级别,从而显著提升业务价值。

在发布会上,阿里云智能 Flink SQL、Flink CDC 负责人伍翀表示,Flink CDC 在 2023 年发展非常迅速。在生态方面,新增了对 IBM DB2 和 Vitess 这两个新 Connector 的支持,并且将增量快照读取的能力扩充到了更多的数据源;在引擎能力方面,提供了非常多的高级特性,比如动态加表、自动缩容、异步分片、指定位点等,还支持了 At-Least-Once 读取模式,并且还具备了横跨 Flink 1.14 到 1.18 五大版本的兼容能力。

Flink CDC 从诞生至今,已经有三年多的时间。一开始它的定位是做一系列数据库、数据源的连接器,但是随着 Flink CDC 在业界的广泛应用,Flink 团队逐渐发现最初的产品定位无法去 cover 更多的业务场景。

4

“如果它只是一个数据库的连接器,用户如果要搭建一个数据集成的解决方案,还是需要去做很多的拼装工作,或者遇到一些条件限制。所以我们希望 Flink CDC 它不仅仅是去做数据库的连接器,还能够去连接更多的数据源,包括消息队列数据库、数据湖、文件格式、SaaS 服务等等。更进一步,我们希望把它打造成一个能够打通数据源、数据管道、结果目标的端到端的实时数据集成解决方案和工具。而这也就是我们今天要正式发布的 Flink CDC 3.0 实时数据集成框架。”伍翀表示。

5

据悉,Flink CDC 3.0 实时数据集成框架是基于 Apache Flink 的内核之上去构建的。在引擎层,Flink CDC 3.0 开放了很多高级特性,包括实时同步、整库同步、分库分表合并等等;在连接层,Flink CDC 3.0 已经支持了 MySQL、StarRocks、Doris 的同步链路,Paimon、kafaka、MongoDB 等同步链路也已经在计划中;在接入层 Flink CDC 3.0 提供了一套 YAML + CLI 的 API 方式,以此来简化用户开发实时数据集成的成本。

“Flink CDC 3.0 实时数据集成框架的发布,是 Flink CDC 在技术上的一次里程碑突破,而在这背后,离不开社区的力量、开源的力量,所以我们希望能够利用技术去回馈开源。”伍翀表示。

随后,在发布会现场,阿里巴巴正式宣布将捐赠 Flink CDC 到 Apache Flink 和 Apache 软件基金会。

四、从引进来到走出去,全球化视野下的开源生态

不止于技术层面的持续创新与硕果累累,近年来 Apache Flink 在国际化生态社区构建方面同样令人瞩目。

在中国,Flink 中文社区成为了最活跃的技术社区之一。在 Flink 中文社区五周年之际,社区开发者们共同见证了 750 篇技术文章的累计发布,吸引了 111 个公司和 351 位开发者的积极参与,这些文章累计获得了高达 235 万的阅读量,凸显了 Flink 全球化社区技术布道的中国力量。

放眼世界,目前 Flink 已经成为 Apache 基金会最活跃的顶级项目之一,Flink 的社区成员覆盖到欧洲、北美、东南亚各地,涵盖了学术界、工业界、开源社区等各个领域。作为其中的主导者,阿里巴巴国际化社区的管理也得到日益增强。根据统计,阿里巴巴培养了 70% 以上的 Flink 项目管理委员会(PMC)成员和提交者(Committor)。

6

值得一提的是,今年 6 月,Flink 凭借其在实时大数据领域的技术创新和全球影响力,被数据库国际顶级会议 SIGMOD 授予 SIGMOD System Award 2023 大奖。过往获得该奖项的均为全球数据库领域的明星项目,如 Apache Spark、Postgres 和 BerkeleyDB 等。

从国外引入到中国,再到华人贡献推动 Flink 开源技术全球化,华人开发者在这个过程中正在扮演着越来越重要的角色。他们不仅在开源项目的开发中发挥了重要作用,还积极参与到各种开源社区的活动中,共同推动技术的发展和创新。而这些华人开发者的贡献则对 Apache Flink 生态系统的成长和发展起到了关键作用。

Apache Flink 全球化视野的开源生态已经成为其持续繁荣的重要力量。在这个生态中,各种技术、文化和思想得到了充分的交流和融合,为其创新带来了巨大的推动力。我们也有理由相信,未来在这片具备全球视野的开源沃土之上,将会有越来越多的开发者加入,共同为实时计算的未来贡献自己的力量。


Flink Forward Asia 2023

本届 Flink Forward Asia 更多精彩内容,扫描图片二维码在线阅读全部议题 PPT ~

点击查看 FFA 2023 演讲 PPT

7

关注 Apache Flink 公众号,回复 FFA 2023 即可获取演讲 PPT 在线阅读地址

更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
0 元试用 实时计算 Flink 版(5000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

image.png

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
2月前
|
SQL 关系型数据库 Apache
从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路
本文将深入解析 Flink-Doris-Connector 三大典型场景中的设计与实现,并结合 Flink CDC 详细介绍了整库同步的解决方案,助力构建更加高效、稳定的实时数据处理体系。
1173 0
从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路
|
5月前
|
数据采集 SQL canal
Amoro + Flink CDC 数据融合入湖新体验
本文总结了货拉拉高级大数据开发工程师陈政羽在Flink Forward Asia 2024上的分享,聚焦Flink CDC在货拉拉的应用与优化。内容涵盖CDC应用现状、数据入湖新体验、入湖优化及未来规划。文中详细分析了CDC在多业务场景中的实践,包括数据采集平台化、稳定性建设,以及面临的文件碎片化、Schema演进等挑战。同时介绍了基于Apache Amoro的湖仓融合架构,通过自优化服务解决小文件问题,提升数据新鲜度与读写平衡。未来将深化Paimon与Amoro的结合,打造更高效的入湖生态与自动化优化方案。
272 1
Amoro + Flink CDC 数据融合入湖新体验
|
5月前
|
SQL 关系型数据库 MySQL
Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
Apache Flink CDC 3.4.0 版本正式发布!经过4个月的开发,此版本强化了对高频表结构变更的支持,新增 batch 执行模式和 Apache Iceberg Sink 连接器,可将数据库数据全增量实时写入 Iceberg 数据湖。51位贡献者完成了259次代码提交,优化了 MySQL、MongoDB 等连接器,并修复多个缺陷。未来 3.5 版本将聚焦脏数据处理、数据限流等能力及 AI 生态对接。欢迎下载体验并提出反馈!
943 1
Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
|
6月前
|
SQL API Apache
Dinky 和 Flink CDC 在实时整库同步的探索之路
本次分享围绕 Dinky 的整库同步技术演进,从传统数据集成方案的痛点出发,探讨了 Flink CDC Yaml 作业的探索历程。内容分为三个部分:起源、探索、未来。在起源部分,分析了传统数据集成方案中全量与增量割裂、时效性低等问题,引出 Flink CDC 的优势;探索部分详细对比了 Dinky CDC Source 和 Flink CDC Pipeline 的架构与能力,深入讲解了 YAML 作业的细节,如模式演变、数据转换等;未来部分则展望了 Dinky 对 Flink CDC 的支持与优化方向,包括 Pipeline 转换功能、Transform 扩展及实时湖仓治理等。
739 12
Dinky 和 Flink CDC 在实时整库同步的探索之路
|
4月前
|
消息中间件 SQL 关系型数据库
Flink CDC + Kafka 加速业务实时化
Flink CDC 是一种支持流批一体的分布式数据集成工具,通过 YAML 配置实现数据传输过程中的路由与转换操作。它已从单一数据源的 CDC 数据流发展为完整的数据同步解决方案,支持 MySQL、Kafka 等多种数据源和目标端(如 Delta Lake、Iceberg)。其核心功能包括多样化数据输入链路、Schema Evolution、Transform 和 Routing 模块,以及丰富的监控指标。相比传统 SQL 和 DataStream 作业,Flink CDC 提供更灵活的 Schema 变更控制和原始 binlog 同步能力。
|
7月前
|
Oracle 关系型数据库 Java
【YashanDB知识库】Flink CDC实时同步Oracle数据到崖山
本文介绍通过Flink CDC实现Oracle数据实时同步至崖山数据库(YashanDB)的方法,支持全量与增量同步,并涵盖新增、修改和删除的DML操作。内容包括环境准备(如JDK、Flink版本等)、Oracle日志归档启用、用户权限配置、增量日志记录设置、元数据迁移、Flink安装与配置、生成Flink SQL文件、Streampark部署,以及创建和启动实时同步任务的具体步骤。适合需要跨数据库实时同步方案的技术人员参考。
【YashanDB知识库】Flink CDC实时同步Oracle数据到崖山
|
7月前
|
关系型数据库 MySQL 数据库
基于Flink CDC 开发,支持Web-UI的实时KingBase 连接器,三大模式无缝切换,效率翻倍!
TIS 是一款基于Web-UI的开源大数据集成工具,通过与人大金仓Kingbase的深度整合,提供高效、灵活的实时数据集成方案。它支持增量数据监听和实时写入,兼容MySQL、PostgreSQL和Oracle模式,无需编写复杂脚本,操作简单直观,特别适合非专业开发人员使用。TIS率先实现了Kingbase CDC连接器的整合,成为业界首个开箱即用的Kingbase CDC数据同步解决方案,助力企业数字化转型。
1330 5
基于Flink CDC 开发,支持Web-UI的实时KingBase 连接器,三大模式无缝切换,效率翻倍!
|
3月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
1月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
208 0
|
2月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。

相关产品

  • 实时计算 Flink版