热烈祝贺 Flink 2.0 存算分离入选 VLDB 2025

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
简介: Apache Flink 2.0架构实现重大突破,论文《Disaggregated State Management in Apache Flink® 2.0》被VLDB 2025收录。该研究提出解耦式状态管理架构,通过异步执行框架与全新存储引擎ForSt,实现状态与计算分离,显著提升扩展性、容错能力与资源效率,推动Flink向云原生演进,开启流计算新时代。

VLDB 2025 论文《Disaggregated State Management in Apache Flink® 2.0》

Flink 2.0 架构革新引领流计算新时代

热烈祝贺 Apache Flink 2.0 的重磅研究成果《Disaggregated State Management in Apache Flink® 2.0 》被数据库领域顶级会议 VLDB 2025 正式接收!这项工作由 Apache Flink 社区 联合 阿里巴巴实时计算 Flink 团队 以及多位学术界研究人员共同完成,从架构上根本解决了在存算一体架构下长久以来快照消耗大、状态恢复慢,以及状态和计算捆绑造成成本高的问题,标志着 Flink 在分布式流处理系统状态管理架构上的重大突破,也代表着 Flink 向云原生架构演进的重要里程碑。

背景与挑战

随着实时数据和实时 AI 处理需求的不断增长,Apache Flink 凭借其优异的一致性状态管理架构以及丰富的上下游生态,已成为全球流处理引擎标准。然而,面对 TB 级别的状态存储与高吞吐、低延迟的访问要求,传统耦合的状态管理机制逐渐暴露出扩展性差、CP 消耗大以及恢复慢等问题。为了解决这一瓶颈,我们在 Apache Flink 2.0 中提出了一种全新的“**解耦式状态管理架构(Disaggregated State Management)**”,将状态存储与计算任务分离,利用廉价的对象存储来共享数据,从而实现更灵活的资源调度、更高的可扩展性和更轻量稳定的容错能力。

核心贡献与创新点

为了解决上述挑战,Flink 2.0 引入了两项重大创新:

(i) 统一的异步执行框架(Asynchronous Execution Framework)

Flink 2.0 引入了全新的异步执行框架,支持非阻塞状态访问与并行异步操作,从而大幅降低延迟、提升整体吞吐能力。该框架具备以下特点:

  • 完全兼容 Flink 1.x 的同步状态访问方式;

  • 自动跳过不必要的异步开销,在无需异步操作时保持高性能;

  • 严格保障原有语义和状态一致性,确保 Exactly-Once 语义不打折扣

(ii) 解耦式状态存储引擎 ForSt(For Streaming)

ForSt 是 Flink 2.0 全新推出的解耦式状态存储引擎,它在不改变现有部署架构的前提下,提供统一的 LSM-tree 抽象,实现了本地与远程状态访问的无缝融合:

  • 补齐远端与本地文件系统的能力差异;

  • 支持共享 Working State 和 Checkpoint 文件,仅需维护一份状态副本;

  • 实现秒级快照与瞬时状态恢复,极大提升作业恢复速度与容错能力。

意义与展望

十年前,Apache Flink 的奠基之作《State Management in Apache Flink》发表于 VLDB,首次系统阐述了流计算中的一致性状态管理机制,推动了流计算从简单 ETL 管道向复杂业务逻辑处理的跃迁。

十年后的今天,Flink 已成为大数据领域的基础设施,而 VLDB 2025 接收的这篇论文《Disaggregated State Management in Apache Flink® 2.0》,不仅代表了学术界对 Flink 技术创新能力的高度认可,更体现了阿里巴巴多年来持续投入 Flink 社区的技术传承与产业影响力。

这也是 Flink State Management 新的起点,未来我们希望能通过 ForSt 存储引擎的批量计算下推等能力进一步降低流计算的成本,兼具时效性和低成本的能力,开启 Flink 近实时计算的新纪元,真正做到实时计算的普惠。


作者名单

Yuan Mei, Alibaba Cloud

Zhaoqian Lan, Alibaba Cloud

Lei Huang, Boston University

Yanfei Lei, Alibaba Cloud

Han Yin, Alibaba Cloud

Rui Xia, Alibaba Cloud

Kaitian Hu, Alibaba Cloud

Paris Carbone, KTH Royal Institute of Technology

Vasiliki Kalavri, Boston University

Feng Wang Alibaba Cloud

致谢
感谢 Apache Flink 社区和兄弟团队的大力支持与宝贵建议,特别感谢 Jark Wu,Lincoln Lee,Xuyang Zhong 对 Flink 社区 SQL 算子的改写与适配使得 Flink 端到端存算分离成为可能!


更多内容


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
9月前
|
存储 SQL 缓存
Flink 2.0 存算分离状态存储 — ForSt DB 
本文整理自阿里云技术专家兰兆千在Flink Forward Asia 2024上的分享,主要介绍Flink 2.0的存算分离架构、全新状态存储内核ForSt DB及工作进展与未来展望。Flink 2.0通过存算分离解决了本地磁盘瓶颈、检查点资源尖峰和作业恢复速度慢等问题,提升了云原生部署能力。ForSt DB作为嵌入式Key-value存储内核,支持远端读写、批量并发优化和快速检查点等功能。性能测试表明,ForSt在异步访问和本地缓存支持下表现卓越。未来,Flink将继续完善SQL Operator的异步优化,并引入更多流特性支持。
947 88
Flink 2.0 存算分离状态存储 — ForSt DB 
|
存储 Cloud Native 数据处理
Flink 2.0 状态管理存算分离架构演进
本文整理自阿里云智能 Flink 存储引擎团队负责人梅源在 Flink Forward Asia 2023 的分享,梅源结合阿里内部的实践,分享了状态管理的演进和 Flink 2.0 存算分离架构的选型。
1500 1
Flink 2.0 状态管理存算分离架构演进
|
存储 缓存 数据处理
Flink 2.0 状态存算分离改造实践
本文整理自阿里云智能 Flink 存储引擎团队兰兆千在 FFA 2023 核心技术(一)中 的分享,内容关于 Flink 2.0 状态存算分离改造实践的研究。
785 1
Flink 2.0 状态存算分离改造实践
|
Apache 项目管理 流计算
祝贺!两位 Apache Flink PMC 喜提 Apache Member
目前,国内(华人)近 30 位 Apache Member 中,有 3 位是 Apache Flink 的核心贡献者。他们热爱开源也为开源贡献,不仅积极参与社区与其他 PMC 成员共同规划、主导 Apache Flink 的发展,更活跃在多个开源项目,持续为开源社区做贡献。
|
NoSQL 大数据 Apache
Apache Flink 入选 2022 年“科创中国”开源创新榜
Apache Flink 以及 Flink 开源社区重要推动者阿里巴巴,分别入选开源创新榜“开源产品”和“开源机构”。
Apache Flink 入选 2022 年“科创中国”开源创新榜
|
12月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
10月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
3176 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
zdl
|
10月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
414 56
|
8月前
|
消息中间件 关系型数据库 MySQL
Flink CDC 在阿里云实时计算Flink版的云上实践
本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。
531 0
Flink CDC 在阿里云实时计算Flink版的云上实践

相关产品

  • 实时计算 Flink版