官宣|Apache Paimon 毕业成为顶级项目,数据湖步入实时新篇章!

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!

北京时间 2024 年 4 月 16日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。经过社区的共同努力和持续创新,Apache Paimon 在构建实时数据湖与流批处理技术领域取得了重大突破,数据湖步入实时新篇章!

Apache 官方博客发布了 Apache Paimon 毕业的消息:


(Apache 官网部分截图)

Apache Paimon 成长历史

Apache Paimon 原名 Flink Table Store,2022年1月在 Apache Flink 社区从零开始研发,Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。

2023 年 3 月 12 日,Flink Table Store 项目顺利通过投票,正式进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon,一个真正面向 Streaming 以及 Realtime 的数据湖存储项目。 之后在导师 Yu Li、Becket Qin、Stephan Ewen、 Robert Metzger 的指导下,由孵化器管理委员会成员进行辅导和孵化。

2024 年 3 月 20 日,Apache 董事会通过 Apache Paimon 毕业决议,结束了为期一年的孵化,正式确定 Apache Paimon 成为 Apache 顶级项目。

孵化的一年间,Paimon 社区的贡献者和关注者都获得了非常大的提升。

Paimon 在这一年里发布了四个大版本,并在大量企业生产实践中使用,包括 阿里巴巴、字节跳动、同程旅行、蚂蚁集团、中国联通、网易、中原银行、汽车之家、平安证券、喜马拉雅等企业,广泛应用于实时数据湖的构建,帮助数据库更好的 CDC 入湖,帮助构建近实时流式湖仓,帮助企业提升数据时效性价值,获取业务实时化效果。

核心能力

Apache Paimon 是一个湖格式,结合 Flink 及 Spark 构建流批处理的实时湖仓一体架构。Paimon 创新的结合湖格式与 LSM 技术,给数据湖带来了实时流更新以及完整的流处理能力。

在过去的孵化期间,Paimon 通过技术创新不断克服挑战,展现出了以下关键特性:

实时入湖能力增强:Paimon 提供了一系列的入湖工具,自动同步 Schema 变更,允许快速将包括 MySQL 在内的多种数据库系统的实时变化同步至数据湖,即便在千万级数据规模下也能保持高效率与低延迟。

湖上批流一体处理:Paimon 结合 Flink 提供完整的流处理能力,结合 Spark 提供完整的批处理能力。基于统一的数据湖存储,提供数据口径一致的批流一体处理,提高易用性并降低成本。

全面生态集成拓展:Paimon 已经与众多开源工具和技术栈紧密集成,支持大数据典型计算引擎,包括 Flink、Spark、Hive、Trino、Presto、StarRocks、Doris 等等,统一存储,计算无边界。

湖仓存储格式革新:Paimon 持续创新,引入新功能,在流批技术处理的基础上,提出 Deletion Vectors 和索引来增强查询性能,在分钟级时效性基础上满足流、批、OLAP 等场景的全方位支持。

Apache Paimon 的毕业意味着该项目已经在社区治理、代码质量、文档完善度以及用户采用度等方面达到了 Apache 社区严格的标准要求,得到了广泛认可。这将进一步加速项目的普及与应用,推动实时数据湖技术在全球范围内的广泛应用。

毕业寄语

衷心祝贺 Paimon 社区毕业成为 Apache 顶级项目!作为项目的孵化 Champion 和导师,很高兴看到 Paimon 社区通过践行 Apache Way 发展的越来越繁荣。在孵化期间,Paimon 不仅发布了多个功能丰富且具备创新性的版本,还营造了一种包容的氛围,吸引了很多新的贡献者加入社区。祝愿 Paimon 百尺竿头更进一步,成为世界级的明星项目,推动实时数据湖技术的持续发展。
—— 李钰 ASF Member and Incubator Mentor,阿里云 EMR 负责人

祝贺 Paimon 毕业并成为 ASF 的顶级项目。事实上,Paimon 已经开始帮助阿里巴巴对 Lakehouse 架构进行实时更新和分析,此外,我们还将在未来利用 Paimon 为 AI 业务服务。
—— 王峰 阿里云开源大数据负责人

热烈祝贺 Apache Paimon 顺利毕业,这是一个重要的里程碑,是对 Paimon 社区开发者的肯定。我有幸参与到 Paimon 从 Flink Table Store 到独立孵化,到顺利毕业的整个过程,切身体会到社区开发者的务实和极致。祝愿 Apache Paimon 在未来的发展中解决更多的数据湖业务场景,取得更大的成功。
—— 张光辉 字节跳动流式计算负责人

祝贺 Paimon 从孵化器中毕业成为 Apache 开源顶级项目!Apache Paimon 是一款高性能、低延迟的实时数据湖,在蚂蚁公司风控、五福等场景应用中,显著降低了数据计算、存储成本,明显提升了数据开发效率。祝愿 Apache Paimon 社区发展越来越好,彻底改变当前流批分离的数据开发模式,成为数据湖领域的领导者。
—— 李志刚 蚂蚁集团实时计算引擎负责人

恭喜 Paimon 顺利毕业,我们从早期就开始应用 paimon 到我们的湖仓建设之中,得益于 Paimon 简单、流批一体等特性在我们的数据湖仓建设中发挥了重要作用,极大的简化了湖仓业务的开发流程。我们深信 Paimon 毕业后会为更多的企业的数据湖仓带来便利,为湖仓发展作出更多的创新。
—— 吴祥平 同程旅行大数据计算负责人

我很高兴 Paimon 的社区在过去的一年里变得越来越强大,大量的开发者和用户加入了这个社区,经过社区的努力,Paimon 已经超出了我的想象,在许多企业中拥有非常丰富的使用场景。希望 Paimon 能在未来成为统一的湖存储底座,满足离线批计算、实时流计算与 OLAP 计算。
—— 李劲松 Apache Paimon PMC Chair


更多内容

阿里云提供的基于Flink和Paimon的云上流式湖仓解决方案,旨在搭建高效、低延时的流式数据湖仓。此方案利用Flink的实时计算能力,结合Paimon的高效更新能力,实现数据在数仓分层间的实时流动。其优势包括将数据变更的传递延时从小时级甚至天级降低至分钟级,无需覆写分区即可直接接受变更数据,从而极大地降低了数据更新与订正的成本。此外,ETL链路的逻辑基于Flink SQL实现,统一了模型并简化了架构,提高了数据处理效率。点击下方链接了解更多详情。

点击:基于Flink+Paimon搭建流式湖仓

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?pipCode=sc

0CA9E977-9C4C-4444-94B3-F01C0B8C891B.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
17天前
|
存储 数据挖掘 数据处理
巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践
随着数据湖技术的发展,企业纷纷探索其优化潜力。本文分享了巴别时代使用 Apache Paimon 构建 Streaming Lakehouse 的实践。Paimon 支持流式和批处理,提供高性能、统一的数据访问和流批一体的优势。通过示例代码和实践经验,展示了如何高效处理实时数据,解决了数据一致性和故障恢复等挑战。
99 61
|
17天前
|
分布式计算 大数据 Apache
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地
2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F,阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup,助力企业 LakeHouse 架构生产落地”线下 meetup,欢迎报名参加!
84 3
|
1月前
|
存储 数据挖掘 数据处理
Apache Paimon 是一款高性能的数据湖框架,支持流式和批处理,适用于实时数据分析
【10月更文挑战第8天】随着数据湖技术的发展,越来越多企业开始利用这一技术优化数据处理。Apache Paimon 是一款高性能的数据湖框架,支持流式和批处理,适用于实时数据分析。本文分享了巴别时代在构建基于 Paimon 的 Streaming Lakehouse 的探索和实践经验,包括示例代码和实际应用中的优势与挑战。
63 1
|
3月前
|
Rust Apache 对象存储
Apache Paimon V0.9最新进展
Apache Paimon V0.9 版本即将发布,此版本带来了多项新特性并解决了关键挑战。Paimon自2022年从Flink社区诞生以来迅速成长,已成为Apache顶级项目,并广泛应用于阿里集团内外的多家企业。
17620 13
Apache Paimon V0.9最新进展
|
3月前
|
关系型数据库 MySQL 应用服务中间件
win7系统搭建PHP+Mysql+Apache环境+部署ecshop项目
这篇文章介绍了如何在Windows 7系统上搭建PHP、MySQL和Apache环境,并部署ECShop项目,包括安装配置步骤、解决常见问题以及使用XAMPP集成环境的替代方案。
55 1
win7系统搭建PHP+Mysql+Apache环境+部署ecshop项目
|
2月前
|
Apache
多应用模式下,忽略项目的入口文件,重写Apache规则
本文介绍了在多应用模式下,如何通过编辑Apache的.htaccess文件来重写URL规则,从而实现忽略项目入口文件index.php进行访问的方法。
|
3月前
|
Java 应用服务中间件 Apache
使用IDEA修改Web项目访问路径,以及解决Apache Tomcat控制台中文乱码问题
本文介绍了在IntelliJ IDEA中修改Web项目访问路径的步骤,包括修改项目、模块、Artifacts的配置,编辑Tomcat服务器设置,以及解决Apache Tomcat控制台中文乱码问题的方法。
207 0
使用IDEA修改Web项目访问路径,以及解决Apache Tomcat控制台中文乱码问题
|
3月前
|
Java Spring API
Spring框架与GraphQL的史诗级碰撞:颠覆传统,重塑API开发的未来传奇!
【8月更文挑战第31天】《Spring框架与GraphQL:构建现代API》介绍了如何结合Spring框架与GraphQL构建高效、灵活的API。首先通过引入`spring-boot-starter-data-graphql`等依赖支持GraphQL,然后定义查询和类型,利用`@GraphQLQuery`等注解实现具体功能。Spring的依赖注入和事务管理进一步增强了GraphQL服务的能力。示例展示了从查询到突变的具体实现,证明了Spring与GraphQL结合的强大潜力,适合现代API设计与开发。
132 0
|
3月前
|
关系型数据库 Linux 网络安全
"Linux系统实战:从零开始部署Apache+PHP Web项目,轻松搭建您的在线应用"
【8月更文挑战第9天】Linux作为服务器操作系统,凭借其稳定性和安全性成为部署Web项目的优选平台。本文以Apache Web服务器和PHP项目为例,介绍部署流程。首先,通过包管理器安装Apache与PHP;接着创建项目目录,并上传项目文件至该目录;根据需要配置Apache虚拟主机;最后重启Apache服务并测试项目。确保防火墙允许HTTP流量,正确配置数据库连接,并定期更新系统以维持安全。随着项目复杂度提升,进一步学习高级配置将变得必要。
329 0
|
6月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
258 1

推荐镜像

更多