Flink CDC 3.5 正式发布,新增 PostgreSQL Source 和 Fluss Sink 连接器

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: Apache Flink CDC 3.5 正式发布,支持万表同步性能优化、PostgreSQL 整库同步至 Apache Fluss 流存储,增强 MySQL、Paimon 等连接器稳定性,并修复 GTID 数据正确性等关键问题,提升实时 ETL 可靠性与易用性。

一、Flink CDC 3.5 发布

在社区用户和开发者们的共同努力下,Apache Flink 社区很高兴宣布 Flink CDC 的下一个主要版本 3.5.0 已经发布[1],你可以通过官网下载和快速体验[2]。3.5 版本共有 39位社区贡献者参与贡献,累计关闭 47 个 issue,合并了 68 个PR,贡献了 77 个 commits。

从代码分布上看,Pipeline 框架和 Pipeline Connector 占据主要部分,看起来社区用户更喜欢使用 YAML 文本完成实时 ETL 任务的开发,比如该版本新增了读取 PostgreSQL 数据源和写入 Apache Fluss [3]流存储的能力,解锁了一个文本实现整库同步 PostgreSQL 的数据到 Fluss 流存储的业务场景。此外,一些重点连接器如MySQL CDC Source、Paimon Sink 也占据了相当大的部分,也和实时入湖入仓领域快速发展吻合。以及文档模块均为用户带来了很多特性和改进。

社区推荐您尝试升级到当前版本,同时你也可以在社区邮件列表[4]和 Flink JIRA[5] 上反馈您使用过程中碰到的问题和建议。


二、Flink CDC 3.5 速览

Flink CDC 3.5 版本中,社区贡献者重点改进了 Pipeline 框架在处理万表同步、元数据协调等场景的性能优化和稳定性改进,扩展了 CDC Pipeline 支持的上下游,新增了读取 PostgreSQL 数据源和写入 Apache Fluss 流存储的能力,解锁了通过简单的 YAML 文本便可实现整库同步 PostgreSQL 的数据到 Fluss 流存储等业务场景。MySQL 主从复制的 GTID 空洞场景、Paimon 表结构自动演进等极端场景进行深度适配和修复,解决了生产环境中小概率命中的数据正确性和安全问题问题。此外,来自 Oceanbase 社区的贡献者对 Oceanbase CDC Source 使用 Binlog Service 进行了重写,极大地提升了流读场景下的稳定性。

三、详解核心特性和重要改进

3.1 Pipeline Connector

  • 新的 PostgreSQL Source 连接器。YAML Pipeline 作业现在可以从 PostgreSQL 数据库读取全量和增量数据,同时支持表结构自动推导和整库同步等功能。
  • 新的 Apache Fluss Sink 连接器。Apache Fluss 是一款专为实时分析而设计的流式存储。现在,YAML pipeline 作业支持自动建表,并将上游的数据变更实时写入到 Fluss 中。
  • 升级 Paimon SDK 版本。Paimon 连接器的依赖版本已升级到目前最新的 1.2.0。

3.2 Source Connector

  • MySQL CDC 现在可以正确处理 VARCHAR(0) 字段类型。
  • PostgreSQL CDC 现在支持发现分区表并以 Append Only 模式读取变更数据。
  • OceanBase CDC 实现现在从 LogProxy 迁移至更稳定的 OceanBase Binlog Service。

3.3 Pipeline 框架改进

  • 扩充日期时间类型支持。Transform 中提供的转换和日期时间函数现在能够正确处理 DATETIME 字段类型,而不是退化到整数运算。
  • 改进错误恢复逻辑。通过改进错误恢复和状态存储逻辑,Pipeline 作业现在能够从更多 Failover 场景中自动恢复。

3.4 其他改进

  • Paimon Pipeline 连接器现在支持写入现存表。在下游已经存在同名表时,会自动将上游数据进行转换后尝试写入其中,而非报告表结构不匹配的错误。
  • 修复 MySQL CDC 在主从 GTID 复制不保序导致的数据正确性问题。这一问题只影响开启了并行主从拷贝(replica_parallel_workers > 1)、且未启用提交顺序一致性保证(replica_preserve_commit_order = NO)的集群。
  • 修复增量快照框架中不正确的读取结束逻辑。此问题可能导致作业在增量读取阶段挂起。
  • 修复大小写敏感场景下执行表结构变更可能导致作业报错的问题。


四、致谢

特别感谢 Kunni 作为 Release Manager 对 Flink CDC 3.5 版本的管理和发布工作,Ouyangwulin 对新增 PostgreSQL Pipeline Source 连接器的贡献,Junbo Wang 和 Hongshun Wang 对新增 Fluss Pipeline Sink 连接器的贡献。

感谢以下开发者对此版本做出的代码贡献(字母排序):

Chao Zhang, ChengJie1053, gongzhongqiang, Hang Ruan, Hongshun Wang, hql0312, Ihor Mielientiev, Junbo Wang, junmuz, kangzai, Kunni, Lanny Boarts, linjianchang, lvyanquan, Marta Paes, MOBIN, Naci Simsek, North Lin, ouyangwulin, proletarians, Sachin Mittal, Sergei Morozov, SeungMin, Shawn Huang, suhwan, suntectec, tbpure, Thorne, Tianzhu Wen, Vinh Pham, wangjunbo, wudi, wuzexian, Xin Gong, yuanoOo, yuxiqian, zhangchao.doovvv, zhuxt2015, Мухутдинов Артур

引用

[1] https://flink.apache.org/2025/09/26/apache-flink-cdc-3.5.0-release-announcement/

[2] https://flink.apache.org/

[3] https://fluss.apache.org/

[4] https://flink.apache.org/what-is-flink/community/

[5] https://issues.apache.org/jira/projects/FLINK/issues

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
API Apache 数据库
Flink CDC 3.0 正式发布,详细解读新一代实时数据集成框架
Flink CDC 于 2023 年 12 月 7 日重磅推出了其全新的 3.0 版本 ~
109710 8
 Flink CDC 3.0 正式发布,详细解读新一代实时数据集成框架
|
Oracle NoSQL 关系型数据库
实时计算 Flink版操作报错之报错:java.lang.ClassNotFoundException: io.debezium.connector.common.RelationalBaseSourceConnector,如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
6月前
|
SQL 关系型数据库 MySQL
Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
Apache Flink CDC 3.4.0 版本正式发布!经过4个月的开发,此版本强化了对高频表结构变更的支持,新增 batch 执行模式和 Apache Iceberg Sink 连接器,可将数据库数据全增量实时写入 Iceberg 数据湖。51位贡献者完成了259次代码提交,优化了 MySQL、MongoDB 等连接器,并修复多个缺陷。未来 3.5 版本将聚焦脏数据处理、数据限流等能力及 AI 生态对接。欢迎下载体验并提出反馈!
1189 1
Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持
|
3月前
|
SQL 关系型数据库 Apache
从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路
本文将深入解析 Flink-Doris-Connector 三大典型场景中的设计与实现,并结合 Flink CDC 详细介绍了整库同步的解决方案,助力构建更加高效、稳定的实时数据处理体系。
1759 0
从 Flink 到 Doris 的实时数据写入实践 —— 基于 Flink CDC 构建更实时高效的数据集成链路
|
8月前
|
分布式计算 关系型数据库 MySQL
Flink CDC 3.3.0 发布公告
Flink CDC 3.3.0 发布公告
373 14
|
9月前
|
Java 关系型数据库 MySQL
SpringBoot 通过集成 Flink CDC 来实时追踪 MySql 数据变动
通过详细的步骤和示例代码,您可以在 SpringBoot 项目中成功集成 Flink CDC,并实时追踪 MySQL 数据库的变动。
2373 45
|
算法 API Apache
Flink CDC:新一代实时数据集成框架
本文源自阿里云实时计算团队 Apache Flink Committer 任庆盛在 Apache Asia CommunityOverCode 2024 的分享,涵盖 Flink CDC 的概念、版本历程、内部实现及社区未来规划。Flink CDC 是一种基于数据库日志的 CDC 技术实现的数据集成框架,能高效完成全量和增量数据的实时同步。自 2020 年以来,Flink CDC 经过多次迭代,已成为功能强大的实时数据集成工具,支持多种数据库和数据湖仓系统。未来将进一步扩展生态并提升稳定性。
4255 3
Flink CDC:新一代实时数据集成框架
|
Java 关系型数据库 数据库连接
实时计算 Flink版操作报错之在使用JDBC连接MySQL数据库时遇到报错,识别不到jdbc了,怎么解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
关系型数据库 API Apache
Flink CDC:基于 Apache Flink 的流式数据集成框架
本文整理自阿里云 Flink SQL 团队研发工程师于喜千(yux)在 SECon 全球软件工程技术大会中数据集成专场沙龙的分享。
20852 11
Flink CDC:基于 Apache Flink 的流式数据集成框架
|
资源调度 关系型数据库 MySQL
【Flink on YARN + CDC 3.0】神操作!看完这篇教程,你也能成为数据流处理高手!从零开始,一步步教会你在Flink on YARN模式下如何配置Debezium CDC 3.0,让你的数据库变更数据瞬间飞起来!
【8月更文挑战第15天】随着Apache Flink的普及,企业广泛采用Flink on YARN部署流处理应用,高效利用集群资源。变更数据捕获(CDC)工具在现代数据栈中至关重要,能实时捕捉数据库变化并转发给下游系统处理。本文以Flink on YARN为例,介绍如何在Debezium CDC 3.0中配置MySQL连接器,实现数据流处理。首先确保YARN上已部署Flink集群,接着安装Debezium MySQL连接器并配置Kafka Connect。最后,创建Flink任务消费变更事件并提交任务到Flink集群。通过这些步骤,可以构建出从数据库变更到实时处理的无缝数据管道。
1082 2