Flink CDC 3.4 发布, 优化高频 DDL 处理,支持 Batch 模式,新增 Iceberg 支持

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Apache Flink CDC 3.4.0 版本正式发布!经过4个月的开发,此版本强化了对高频表结构变更的支持,新增 batch 执行模式和 Apache Iceberg Sink 连接器,可将数据库数据全增量实时写入 Iceberg 数据湖。51位贡献者完成了259次代码提交,优化了 MySQL、MongoDB 等连接器,并修复多个缺陷。未来 3.5 版本将聚焦脏数据处理、数据限流等能力及 AI 生态对接。欢迎下载体验并提出反馈!

引言

Apache Flink 社区很开心地宣布,在经过4个月的版本开发之后,Flink CDC 3.4.0 版本已经正式发布。Flink CDC 是流行的流式数据集成框架,CDC 3.4.0 版本强化了框架对于高频表结构变更的支持,框架支持了 batch 执行模式,新增 Apache Iceberg Sink 连接器支持,用户可以使用 Flink CDC 将数据库数据全增量一体化实时写入 Iceberg 数据湖。我们推荐社区用户升级到 Flink CDC 3.4.0 版本。

一、版本数据

Flink CDC 3.4.0 版本吸引了51位社区贡献者,累计完成259次代码提交,关闭65个 issue。这些代码贡献主要分布在连接器组件、运行时引擎、transform 等模块。

现在,您可以访问 Flink CDC Release 页面[1] 下载 Flink CDC 3.4.0 的二进制包,也可以在文档网站[2] 上访问最新版本的文档。如果您在使用时遇到任何问题,欢迎在 Flink 用户邮件列表[3]、用户钉群、GitHub Discussions[4] 或 Flink JIRA 看板[5] 上提出问题或发起讨论。

二、版本概览

此次发版,Flink CDC 重点改进和功能如下:

Flink CDC 3.4.0 为数据集成 Pipeline 作业支持了 batch 执行模式,batch 执行模式可以高效实现全量数据同步的需求;在表结构演进功能上完成了高频表结构变更场景的性能优化;同时增加了对 YARN Application 提交模式的支持;新增了 Iceberg Sink 连接器,支持 CDC 数据实时写入 Iceberg,此外还对 Paimon、MySQL 和 MongoDB 连接器做了完善和优化。

三、特性解读

3.1 Flink CDC 框架

Batch 执行模式

在Flink CDC 3.4版本中,CDC Pipeline 框架提供了 execution.runtime-mode参数,当配置该参数为 BATCH时,会创建并提交 Flink batch 作业。在只需执行全量数据同步的业务场景下,使用batch模式能够有效降低作业资源消耗,提升数据同步效率。

目前仅支持 MySQL Source 连接器对接到了batch模式,且需将启动参数配置为 snapshot(仅快照)模式。

Schema Evolution 优化

Flink CDC 3.4 版本优化了多表同步情况下,作业初始化阶段的协调耗时,并修复了高频率执行表结构变更时,偶现的作业挂起问题,同时优化了作业异常时打印更多表结构和数据信息便于问题分析排查。

YARN Application 部署模式

Flink CDC CLI 在3.4版本中支持通过 ./bin/flink-cdc.sh -t yarn-application命令创建一个新的 yarn-application部署作业。在此模式下,框架支持创建一个专用的 JobManager 并提交作业,并在作业执行完成后自动销毁。

3.2 Flink CDC 连接器

Iceberg Pipeline Connector

Apache Iceberg 业界领先的数据湖格式,Flink CDC 3.4.0版本提供了Iceberg Sink 连接器,现在用户可以使用 CDC YAML 作业将来自数据库的CDC数据高效写入到 Apache Iceberg 中,构建基于 Iceberg 的实时数据湖。

Paimon Pipeline Connector

Paimon 是国内实时数据湖的主流格式,在Flink CDC 3.4版本中,社区升级 Paimon 版本到 1.0.1,这是 Apache Paimon 1.0 的稳定版本。同时优化了checkpoint 阶段执行 commit 的用时,新增对无主键表的写入支持,同时还支持写入完整的 Changelog。

MySQL CDC Connector

MySQL作为重点连接器,在 Flink CDC 3.4版本中,社区支持了将变更流转换为仅追加(Append Only)流,从而实现逻辑删除的功能。同时提供优先处理无界的分片的配置,能够有效避免全量阶段运行时间过长导致 TaskManager 处理最后一个大分片引发的 OOM 问题。

MongoDB CDC Connector

针对社区用户对 MongoDB 对 oplog 中的操作类型访问需求,CDC 3.4 版本对 MongoDB CDC 连接器增加 op_type 元数据,支持读取 oplog 中的操作类型。

3.3 Flink CDC 缺陷修复和改进

除了上述核心特性外,Flink CDC 3.4 版本也包含了多个缺陷修复和改进,包括:

  • 修复了 Pipeline 作业在有状态重启后会重新推导表结构的问题。

  • 修复了 Pipeline 作业在使用 transform 时不支持使用不满足 java 变量名规则字段的问题。

  • 修复了 Pipeline 作业在使用 transform 时不支持覆盖表中已经存在的同名列的问题。

  • 修复了 Pipeline 作业在 transform 中部分算术函数不支持处理 null 值的问题。

  • 修复了 MySQL 连接器开启 scan.binlog.newly-added-table.enabled 时意外捕获其他表的问题等。

四、未来规划

Flink CDC 3.5 版本的规划已经在社区发起讨论,新的版本一方面将会继续聚焦社区用户的共性需求,完善Flink CDC 框架能力,如脏数据处理、数据限流等API设计;另一方面会丰富 Pipeline 连接器生态,在社区贡献者特别是海外贡献者的驱动下支持 PostgreSQL 等海外重点生态;同时面向AI时代,也会完善目前Flink CDC 已有的 AI model 能力,对接更多AI生态。

致谢

特别感谢以下 51 名开发者对 Flink CDC 3.4.0 版本作出的贡献(按字母排序)!:

911432, chenhongyu, ConradJam, Ferenc Csaky, gongzhongqiang, Hang Ruan, He Wang, hiliuxg, Hongshun Wang, Jason Zhang, Jiabao Sun, Junbo Wang, Jzjsnow, Kevin Caesar, Kevin Wang, Kunni, Leonard Xu, lidoudou1993, linjianchang, liuxiaodong, lvyanquan, lzshlzsh, MOBIN-F, moses, North Lin, Olivier, ouyangwulin, Petrichor, proletarians, qinghuanwang, Qingsheng Ren, Robin Moffatt, Runkang He, Sergei Morozov, Seung-Min Lee, Shawn Huang, stayrascal, Thorne, Timi, Umesh Dangat, Vincent-Woo, Vinh Pham, wenmo, Wink, wudi, Xin Gong, yohei yoshimuta, yuanoOo, yuxiqian, zhangzheng


[1] https://github.com/apache/flink-cdc/releases/tag/release-3.4.0

[2] https://nightlies.apache.org/flink/flink-cdc-docs-release-3.4/

[3] https://flink.apache.org/what-is-flink/community

[4] https://github.com/apache/flink-cdc/discussions

[5] https://issues.apache.org/jira/projects/FLINK/summary


更多内容


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
18天前
|
数据采集 SQL canal
Amoro + Flink CDC 数据融合入湖新体验
本文总结了货拉拉高级大数据开发工程师陈政羽在Flink Forward Asia 2024上的分享,聚焦Flink CDC在货拉拉的应用与优化。内容涵盖CDC应用现状、数据入湖新体验、入湖优化及未来规划。文中详细分析了CDC在多业务场景中的实践,包括数据采集平台化、稳定性建设,以及面临的文件碎片化、Schema演进等挑战。同时介绍了基于Apache Amoro的湖仓融合架构,通过自优化服务解决小文件问题,提升数据新鲜度与读写平衡。未来将深化Paimon与Amoro的结合,打造更高效的入湖生态与自动化优化方案。
105 1
Amoro + Flink CDC 数据融合入湖新体验
|
8天前
|
消息中间件 SQL 关系型数据库
Flink CDC + Kafka 加速业务实时化
Flink CDC 是一种支持流批一体的分布式数据集成工具,通过 YAML 配置实现数据传输过程中的路由与转换操作。它已从单一数据源的 CDC 数据流发展为完整的数据同步解决方案,支持 MySQL、Kafka 等多种数据源和目标端(如 Delta Lake、Iceberg)。其核心功能包括多样化数据输入链路、Schema Evolution、Transform 和 Routing 模块,以及丰富的监控指标。相比传统 SQL 和 DataStream 作业,Flink CDC 提供更灵活的 Schema 变更控制和原始 binlog 同步能力。
|
9月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。
|
7月前
|
存储 分布式计算 流计算
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
本文介绍了阿里云开源大数据团队在实时计算领域的最新成果——向量化流计算引擎Flash。文章主要内容包括:Apache Flink 成为业界流计算标准、Flash 核心技术解读、性能测试数据以及在阿里巴巴集团的落地效果。Flash 是一款完全兼容 Apache Flink 的新一代流计算引擎,通过向量化技术和 C++ 实现,大幅提升了性能和成本效益。
2641 73
实时计算 Flash – 兼容 Flink 的新一代向量化流计算引擎
|
11月前
|
存储 监控 大数据
阿里云实时计算Flink在多行业的应用和实践
本文整理自 Flink Forward Asia 2023 中闭门会的分享。主要分享实时计算在各行业的应用实践,对回归实时计算的重点场景进行介绍以及企业如何使用实时计算技术,并且提供一些在技术架构上的参考建议。
1193 7
阿里云实时计算Flink在多行业的应用和实践
zdl
|
7月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
314 56
|
5月前
|
消息中间件 关系型数据库 MySQL
Flink CDC 在阿里云实时计算Flink版的云上实践
本文整理自阿里云高级开发工程师阮航在Flink Forward Asia 2024的分享,重点介绍了Flink CDC与实时计算Flink的集成、CDC YAML的核心功能及应用场景。主要内容包括:Flink CDC的发展及其在流批数据处理中的作用;CDC YAML支持的同步链路、Transform和Route功能、丰富的监控指标;典型应用场景如整库同步、Binlog原始数据同步、分库分表同步等;并通过两个Demo展示了MySQL整库同步到Paimon和Binlog同步到Kafka的过程。最后,介绍了未来规划,如脏数据处理、数据限流及扩展数据源支持。
369 0
Flink CDC 在阿里云实时计算Flink版的云上实践
|
6月前
|
存储 关系型数据库 BI
实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓
实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。
|
10月前
|
SQL 消息中间件 Kafka
实时计算 Flink版产品使用问题之如何在EMR-Flink的Flink SOL中针对source表单独设置并行度
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
9月前
|
人工智能 Apache 流计算
Flink Forward Asia 2024 上海站|探索实时计算新边界
Flink Forward Asia 2024 即将盛大开幕!11 月 29 至 30 日在上海举行,大会聚焦 Apache Flink 技术演进与未来规划,涵盖流式湖仓、流批一体、Data+AI 融合等前沿话题,提供近百场专业演讲。立即报名,共襄盛举!官网:https://asia.flink-forward.org/shanghai-2024/
1124 33
Flink Forward Asia 2024 上海站|探索实时计算新边界

相关产品

  • 实时计算 Flink版