Flink CDC 3.3.0 发布公告

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: Flink CDC 3.3.0 发布公告

Apache Flink 社区非常高兴地宣布 Flink CDC 的下一个主要版本 3.3.0 已经发布。

现在,您可以访问 Flink CDC Release 页面[1] 下载 CDC 3.3.0 的二进制包,也可以在文档网站[2] 上访问最新版本的文档。如果您在使用时遇到任何问题,欢迎在 Flink 用户邮件列表[3]、用户钉群、GitHub Discussions[4] 或 Flink JIRA 看板[5] 上提出问题或发起讨论。

此次更新为数据集成 Pipeline 引入了 AI Model 支持,新增了 Oceanbase 与 MaxCompute Sink 连接器,并为 Transform 模块带来了若干改进。我们推荐您升级到 Flink CDC 3.3.0 版本。

此版本不再保证与 Flink 1.18 及更早版本的兼容性。

新功能速览

Transform

  • 支持在 Transform 表达式中调用 AI Model。目前内置 OpenAI Chat 模型及 Embedding 向量化模型。

image.png

  • 新增了操作时间戳的 TIMESTAMPADDTIMESTAMPDIFFUNIX_TIMESTAMP 内置函数。
  • 支持“逻辑删除”转换功能,将来自上游的 DELETE 事件转换为带特殊标记的 INSERT 事件。

Connectors

image.png

  • 适用于 OceanBase 和 MaxCompute 的 Pipeline 连接器现已提供。
  • 为接入增量快照框架的 CDC 连接器实现了异步分片功能,并完善了 Metrics 支持。
  • 优化了 CDC 连接器 ROW 类型字段的反序列化效率。

OceanBase Pipeline Connector

OceanBase 是一款原生分布式关系型数据库,具备高性能和高可用性,能够支持海量数据和高并发。现在可以作为 YAML Pipeline Sink 使用。

MaxCompute Pipeline Connector

MaxCompute 是阿里云提供的分布式大数据处理平台,广泛应用于数据分析、报表生成、机器学习等场景。现在可以作为 YAML Pipeline Sink 使用。

Paimon Pipeline Connector

  • 支持同步列默认值。
  • 支持应用 TRUNCATE TABLE 和 DROP TABLE 事件。
  • 更新 Paimon 依赖版本到 0.9.0。

MySQL Connector

  • 支持解析 gh-ost 和 pt-osc 等无锁 Schema 变更工具产生的 DDL 变更事件。
  • 新增是否将 TINYINT(1) 映射到 BOOLEAN 类型的配置。
  • 支持同步表注释及行注释。
  • MySQL CDC 下发的增量数据记录中现在携带 op_ts 元数据列,可以在 Transform 表达式中进行操作。

PostgreSQL CDC Connector

  • 减少不必要的 Schema 查询,优化初次启动时间。
  • 支持 Heartbeat 心跳包。
  • 增加 op_type 元数据列。

Common

  • 新增了用于快速搭建数据集成验证环境的 cdc-up 脚本。

缺陷修复

  • 修复了 MySQL CDC 处理新增表时可能的死锁问题。
  • 修复了 MySQL CDC 处理 JSON 类型、带精度 FLOAT 类型的处理行为。
  • 修复了 Paimon Sink 重复 commit 导致作业失败问题。
  • 修复了 Transform 底层实现参数传递顺序问题。
  • 修复了并发执行 Schema Evolution 时作业挂起的问题。
  • 修复了作业失败重启后,Data Sink 内部状态不正确的问题。

致谢

感谢以下 37 名开发者对 Flink CDC 3.3 版本做出的贡献:

Chaoming Zhang, ConradJam, Hang Ruan, hiliuxg, Hongshun Wang, Jason Zhang, Junbo wang, Jzjsnow, jzjsnow, Kunni, Leonard Xu, liuxiaodong, MOBIN, MOBIN-F, molin.lxd, moses, North Lin, Olivier, ouyangwulin, Petrichor, Robin Moffatt, Runkang He, Sergei Morozov, Seung-Min Lee, Shawn Huang, stayrascal, Thorne, Timi, Umesh Dangat, wenmo, Wink, wudi, wuzhiping, Xin Gong, yuanoOo, yuxiqian, Zexian Wu


[1] https://github.com/apache/flink-cdc/releases/tag/release-3.3.0

[2] https://nightlies.apache.org/flink/flink-cdc-docs-stable

[3] https://flink.apache.org/what-is-flink/community

[4] https://github.com/apache/flink-cdc/discussions

[5] https://issues.apache.org/jira/projects/FLINK/summary


本周五,阿里云技术专家、Apache Flink Committer 阮航老师将为大家解读 Apache Flink CDC 3.3 新版本、新特性。

点击下方直播预约,周五同小松鼠一起快速了解 3.3 版本~


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
1月前
|
消息中间件 关系型数据库 MySQL
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
209 0
|
16天前
|
SQL API Apache
Dinky 和 Flink CDC 在实时整库同步的探索之路
本次分享围绕 Dinky 的整库同步技术演进,从传统数据集成方案的痛点出发,探讨了 Flink CDC Yaml 作业的探索历程。内容分为三个部分:起源、探索、未来。在起源部分,分析了传统数据集成方案中全量与增量割裂、时效性低等问题,引出 Flink CDC 的优势;探索部分详细对比了 Dinky CDC Source 和 Flink CDC Pipeline 的架构与能力,深入讲解了 YAML 作业的细节,如模式演变、数据转换等;未来部分则展望了 Dinky 对 Flink CDC 的支持与优化方向,包括 Pipeline 转换功能、Transform 扩展及实时湖仓治理等。
321 12
Dinky 和 Flink CDC 在实时整库同步的探索之路
|
30天前
|
Oracle 关系型数据库 Java
【YashanDB知识库】Flink CDC实时同步Oracle数据到崖山
本文介绍通过Flink CDC实现Oracle数据实时同步至崖山数据库(YashanDB)的方法,支持全量与增量同步,并涵盖新增、修改和删除的DML操作。内容包括环境准备(如JDK、Flink版本等)、Oracle日志归档启用、用户权限配置、增量日志记录设置、元数据迁移、Flink安装与配置、生成Flink SQL文件、Streampark部署,以及创建和启动实时同步任务的具体步骤。适合需要跨数据库实时同步方案的技术人员参考。
【YashanDB知识库】Flink CDC实时同步Oracle数据到崖山
|
1月前
|
关系型数据库 MySQL 数据库
基于Flink CDC 开发,支持Web-UI的实时KingBase 连接器,三大模式无缝切换,效率翻倍!
TIS 是一款基于Web-UI的开源大数据集成工具,通过与人大金仓Kingbase的深度整合,提供高效、灵活的实时数据集成方案。它支持增量数据监听和实时写入,兼容MySQL、PostgreSQL和Oracle模式,无需编写复杂脚本,操作简单直观,特别适合非专业开发人员使用。TIS率先实现了Kingbase CDC连接器的整合,成为业界首个开箱即用的Kingbase CDC数据同步解决方案,助力企业数字化转型。
220 5
基于Flink CDC 开发,支持Web-UI的实时KingBase 连接器,三大模式无缝切换,效率翻倍!
|
1月前
|
存储 SQL Java
Flink CDC + Hologres高性能数据同步优化实践
本文整理自阿里云高级技术专家胡一博老师在Flink Forward Asia 2024数据集成(二)专场的分享,主要内容包括:1. Hologres介绍:实时数据仓库,支持毫秒级写入和高QPS查询;2. 写入优化:通过改进缓冲队列、连接池和COPY模式提高吞吐量和降低延迟;3. 消费优化:优化离线场景和分区表的消费逻辑,提升性能和资源利用率;4. 未来展望:进一步简化用户操作,支持更多DDL操作及全增量消费。Hologres 3.0全新升级为一体化实时湖仓平台,提供多项新功能并降低使用成本。
295 1
Flink CDC + Hologres高性能数据同步优化实践
|
2月前
|
消息中间件 关系型数据库 MySQL
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
本教程展示如何使用Flink CDC YAML快速构建从MySQL到Kafka的流式数据集成作业,涵盖整库同步和表结构变更同步。无需编写Java/Scala代码或安装IDE,所有操作在Flink CDC CLI中完成。首先准备Flink Standalone集群和Docker环境(包括MySQL、Kafka和Zookeeper),然后通过配置YAML文件提交任务,实现数据同步。教程还介绍了路由变更、写入多个分区、输出格式设置及上游表名到下游Topic的映射等功能,并提供详细的命令和示例。最后,包含环境清理步骤以确保资源释放。
358 2
基于 Flink CDC YAML 的 MySQL 到 Kafka 流式数据集成
|
2月前
|
Java 关系型数据库 MySQL
SpringBoot 通过集成 Flink CDC 来实时追踪 MySql 数据变动
通过详细的步骤和示例代码,您可以在 SpringBoot 项目中成功集成 Flink CDC,并实时追踪 MySQL 数据库的变动。
529 43
|
2月前
|
SQL 人工智能 关系型数据库
Flink CDC YAML:面向数据集成的 API 设计
本文整理自阿里云智能集团 Flink PMC Member & Committer 徐榜江(雪尽)在 FFA 2024 分论坛的分享,涵盖四大主题:Flink CDC、YAML API、Transform + AI 和 Community。文章详细介绍了 Flink CDC 的发展历程及其优势,特别是 YAML API 的设计与实现,以及如何通过 Transform 和 AI 模型集成提升数据处理能力。最后,分享了社区动态和未来规划,欢迎更多开发者加入开源社区,共同推动 Flink CDC 的发展。
475 12
Flink CDC YAML:面向数据集成的 API 设计
|
1月前
|
SQL 弹性计算 DataWorks
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
|
1月前
|
SQL 人工智能 关系型数据库
Flink CDC YAML:面向数据集成的 API 设计
Flink CDC YAML:面向数据集成的 API 设计

热门文章

最新文章

下一篇
oss创建bucket