玳数科技集成 Flink CDC 3.0 的实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 本文投稿自玳数科技工程师杨槐老师,介绍了 Flink CDC 3.0 与 ChunJun 框架在玳数科技的集成实践。

摘要:本文投稿自玳数科技工程师杨槐老师,介绍了 Flink CDC 3.0 与 ChunJun 框架在玳数科技的集成实践。主要分为以下六个内容:

  1. 背景
  2. 技术选型
  3. 架构设计
  4. 挑战与解决方案
  5. 上线效果
  6. 未来规划

1. 背景

玳数科技对内外部用户提供了一站式的数据开发治理平台,其中数据集成是用户使用最为广泛的一个重要功能,底层基于开源项目 ChunJun 完成离线和实时数据采集,支撑平台用户完成异构数据源的迁移和数据入湖入仓作业。

在离线同步场景,随着引擎层不停迭代,ChunJun 基于 Flink 1.10/1.12/1.16 提供了近百个数据源连接器,对引擎团队造成很大的维护压力,从稳定性以及维护成本考虑,研发团队决定离线同步作业固定使用某一个 Flink 版本。

在实时同步场景,用户对 Flink 新功能和特性更为关注,因此我们的实时同步和实时计算作业会根据 Flink 版本进行升级维护。考虑到实时同步场景下的稳定性挑战和上下游表结构同步挑战,我们也在积极参考业界的可靠方案进行实践。

2. 技术选型

在基于Flink架构的实时采集领域中,Flink CDC 的成熟度和社区繁荣度都是名列前茅的,经过了广泛验证。尤其是今年发布了 3.x 版本,功能更为完善,聚焦于数据集成领域,支持了全增量一体化、整库同步、Schema Evolution 等能力。

ChunJun 的 CDC 连接器基于 Canal 或者 logminer 实现实时采集,并提供了 Schema Evolution 等类似功能,和 Flink CDC 3.0 功能有很多的类似。我们在思考是否可以使用 Flink CDC 作为玳数科技实时同步的底层框架支持,这样能避免很多 CDC 相关的功能重复开发,同时考虑 Flink CDC 的发展速度,也能减少后续升级、维护等成本,能让引擎团队将重心集中在核心连接器以及 Flink 拓展上,并开始了接入 Flink CDC 3.0 的实践。

3. 架构设计

在对 Flink CDC 3.0 的集成上,我们遵循以下几个前提:

  1. 尽量避免对开源项目代码的强入侵性,避免后续和开源差异太大,维护成本变高;

  2. 屏蔽 Flink CDC 和 ChunJun 任务的差异性,减少平台的对接工作;

  3. 生态融合,ChunJun 和 Flink CDC 连接器能互相使用。

最终决定使用 ChunJun 框架作为统一入口,以 Json 作为任务描述载体,支持 ChunJun pipeline 和 Flink CDC pipeline 算子链的构造,同时将数据源连接器进行融合,ChunJun-connector 或者 Flink CDC-pipeline-connector连接器均可在 ChunJun 或者 Flink CDC 任务中使用。

采用这种架构,能带来以下好处:

  1. 屏蔽 FlinkCDC 和 ChunJun 任务的差异性,减少平台的对接工作;

  2. 引擎团队只有第一次适配层的工作量,后续 Flink CDC-pipeline-connector 的对接无需开发;

  3. ChunJun 和 CDC 连接器分离,无需关心 CDC sink 连接器的具体实现,只需将jar放入对应目录部署即可直接使用;

  4. ChunJun 连接器和 CDC pipeline 连接器的复用,丰富更多场景的选择。

4. 挑战和解决方案

4.1 客户端入口统一

4.1.1 挑战

目前内部数据平台通过 Json 统一描述各种同步任务,而 Flink CDC 基于 yaml 格式进行描述,因此为了保证统一性,我们需要 Json 支持描述 Flink CDC yaml 的所有信息,且结构和 ChunJun 任务的结构尽量一致,减少两者差异性。

4.1.2 解决方案

通过对比 Flink CDC Yaml 和 ChunJun Json 结构之后,如下图,我们发现两者需要描述的信息和内部结构也是类似的,因此只需要注意保证连接器参数 key 的一致性,ChunJun 的 Json 结构是完全可以代替 Yaml 的。

在配置文件统一之后,我们将 Flink 任务的构建入口统一为 ChunJun 的 Main 函数而不是 Flink CDC 的 cli 模块。因此 ChunJun 的 Main 函数在内部将 Json 转为 ChunJun 的 SyncConf 对象后,CDC 类型任务会将 SyncConf 转为 Flink CDC 的 PipelineDef 对象,交由 FlinkPipelineComposer 构建任务。

4.2 sink的完善

4.2.1 挑战

ChunJun连接器包含了丰富的经过生产验证的 connector 连接器,将 ChunJun 连接器集成到 Flink CDC 3.0,能极大地丰富 CDC pipeline 的使用场景。Flink CDC 提供了对 Flink Sinkv2 实现的连接器对接,对 SinkFunction 连接器未提供对接实现,引擎团队需要实现基于 SinkFunction 对接实现,支持 Schema Evolution 等功能,以及 ChunJun 连接器和 Flink CDC 连接器流转数据的转换。

4.2.2 解决方案

Flink CDC 为了下游支持 Schema Evolution 功能,需要 Sink 端支持 DataChangeEvent 数据写入之外,还需要支持 Flush Event 以及 SchemaChangeEvent 等事件的处理。在接收 Flush Event 事件时,需要刷写出当前 Subtask的缓存数据并提交到数据源并通知 SchemaRegistry 当前 Subtask 完成了数据刷写过程。

Flink CDC 提供了 DataSinkWriterOperator 对 Flink Sink 接口进行代理,以完成上述 Flush Event 事件处理逻辑,因此提供一个对 SinkFunction 的代理类是 ChunJun 连接器集成到FlinkCDC融合的关键。

借鉴 DataSinkWriterOperator,我们基于 Flink 的StreamSink自定一个 SinkFunctionOperator 类,对 SinkFunction 做代理。其主要改动点在于 Flush Event 处理以及 SchemaRegistry 的交互,主要两个改动点如下:

  1. SInkV2接口提供了Flush 方法,所以 Flink CDC 的 DataSinkWriterOperator 可以直接调用 Flush 方法进行数据刷新,而 SinkFunction 接口并没有相关实现,不过 ChunJun 连接器内部已经有 ddl 处理的业务实现。在 ChunJun 的 OutputFormat#writeRecord 逻辑里,如果接收到了 DdlRowData 就会执行 Flush 类似操作,将缓存的数据写入数据源,因此 Flush Event 只需要转成一个特殊的 EmptyDdlRowData 传给 OutputFormat 即可。

  2. ChunJun 将 dml 和 ddl 数据分别对应 ColumnRowData 和 DDlRowdata,和 Flink CDC 的 DataChangeEvent 和 SchemaChangeEvent 一一对应,因此我们提供了一个 serialize 接口解决 ChunJun 和 Flink CDC 数据的转换。

下图是 Flink CDC 采集 Mysql 写入 ChunJun Mysql Sink 连接器的一个任务示例:

4.3 route 配置增强

4.3.1 挑战

Flink CDC 在实时同步中还提供了 Route 模块,进行上下游表的映射关系处理。如下述配置为上游 dt 下的所有表同步到下游 sync 一张表中。

 route:
   - source-table: dt.\.*
    sink-table: dt.sync
    description: sync all sharding tables to one

但是在使用中,发现 route 算子在某些场景下的支持不够全面,比如我希望同步过程中,下游表会加上 sync 后缀代表是 CDC 任务同步的表,是比较难配置的。因为 Flink CDC 3.0 的 route 算子的映射关系配置中,下游必须是完整的 'schemaName'.'tableName' 表达方式,而不支持占位符,这样会导致上游表的数量和 route 配置的数量一致。

4.3.2 解决方案

我们在 route 算子做了部分改造,支持配置 ${schemaName} ${tableName} 作为占位符,下述脚本逻辑代表上游表写入上游表名加上 _CDC 后缀,如上游 dt.t1 的数据写入下游 dt.t1_CDC 表。

route:
  - source-table: dt.\.*
    sink-table: dt.${tableName}_CDC

4.4 SchemaChange 异常优化

4.4.1 挑战

Flink CDC 提供了多种策略处理 SchemaChange 事件,如忽略直接抛弃,抛出异常,自动执行策略。Flink CDC 3.0 版本在 EVOLVE 场景做了比较完善支持,而 EXCEPTION 场景下的处理比较粗暴,上游产生 SchemaChangeEvent 数据后直接抛出异常,让任务失败退出。

当配置抛出异常策略处理 schemaChange 事件后,客户在下游手动操作 Schema 变更完成后,任务上一次 checkpoint 和当前 SchemaChangeEvent 之间的数据较难恢复。因为 Flink CDC 在抛出异常前,并没有将 sink 端缓存的数据进行 Flush,即 Sink 没有接受到 Flush Event 进行处理。

4.4.2 解决方案

我们的解决方案是复用了 EVOLVE 所有流程,仅仅在 MetadataApplier#applySchemaChange 自动执行 Schema 变更前判断是否支持执行即可:SchemaChangeBehavior 为 EXCEPTION 时,执行 MetadataApplier#applySchemaChange 前抛出异常,这样由于复用了 EVOLVE 流程, MetadataApplier#applySchemaChange 执行之前,Sink 端一定会将所有数据刷新到数据源,客户只需要将任务的位点选择 SchemaChangeEvent的position,然后重新运行即可保证数据的一致性。

我们在 SchemaChangeEvent 里加上了 meta 信息,如 binlog 的点位信息,在抛出异常的时候会显示出相关位点信息,客户重跑任务,重新选择位点就很方便,直接选择日志里显示的位点信息即可。

5. 上线效果

引擎层基于上述方案对 ChunJun 和 Flink CDC 整合之后,节约了连接器层大量对接时间。以 mysql CDC->paimon 入湖为例,引擎研发团队只需要和平台研发团队进行简单的联调,不需要额外的连接器层的开发就可以快速上线,有效降低了开发运维成本。

同时使用 Flink CDC 也为玳数科技产品提供了全增量一体化、多表同步、SchemaEvolution 等强大功能。

6. 未来规划

目前以 Flink CDC 为基础的 mysql->paimon 入湖链路已在玳数科技产品上线,正在规划 Doris、StartRocks 等组件快速上线。同时我们密切关注 Flink CDC 社区的发展,将内部对 Flink CDC 的改动贡献到社区,减少两者差异性。玳数科技集成 Flink CDC 的未来规划主要如下:

  • 持续更新版本:Flink CDC 版本更新到 3.1+,将 transform 能力融入产品以及稳定性提升

  • 持续丰富连接器:数据同步组件增加 Doris/StarRocks 连接器作为下游

  • metric 增强:增加全量阶段和增量阶段,每个表的同步信息以及 ddl 数据监控和报警策略

欢迎大家多多关注 Flink CDC,从钉钉用户交流群[1]、微信公众号[2]、Slack 频道[3]、邮件列表[4]加入 CDC 用户社区,以及在 Flink CDC GitHub 仓库[5]上参与代码贡献!


[1] “ Flink CDC 社区 ② 群”群的钉钉群号:80655011780

[2] ” Flink CDC 公众号“的微信号:ApacheFlinkCDC

[3] https://flink.apache.org/what-is-flink/community/#slack

[4] https://flink.apache.org/what-is-flink/community/#mailing-lists

[5] https://github.com/apache/flink-cdc


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc

retouch_2024070417440476.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
11天前
|
传感器 监控 搜索推荐
智能服装:集成健康监测功能的纺织品——未来穿戴科技的新篇章
【10月更文挑战第7天】智能服装作为穿戴科技的重要分支,正以其独特的技术优势和广泛的应用前景,成为未来科技发展的亮点之一。它不仅改变了我们对服装的传统认知,更将健康监测、运动训练、医疗康复等功能融为一体,为我们的生活带来了更多的便利和可能。随着技术的不断进步和市场的日益成熟,我们有理由相信,智能服装将成为未来穿戴科技的新篇章,引领我们走向更加健康、智能、可持续的生活方式。
|
7天前
|
运维 Devops jenkins
DevOps实践:自动化部署与持续集成的实现之旅
本文旨在通过一个实际案例,向读者展示如何将DevOps理念融入日常工作中,实现自动化部署和持续集成。我们将从DevOps的基础概念出发,逐步深入到工具的选择、环境的搭建,以及流程的优化,最终实现一个简单而高效的自动化部署流程。文章不仅提供代码示例,更注重于实践中的思考和问题解决,帮助团队提高软件开发和运维的效率。
|
10天前
|
运维 Devops jenkins
DevOps实践:自动化部署与持续集成的实现
【9月更文挑战第36天】本文通过深入浅出的方式,向读者展示了在现代软件开发中,DevOps如何通过自动化部署和持续集成提高开发效率和软件质量。文章不仅介绍了相关概念,还提供了实用的代码示例,帮助读者理解如何在实际工作中应用这些技术。
|
14天前
|
Devops jenkins 测试技术
DevOps实践:持续集成与持续部署(CI/CD)的实现之路
【9月更文挑战第33天】在软件开发的海洋中,DevOps是一艘能够加速航行、提升航程质量的巨轮。本文将作为你的航海图,指引你理解并实现DevOps文化中的核心环节——持续集成(CI)与持续部署(CD)。我们将从基础概念出发,逐步深入到实际操作,带你领略代码到部署的全过程。准备好扬帆起航,让我们共同探索如何通过自动化工具和流程优化,让软件交付变得既高效又可靠。
|
17天前
|
监控 Devops 测试技术
DevOps实践:持续集成与部署的自动化之路
【9月更文挑战第30天】在软件工程的世界中,DevOps已成为提升开发效率、确保软件质量和加快交付速度的关键策略。本文将深入探讨如何通过自动化工具和流程实现持续集成(CI)与持续部署(CD),从而优化软件开发周期。我们将从基础概念出发,逐步深入到实际操作,最终展示如何构建一个高效的自动化流水线,以支持快速迭代和高质量发布。
42 7
|
17天前
|
Devops jenkins 测试技术
DevOps实践:持续集成与自动化测试的融合之道
【9月更文挑战第29天】在软件开发的快节奏竞赛中,DevOps如同一位智慧的舵手,引领着船只驶向效率与质量的彼岸。本文将揭开DevOps的神秘面纱,探索其核心理念如何通过持续集成(CI)和自动化测试的实践,实现软件开发流程的优化与加速。我们将一同见证代码从构思到部署的旅程,以及这一过程中的关键技术和工具如何协同工作,确保软件质量和交付速度的双重提升。
|
14天前
|
运维 Devops 测试技术
DevOps实践之路:从持续集成到自动化部署
【9月更文挑战第33天】在软件开发的海洋中,DevOps如同一艘航船,承载着敏捷开发与运维之间的桥梁。本文将带你领略DevOps的魅力,从持续集成的理念出发,穿越自动化测试的浪潮,直至自动化部署的港湾。我们将通过实际案例,探索如何构建一个高效、可靠的DevOps流程,让软件交付不再是梦魇,而是流畅的艺术。
|
5月前
|
Oracle 关系型数据库 MySQL
flink cdc 插件问题之报错如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。
|
5月前
|
Java 关系型数据库 MySQL
Flink CDC有见这个报错不?
【2月更文挑战第29天】Flink CDC有见这个报错不?
74 2
|
5月前
|
存储 关系型数据库 MySQL
Flink CDC产品常见问题之写hudi的时候报错如何解决
Flink CDC(Change Data Capture)是一个基于Apache Flink的实时数据变更捕获库,用于实现数据库的实时同步和变更流的处理;在本汇总中,我们组织了关于Flink CDC产品在实践中用户经常提出的问题及其解答,目的是辅助用户更好地理解和应用这一技术,优化实时数据处理流程。

相关产品

  • 实时计算 Flink版