玳数科技集成 Flink CDC 3.0 的实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 本文投稿自玳数科技工程师杨槐老师,介绍了 Flink CDC 3.0 与 ChunJun 框架在玳数科技的集成实践。

摘要:本文投稿自玳数科技工程师杨槐老师,介绍了 Flink CDC 3.0 与 ChunJun 框架在玳数科技的集成实践。主要分为以下六个内容:

  1. 背景
  2. 技术选型
  3. 架构设计
  4. 挑战与解决方案
  5. 上线效果
  6. 未来规划

1. 背景

玳数科技对内外部用户提供了一站式的数据开发治理平台,其中数据集成是用户使用最为广泛的一个重要功能,底层基于开源项目 ChunJun 完成离线和实时数据采集,支撑平台用户完成异构数据源的迁移和数据入湖入仓作业。

在离线同步场景,随着引擎层不停迭代,ChunJun 基于 Flink 1.10/1.12/1.16 提供了近百个数据源连接器,对引擎团队造成很大的维护压力,从稳定性以及维护成本考虑,研发团队决定离线同步作业固定使用某一个 Flink 版本。

在实时同步场景,用户对 Flink 新功能和特性更为关注,因此我们的实时同步和实时计算作业会根据 Flink 版本进行升级维护。考虑到实时同步场景下的稳定性挑战和上下游表结构同步挑战,我们也在积极参考业界的可靠方案进行实践。

2. 技术选型

在基于Flink架构的实时采集领域中,Flink CDC 的成熟度和社区繁荣度都是名列前茅的,经过了广泛验证。尤其是今年发布了 3.x 版本,功能更为完善,聚焦于数据集成领域,支持了全增量一体化、整库同步、Schema Evolution 等能力。

ChunJun 的 CDC 连接器基于 Canal 或者 logminer 实现实时采集,并提供了 Schema Evolution 等类似功能,和 Flink CDC 3.0 功能有很多的类似。我们在思考是否可以使用 Flink CDC 作为玳数科技实时同步的底层框架支持,这样能避免很多 CDC 相关的功能重复开发,同时考虑 Flink CDC 的发展速度,也能减少后续升级、维护等成本,能让引擎团队将重心集中在核心连接器以及 Flink 拓展上,并开始了接入 Flink CDC 3.0 的实践。

3. 架构设计

在对 Flink CDC 3.0 的集成上,我们遵循以下几个前提:

  1. 尽量避免对开源项目代码的强入侵性,避免后续和开源差异太大,维护成本变高;

  2. 屏蔽 Flink CDC 和 ChunJun 任务的差异性,减少平台的对接工作;

  3. 生态融合,ChunJun 和 Flink CDC 连接器能互相使用。

最终决定使用 ChunJun 框架作为统一入口,以 Json 作为任务描述载体,支持 ChunJun pipeline 和 Flink CDC pipeline 算子链的构造,同时将数据源连接器进行融合,ChunJun-connector 或者 Flink CDC-pipeline-connector连接器均可在 ChunJun 或者 Flink CDC 任务中使用。

采用这种架构,能带来以下好处:

  1. 屏蔽 FlinkCDC 和 ChunJun 任务的差异性,减少平台的对接工作;

  2. 引擎团队只有第一次适配层的工作量,后续 Flink CDC-pipeline-connector 的对接无需开发;

  3. ChunJun 和 CDC 连接器分离,无需关心 CDC sink 连接器的具体实现,只需将jar放入对应目录部署即可直接使用;

  4. ChunJun 连接器和 CDC pipeline 连接器的复用,丰富更多场景的选择。

4. 挑战和解决方案

4.1 客户端入口统一

4.1.1 挑战

目前内部数据平台通过 Json 统一描述各种同步任务,而 Flink CDC 基于 yaml 格式进行描述,因此为了保证统一性,我们需要 Json 支持描述 Flink CDC yaml 的所有信息,且结构和 ChunJun 任务的结构尽量一致,减少两者差异性。

4.1.2 解决方案

通过对比 Flink CDC Yaml 和 ChunJun Json 结构之后,如下图,我们发现两者需要描述的信息和内部结构也是类似的,因此只需要注意保证连接器参数 key 的一致性,ChunJun 的 Json 结构是完全可以代替 Yaml 的。

在配置文件统一之后,我们将 Flink 任务的构建入口统一为 ChunJun 的 Main 函数而不是 Flink CDC 的 cli 模块。因此 ChunJun 的 Main 函数在内部将 Json 转为 ChunJun 的 SyncConf 对象后,CDC 类型任务会将 SyncConf 转为 Flink CDC 的 PipelineDef 对象,交由 FlinkPipelineComposer 构建任务。

4.2 sink的完善

4.2.1 挑战

ChunJun连接器包含了丰富的经过生产验证的 connector 连接器,将 ChunJun 连接器集成到 Flink CDC 3.0,能极大地丰富 CDC pipeline 的使用场景。Flink CDC 提供了对 Flink Sinkv2 实现的连接器对接,对 SinkFunction 连接器未提供对接实现,引擎团队需要实现基于 SinkFunction 对接实现,支持 Schema Evolution 等功能,以及 ChunJun 连接器和 Flink CDC 连接器流转数据的转换。

4.2.2 解决方案

Flink CDC 为了下游支持 Schema Evolution 功能,需要 Sink 端支持 DataChangeEvent 数据写入之外,还需要支持 Flush Event 以及 SchemaChangeEvent 等事件的处理。在接收 Flush Event 事件时,需要刷写出当前 Subtask的缓存数据并提交到数据源并通知 SchemaRegistry 当前 Subtask 完成了数据刷写过程。

Flink CDC 提供了 DataSinkWriterOperator 对 Flink Sink 接口进行代理,以完成上述 Flush Event 事件处理逻辑,因此提供一个对 SinkFunction 的代理类是 ChunJun 连接器集成到FlinkCDC融合的关键。

借鉴 DataSinkWriterOperator,我们基于 Flink 的StreamSink自定一个 SinkFunctionOperator 类,对 SinkFunction 做代理。其主要改动点在于 Flush Event 处理以及 SchemaRegistry 的交互,主要两个改动点如下:

  1. SInkV2接口提供了Flush 方法,所以 Flink CDC 的 DataSinkWriterOperator 可以直接调用 Flush 方法进行数据刷新,而 SinkFunction 接口并没有相关实现,不过 ChunJun 连接器内部已经有 ddl 处理的业务实现。在 ChunJun 的 OutputFormat#writeRecord 逻辑里,如果接收到了 DdlRowData 就会执行 Flush 类似操作,将缓存的数据写入数据源,因此 Flush Event 只需要转成一个特殊的 EmptyDdlRowData 传给 OutputFormat 即可。

  2. ChunJun 将 dml 和 ddl 数据分别对应 ColumnRowData 和 DDlRowdata,和 Flink CDC 的 DataChangeEvent 和 SchemaChangeEvent 一一对应,因此我们提供了一个 serialize 接口解决 ChunJun 和 Flink CDC 数据的转换。

下图是 Flink CDC 采集 Mysql 写入 ChunJun Mysql Sink 连接器的一个任务示例:

4.3 route 配置增强

4.3.1 挑战

Flink CDC 在实时同步中还提供了 Route 模块,进行上下游表的映射关系处理。如下述配置为上游 dt 下的所有表同步到下游 sync 一张表中。

 route:
   - source-table: dt.\.*
    sink-table: dt.sync
    description: sync all sharding tables to one

但是在使用中,发现 route 算子在某些场景下的支持不够全面,比如我希望同步过程中,下游表会加上 sync 后缀代表是 CDC 任务同步的表,是比较难配置的。因为 Flink CDC 3.0 的 route 算子的映射关系配置中,下游必须是完整的 'schemaName'.'tableName' 表达方式,而不支持占位符,这样会导致上游表的数量和 route 配置的数量一致。

4.3.2 解决方案

我们在 route 算子做了部分改造,支持配置 ${schemaName} ${tableName} 作为占位符,下述脚本逻辑代表上游表写入上游表名加上 _CDC 后缀,如上游 dt.t1 的数据写入下游 dt.t1_CDC 表。

route:
  - source-table: dt.\.*
    sink-table: dt.${tableName}_CDC

4.4 SchemaChange 异常优化

4.4.1 挑战

Flink CDC 提供了多种策略处理 SchemaChange 事件,如忽略直接抛弃,抛出异常,自动执行策略。Flink CDC 3.0 版本在 EVOLVE 场景做了比较完善支持,而 EXCEPTION 场景下的处理比较粗暴,上游产生 SchemaChangeEvent 数据后直接抛出异常,让任务失败退出。

当配置抛出异常策略处理 schemaChange 事件后,客户在下游手动操作 Schema 变更完成后,任务上一次 checkpoint 和当前 SchemaChangeEvent 之间的数据较难恢复。因为 Flink CDC 在抛出异常前,并没有将 sink 端缓存的数据进行 Flush,即 Sink 没有接受到 Flush Event 进行处理。

4.4.2 解决方案

我们的解决方案是复用了 EVOLVE 所有流程,仅仅在 MetadataApplier#applySchemaChange 自动执行 Schema 变更前判断是否支持执行即可:SchemaChangeBehavior 为 EXCEPTION 时,执行 MetadataApplier#applySchemaChange 前抛出异常,这样由于复用了 EVOLVE 流程, MetadataApplier#applySchemaChange 执行之前,Sink 端一定会将所有数据刷新到数据源,客户只需要将任务的位点选择 SchemaChangeEvent的position,然后重新运行即可保证数据的一致性。

我们在 SchemaChangeEvent 里加上了 meta 信息,如 binlog 的点位信息,在抛出异常的时候会显示出相关位点信息,客户重跑任务,重新选择位点就很方便,直接选择日志里显示的位点信息即可。

5. 上线效果

引擎层基于上述方案对 ChunJun 和 Flink CDC 整合之后,节约了连接器层大量对接时间。以 mysql CDC->paimon 入湖为例,引擎研发团队只需要和平台研发团队进行简单的联调,不需要额外的连接器层的开发就可以快速上线,有效降低了开发运维成本。

同时使用 Flink CDC 也为玳数科技产品提供了全增量一体化、多表同步、SchemaEvolution 等强大功能。

6. 未来规划

目前以 Flink CDC 为基础的 mysql->paimon 入湖链路已在玳数科技产品上线,正在规划 Doris、StartRocks 等组件快速上线。同时我们密切关注 Flink CDC 社区的发展,将内部对 Flink CDC 的改动贡献到社区,减少两者差异性。玳数科技集成 Flink CDC 的未来规划主要如下:

  • 持续更新版本:Flink CDC 版本更新到 3.1+,将 transform 能力融入产品以及稳定性提升

  • 持续丰富连接器:数据同步组件增加 Doris/StarRocks 连接器作为下游

  • metric 增强:增加全量阶段和增量阶段,每个表的同步信息以及 ddl 数据监控和报警策略

欢迎大家多多关注 Flink CDC,从钉钉用户交流群[1]、微信公众号[2]、Slack 频道[3]、邮件列表[4]加入 CDC 用户社区,以及在 Flink CDC GitHub 仓库[5]上参与代码贡献!


[1] “ Flink CDC 社区 ② 群”群的钉钉群号:80655011780

[2] ” Flink CDC 公众号“的微信号:ApacheFlinkCDC

[3] https://flink.apache.org/what-is-flink/community/#slack

[4] https://flink.apache.org/what-is-flink/community/#mailing-lists

[5] https://github.com/apache/flink-cdc


更多内容

img


活动推荐

阿里云基于 Apache Flink 构建的企业级产品-实时计算 Flink 版现开启活动:
新用户复制点击下方链接或者扫描二维码即可0元免费试用 Flink + Paimon
实时计算 Flink 版(3000CU*小时,3 个月内)
了解活动详情:https://free.aliyun.com/?utm_content=g_1000395379&productCode=sc

retouch_2024070417440476.jpg

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
28天前
|
机器学习/深度学习 人工智能 jenkins
软件测试中的自动化与持续集成实践
在快速迭代的软件开发过程中,自动化测试和持续集成(CI)是确保代码质量和加速产品上市的关键。本文探讨了自动化测试的重要性、常见的自动化测试工具以及如何将自动化测试整合到持续集成流程中,以提高软件测试的效率和可靠性。通过案例分析,展示了自动化测试和持续集成在实际项目中的应用效果,并提供了实施建议。
|
4天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
25天前
|
运维 Devops jenkins
DevOps实践:持续集成与持续部署在现代软件开发中的作用
【10月更文挑战第42天】在快节奏的软件开发世界里,DevOps已经成为一种提升效率、确保质量和加速交付的重要方法。本文将深入探讨DevOps的核心组成部分—持续集成(CI)和持续部署(CD)—并展示它们如何通过自动化流程优化开发周期。我们将从基础概念讲起,逐步过渡到实际操作,最终通过一个简单代码示例来演示这一过程。文章旨在为读者提供清晰的指导,帮助他们理解和实现CI/CD流程,从而在软件开发领域取得竞争优势。
|
26天前
|
Devops jenkins 测试技术
DevOps实践:自动化部署与持续集成的融合之旅
【10月更文挑战第41天】在软件开发的世界中,快速迭代和高效交付是企业竞争力的关键。本文将带你走进DevOps的核心实践——自动化部署与持续集成,揭示如何通过它们提升开发流程的效率与质量。我们将从DevOps的基本理念出发,逐步深入到具体的技术实现,最终展示一个实际的代码示例,让理论与实践相结合,为你的开发旅程提供清晰的指引。
31 4
|
1月前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
64 9
|
1月前
|
存储 监控 Devops
DevOps实践:持续集成/持续部署(CI/CD)的实战指南
DevOps实践:持续集成/持续部署(CI/CD)的实战指南
|
1月前
|
运维 Devops jenkins
DevOps实践之持续集成与持续交付
【10月更文挑战第32天】在软件开发的快节奏世界中,DevOps已经成为提升效率和质量的关键策略。通过将开发(Development)和运维(Operations)紧密结合,DevOps促进了更快速的软件发布和更高的可靠性。本文将深入探讨DevOps的核心组成部分——持续集成(CI)和持续交付(CD),并展示如何通过实际代码示例实现它们,以帮助团队构建更加高效和稳定的软件发布流程。
|
2月前
|
Java Maven Docker
gitlab-ci 集成 k3s 部署spring boot 应用
gitlab-ci 集成 k3s 部署spring boot 应用
|
19天前
|
消息中间件 监控 Java
您是否已集成 Spring Boot 与 ActiveMQ?
您是否已集成 Spring Boot 与 ActiveMQ?
36 0
|
5月前
|
监控 druid Java
spring boot 集成配置阿里 Druid监控配置
spring boot 集成配置阿里 Druid监控配置
313 6

相关产品

  • 实时计算 Flink版