《Apache Flink 案例集（2022版）》——1.数据集成——XTransfer-基Flink MongoDB CDC 在 XTransfer 的生产实践（上）

2023-05-25 222

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： 《Apache Flink 案例集（2022版）》——1.数据集成——XTransfer-基Flink MongoDB CDC 在 XTransfer 的生产实践（上）

作者：孙家宝

用户背景

XTransfer 专注为跨境 B2B 电商中小企业提供跨境金融和风控服务，通过建立数据化、自动化、互联网化和智能化的风控基础设施，搭建通达全球的财资管理平台，提供开立全球和本地收款账户、外汇兑换、海外外汇管制国家申报等多种跨境金融服务的综合解决方案。

业务需求

在业务发展早期，XTransfer选择了传统的离线数仓架构，采用全量采集、批量处理、覆盖写入的数据集成方式，数据时效性较差。随着业务的发展，离线数仓越来越不能满足对数据时效性的要求，XTransfer决定从离线数仓向实时数仓进行演进。而建设实时数仓的关键点在于变更数据采集工具和实时计算引擎的选择。

经过了一系列的调研，在 2021 年 2 月份，XTransfer关注到了 Flink CDC 项目，Flink CDC 内嵌了 Debezium，使 Flink 本身具有了变更数据捕获的能力，很大程度上降低了开发门槛，简化了部署复杂度。加上 Flink 强大的实时计算能力和丰富的外部系统接入能力，成为了XTransfer构建实时数仓的关键工具。

平台建设

在具体实现上，XTransfer集成了 MongoDB 官方基于 Change Streams 实现的 MongoDB Kafka Connector。通过 Debezium EmbeddedEngine，可以很容易地在 Flink 中驱动 MongoDB Kafka Connector 运行。通过将 Change Stream 转换成 Flink UPSERT changelog，实现了 MongoDB CDC TableSource。配合 Change Streams 的 resume 机制，实现了从 checkpoint、savepoint 恢复的功能。

如 FLIP-149 所述，一些运算 (如聚合) 在缺失 -U 消息时难以正确处理。对于 UPSERT 类型的 changelog，Flink Planner 会引入额外的计算节点 (Changelog Normalize) 来将其标准化为 ALL 类型的 changelog。