备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flinkcdc 2.0 无锁镜像增量同步是怎么完成数据统一的呢？

flinkcdc 2.0 无锁镜像增量同步是怎么完成数据统一的呢，单个chunk的同步原理能明白，但是镜像同步的时间较长、面对期间产生的大量binlog，是怎么保证binglog不重复、不丢失的呢。是不是，我当前123id的数据同步完成，同时取出123id同步期间lw 与hw之间的相关binlog。所有chunk都筛选完剩下的binlog才开始执行？还有个问题是看到一个博客说这个算法对较早一些数据的binlog会选择丢弃，存在一致性问题，这是真的吗？

展开

收起

wenti 2023-01-15 15:37:54 175 0

1 条回答

写回答

取消提交回答

清风拂袖

Flink CDC 2.0 的无锁镜像增量同步使用了一种称为事务日志流复制的技术来完成数据统一。该技术涉及以下步骤：

源数据库中的事务日志捕获：Flink CDC 2.0 连接到源数据库并捕获写入事务日志的每个事务。
将事务日志复制到 Flink 集群：捕获的事务日志被复制到 Flink 集群中的一个或多个事务日志主题中。
在 Flink 中解析和转换事务日志：Flink 使用解析器和转换器从事务日志中提取数据更改，并将它们转换为 Flink 表。
将数据更改写入下游：转换后的数据更改被写入下游，例如 Apache Kafka 或 HDFS。
由于该过程是无锁的，因此不会对源数据库施加任何锁或阻塞。这确保了高吞吐量和低延迟的增量数据同步。

数据统一是如何实现的：

通过将所有数据更改复制到一个或多个事务日志主题，Flink CDC 2.0 确保了不同源数据库（即使它们具有不同的架构）之间数据更改的统一视图。这可以通过以下方式实现：

事务日志主题充当中央存储库：所有数据更改都集中存储在事务日志主题中。
统一的流处理：Flink 使用统一的流处理管道来解析和转换来自不同源的数据更改。
一致的变更数据捕获（CDC）：Flink CDC 2.0 确保以与源数据库相同的顺序和语义捕获所有数据更改。
通过这种方法，Flink CDC 2.0 可以将来自不同源的数据更改统一到一个一致且实时的流中，从而简化了数据集成和下游处理。

2024-02-23 16:12:24

赞同展开评论打赏

问答分类：

实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

this xml file does not appear to have any style in

24840

7

0

企业邮箱

7045

6

0

什么是二进制？二进制怎么算？

34990

40

0

有哪些值得收藏的五个种子搜索引擎&磁力搜索引擎？

88890

16

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

52891

27

0

如果购买了域名，一定要备案才能用吗

33549

33

0

com/action/joingroup?code=v1是什么意思

202376

19

0

OSS的endpoint如何查看

28472

3

0

ssl免费证书

3891

1

0

域名续费域名续费

14059

6

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

热门讨论

热门文章

哪位大佬有遇到过Flink这个问题呢？同步pg的时候，是不是类冲突了，所以导致抓不到这个类？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

请问如何用flink sql客户端用yarn application模式提交任务呢？

编译失败，有知道怎么回事吗？

请问下有实现达梦数据库的 Flink CDC么?

Flink 集群重启后，所有的Jobs任务全都没有了。如果快速恢复所有的任务

Caused by: org.apache.kafka.common.errors.TimeoutE

flink 1.18必须配套JDK11吗 1.8是不是不行了呢？

flink任务报错: Job leader for job id 是啥原因导致的呢?

flink怎么能够快速消费kafka数据，需要设置什么参数呢？

展开全部

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

为什么说流处理即未来？

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

携程实时智能检测平台建设实践

【阿里内部应用】利用blink CEP实现流计算中的超时统计问题

Apache Flink 漫谈系列(05) - Fault Tolerance

实时计算Flink on Kubernetes产品模式介绍

Apache Flink 漫谈系列(13) - Table API 概述

展开全部

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载