文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC全量是要读取完，kafka事务时间要大于全量读取完时间？

Flink CDC全量是要读取完，kafka事务时间要大于全量读取完时间？

展开

收起

真的很搞笑 2023-12-19 08:07:21 170 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

Flink CDC在进行全量数据同步时，需要将整个表的数据全部读取完毕才能完成一个checkpoint。而Kafka的事务时间应该是大于全量读取完的时间，这样可以确保在全量数据读取和处理过程中，Kafka中的数据不会被重复消费或者丢失。

然而，需要注意的是，Flink CDC的底层实现是基于Debezium，其架构是单节点的，这意味着Flink CDC不支持水平扩展，并且只支持单并发。因此，如果表非常大（例如亿级别），全量读取的时间可能会非常长，甚至达到小时或天级别。在这种情况下，用户不能通过增加资源来提高作业速度。

不过，从Flink CDC 2.0版本开始，该工具已经在全量数据的并发读取、checkpoint、无锁读取等方面进行了重大改进。特别是在无锁读取的支持下，Flink CDC 2.0能够实现高并发的水平扩展，并且在断点续传方面也有很好的表现。这些改进有助于解决全量数据同步过程中可能遇到的各种问题，提高数据处理的效率和稳定性。

2023-12-19 20:33:19

赞同展开评论

问答分类：

流计算消息中间件 Kafka 实时计算 Flink版云消息队列 Kafka 版

问答标签：

云消息队列 Kafka 版flink 实时计算 Flink版CDC 实时计算 Flink版kafka 实时计算 Flink版cdc kafka 云消息队列 Kafka 版事务

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

在Flink CDC中，发到kafka下游再处理数据还是用算子处理完直接写到目标库里面？

267

0

0

Flink默认先全量再增量同步，全量时会对checkpoint上锁，导致请求检查点时失败，任务重启

546

1

0

flink cdc 读mysql 写进kafka，在执行一段时间后，任务就一直出于初始化状态？

231

0

0

flinksql cdc 是不是只有从mysql同步到kafka 才能截取到这个字段？

242

1

0

flink往odps事务表里写数据报这个错是为什么呢？

237

0

0

在Flink CDC中，导致输出到kafka的数据错误是哪里配置问题吗？

205

0

0

在Flink CDC中这种模式Kafka到mysql可以kakfa到doris不行，也不报错为什么？

236

0

0

在Flink CDC中读取全量和增量数据能不能安装数据的生成顺序输出？

171

0

0

在Flink CDC中明明有创建如下，但是使用同步消费kafka中数据的时候，会显示报错？

192

1

0

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2312

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

5层通信栈：多Agent集群为什么不能用一种方式通信

库存还在靠 Excel 管？聊聊供应链可视化与实时库存分析到底该怎么设计

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

消息队列解耦技术｜从红薯稳控体能节奏，解读跨境业务异步调度优化方案

Arduino IDE下载安装和汉化一篇搞定（2026最新）

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

FLink 1.13版本升级Flink 1.17 报错，怎么解决？

FLink 1.13版本升级Flink 1.17 报错，怎么处理？

Flink cdc sqlserver 希望不同步某些数据行

flink CDC 当第一次全量正常输出后，源表中数据任何变更就无法再被捕获到了，为什么？

Flink CDC底层监听是不是用到flink定时任务还是啥？

flinkcdc在IDEA运行正常，打包就报错

Flink 1.13版本升级Flink 1.17 报错有人知道为什么吗?

展开全部

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

流计算精品翻译: The Dataflow Model

回顾 | Kafka x Flink Meetup 与世界人工智能大会大数据 AI 专场精彩回顾（附PPT下载）

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

使用 Kafka 和 Flink 构建实时数据处理系统

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

展开全部

还有其他疑问?