文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC很多个程序读取同一个binlog会有什么问题么？

Flink CDC很多个程序读取同一个binlog会有什么问题么？io啥的？一般是整库同步到kafka，mq，然后再后面做计算？

展开

收起

真的很搞笑 2023-09-28 10:09:59 230 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

清风拂袖

Flink CDC 很多个程序读取同一个 binlog 会有一些问题，比如：

数据不一致。如果多个程序读取同一个 binlog，并且读取的顺序不一致，那么会导致数据不一致。
数据重复。如果多个程序读取同一个 binlog，并且读取的速率不一致，那么会导致数据重复。
数据丢失。如果多个程序读取同一个 binlog，并且其中一个程序出现异常，那么会导致一部分数据丢失。
为了避免这些问题，可以使用 Debezium 的 snapshot 功能。Debezium 的 snapshot 功能会在开始读取 binlog 之前，先将数据库中的数据进行一次快照，然后再从快照开始读取 binlog。这样就可以保证数据的一致性和完整性。

另外，也可以使用 Flink 的 watermark 功能来避免数据重复和数据丢失。Flink 的 watermark 功能可以根据数据的修改时间来生成 Watermark，Watermark 可以用来判断数据是否已经被处理过。这样，如果一个程序处理完数据后没有生成 Watermark，那么其他程序就不会再处理该数据。这样就可以避免数据重复和数据丢失。

总的来说，Flink CDC 很多个程序读取同一个 binlog 可能会有一些问题，但是可以通过 Debezium 的 snapshot 功能和 Flink 的 watermark 功能来避免这些问题。

2023-10-12 11:43:31

赞同展开评论

问答分类：

流计算实时计算 Flink版云消息队列 MQ 云消息队列 Kafka 版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版程序实时计算 Flink版binlog flink binlog flink cdc binlog

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink CDC中，binlog 回放的时候，是不是应该把Executed去掉?

127

0

0

在Flink CDC中mysql binlog一定要row吗？

250

1

0

在Flink CDC中，这个啥意思啊?是不是报错，但是程序正常运行

140

1

0

在Flink CDC中，为什么3.1复现拿不到binlog数据？

129

1

0

Flink有没有什么参数可以设置mysql作为source的 binlog的保存时长？

181

1

0

Flink我本地代码有这个配置程序就卡住了，这个属于正常现象么？

144

0

0

请问 flink-cdc拉 polardb的binlog 可以走备库吗？

167

1

0

对于Flink CDC，怎么在解析binlog的时候判断是datetime类型，然后减8小时给它？

172

1

0

flinkcdc在监听binlog时如果程序停掉，中途又新增，如何让程序在停掉的点重新监听？

678

9

0

在Flink CDC中发现这两个程序都能消费到，怎么解决呢？

134

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

SpringBoot整合Kafka，实现高可用消息队列集群

OpenClaw: The Open-Source AI Agent That's Changing How We Work and Live

PAI-Rec推荐开发平台：企业级智能推荐解决方案，驱动业务全域增长

热门讨论

热门文章

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

flink cdc支持国产数据库吗？

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

flinkcdc在IDEA运行正常，打包就报错

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

有用flink cdc同步mysql到hive这样搞过的源码吗?

Flink CDC Hbase字段类型跟flinksql类型，转换的java代码吗？

请问mysql-cdc支持在pyflink中将数据从mysql-cdc输入到doris吗？

Flink1.10 python API 对流式处理的支持度如何，能直接用于生产吗？

展开全部

数据仓库介绍与实时数仓案例

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

基于实时计算（Flink）打造一个简单的实时推荐系统

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Apache Flink 漫谈系列(04) - State

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

展开全部

还有其他疑问?