备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

Flink CDC从select开始时间那个位置的binlog开始增量读取是吧？

Flink CDC读取数据的时候在读取全量select的时候就开始记录select开始那会的binlog的位置,然后全量读完了，就从select开始时间那个位置的binlog开始增量读取是吧？

展开

收起

真的很搞笑 2023-11-22 08:14:57 127 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

是的，您说的没错。Flink CDC 会先从源数据库中读取全量数据，然后从全量读取开始的时间点开始读取 binlog，以获取增量数据。
具体来说，Flink CDC 会先执行全量快照（Snapshot），在 Snapshot 中，它会扫描源数据库的所有数据并复制一份副本，然后从该副本中计算出差异数据，这就是增量数据。
在执行 Snapshot 后，Flink CDC 会注册一个 binlog consumer，以监听源数据库的变化。每当发生数据变更时，binlog consumer 会接收相应的 binlog 事件，并将其转换为增量数据。这样，Flink CDC 就可以实时地从源数据库中读取增量数据，而无需再次执行全量快照。
需要注意的是，binlog 是按照事务发生的顺序记录的，因此 Flink CDC 必须遵循 binlog 的顺序才能正确地捕获增量数据。

2023-11-29 14:33:40

赞同展开评论
sunrr

是的，Flink CDC 在启动全量读取之前会记录 Binlog 的位置，当全量读取结束后，Flink CDC 会从记录的 Binlog 位点开始读取增量数据。这种机制允许 Flink CDC 精准地跟踪源数据库中的数据变更，并且只同步变更的数据，从而提高数据处理的效率。

需要注意的是，如果全量读取耗时太长，超过了 MySQL Binlog 的淘汰周期（默认为 7200 秒），可能会导致 Flink CDC 在全量读取结束后无法找到对应的 Binlog 位点，因为该位点的数据可能已经被 MySQL 清理掉了。在这种情况下，你可能需要重新运行一次全量读取操作。

2023-11-22 09:14:20

赞同 1 展开评论

问答分类：

流计算实时计算 Flink版

问答标签：

实时计算 Flink版CDC 实时计算 Flink版增量实时计算 Flink版binlog flink binlog flink cdc binlog

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink CDC中，binlog 回放的时候，是不是应该把Executed去掉?

80

0

0

Flink mysql binlog文件过期时间如何调整

112

1

0

flink cdc里 Amazon RDS 的binlog出问题怎么解决？

98

0

0

Flink CDC 2.0 在新增表时为什么会停止 Binlog 日志流？

99

1

0

在Flink CDC中，请问下是没有数据，但却有binlog吗？

85

1

0

在Flink CDC中，为什么3.1复现拿不到binlog数据？

83

1

0

BINLOG里没有SELECT，PolarDB为什么却可以看到SELECT慢查询？

73

1

0

在Flink CDC中需要查看任务对应binlog-position请问这个监控指标在哪查看？

66

1

0

在Flink CDC中任务重启，从checkpoint恢复数据，binlog也存在，就是读取不到如何

146

0

0

flink cdc 支持mysql（8.0.20 版本）的 binlog_row_image参数吗？

107

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

【INC-MPPT】增量导纳算法追踪光伏的最大功率点用于光伏的并网接入研究（Simulink仿真实现）

数据才是真救命的：聊聊如何用大数据提升灾难预警的精准度

从零构建短视频推荐系统：双塔算法架构解析与代码实现

《Tabnine+Sourcery协同：企业级动态仪表盘4天落地的底层逻辑》

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

在斗鱼，实时计算发展的历程如何？

Flink-CDC 文档网站地址是什么？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

flink-CDC-3.0 mysql to doris 数据同步任务经常报错

Apache Flink未授权访问上传导致的RCE漏洞，这个漏洞目前方案解决吗？

请问下大家有没有遇到过这个错:Caused by: java.lang.ClassNotFoundE

Flink解析json到表，有没有强大的插件？

Flink CDC里用jdbc往达梦dm8推数据，老是显示字符被截断是咋回事？有人碰到过嘛？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

基于实时计算（Flink）打造一个简单的实时推荐系统

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

展开全部

还有其他疑问?