文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

问下:Flink CDC中查一遍数据库的数据，是基于表查还是基于日志文件？如果binlog是后面加

问下:Flink CDC中查一遍数据库的数据，是基于表查还是基于日志文件？如果binlog是后面加的，没有历史数据，应该查不到吧？

展开

收起

真的很搞笑 2023-07-31 14:26:20 289 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

Star时光

在 Flink CDC 中，查看一遍数据库的数据是基于日志文件的变更事件，而不是直接基于表进行查询。

Flink CDC 连接到数据库的 binlog（例如 MySQL 的二进制日志）或其他日志文件，实时捕获数据库中的变更事件。这些变更事件包括插入、更新和删除等操作。

当你启动 Flink CDC 作业时，它会从 binlog 或者日志文件的当前位置开始，获取增量变更事件，并将其转换为数据流供 Flink 进行处理。因此，Flink CDC 并不基于表的当前状态进行查询，而是基于变更事件流来构建数据流。

如果你使用的是 binlog，并且在后期才启用了 binlog，那么在启用之前的历史数据将无法被 Flink CDC 获取到。因为 Flink CDC 只能通过解析 binlog 中的变更事件来捕获增量数据，并不能回溯读取历史数据。

如果你需要处理历史数据，可以考虑使用其他方式，如全量数据导入或者手动加载历史数据到 Flink 中。这样可以确保在处理增量数据之前，历史数据已经被正确加载。

总结起来，在 Flink CDC 中，查看一遍数据库的数据是基于日志文件中的变更事件。如果 binlog 是在后面加入的，Flink CDC 将无法获取到启用前的历史数据。如需处理历史数据，可以使用其他方式来加载或导入历史数据。

2023-07-31 21:27:25

赞同展开评论
芯在这

你看下debezium怎么采集数据的就知道了，此回答整理自钉群“Flink CDC 社区”

2023-07-31 14:33:20

赞同展开评论

问答分类：

数据库流计算实时计算 Flink版日志服务

问答标签：

数据库数据实时计算 Flink版CDC 数据binlog 日志服务binlog 日志binlog

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

各位大佬，请教一下，如果在flink cdc sql客户端使用SQL查询表，怎么能记录原系统的数据

2307

1

0

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

1883

0

0

flink cdc(mysql) -> elasticsearch7, 任务每次持续跑了一段时间之后

1463

2

0

mysql的数据在迁移到oceanbase数据库时，遇到外键创建失败问题，这个有没有办法避免呀

261

1

0

OceanBase数据库Server out of disk space 这个怎么解决啊？

1074

2

0

OceanBase数据库这里为啥卡在这里不动了呀，快一个小时了

622

3

0

OceanBase数据库这个包有ARM版本的嘛？我们想做下ARM版本的联调。

202

2

0

OceanBase数据库ob3.1.2企业版，oracle租户，这种写法不行吗？

215

4

0

OceanBase数据库ob自带的备份，是不是与被备份的租户保持一致的？

321

4

0

OceanBase数据库spark连接咋们的ob的话，这块的驱动是用哪个？"

471

3

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

阿里云发布 AgentTeams 与 AgentLoop：破解企业智能体规模化落地两大难题

阿里云账号：计算型/通用型/内存型价格与场景区别

2026年阿里云新用户优惠权益：优惠券、云服务器38元起、域名1元注册等活动介绍

阿里云万小智AI建站轻量版、标准版、高级版怎么选？基础和高级能力、云资源配置、灵感值区别与选购建议

Claude 插件市场进企业怎么用？我会先做白名单，而不是让大家随便装

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

数据护航：数据库敏感数据防护

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 能适配达梦不？

有用flink cdc同步mysql到hive这样搞过的源码吗?

flink1.19和hive3.1.3，cdc从mysql同步数据到hive，插入时报错？

flinkcdc在IDEA运行正常，打包就报错

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

Flink CDC里这个问题怎么解决？

在Flink想实时汇总数据，类似数据大屏功能，应该用阿里云Flink的什么功能服务？

那cdc最新版支持到flink的哪个版本，flink1.15还有guava兼容性问题吗？

如何用实时数据同步打破企业数据孤岛？

展开全部

数据仓库介绍与实时数仓案例

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

Flink Checkpoint 问题排查实用指南

史上超强阵容！大数据及人工智能领域顶级盛会，Flink Forward Asia 2019 不容错过！

如何正确使用 Flink Connector？

如何在 PyFlink 1.10 中自定义 Python UDF？

Apache Flink 漫谈系列(04) - State

展开全部

还有其他疑问?