备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

请问在做存量数据快照的时候Flink-cdc这个是使用debezium 还是自己实现的方法呢？

请问在做存量数据快照的时候Flink-cdc这个是使用debezium 还是自己实现的方法呢？

展开

收起

十一0204 2023-08-09 08:22:19 145 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

Flink CDC 可以使用不同的方法来进行存量数据快照，其中包括使用 Debezium 和自己实现的方法。

使用 Debezium：Debezium 是一个开源的分布式平台，用于捕获数据库的变更事件。Flink CDC 可以与 Debezium 进行集成，利用 Debezium 提供的功能来捕获数据库的变更并生成事件流。这样可以实现基于数据库的存量数据快照，将数据库中的现有数据作为事件流的初始状态。

自己实现方法：除了使用 Debezium，你也可以自己实现存量数据快照的方法。这需要你编写自定义的代码来连接数据库，并读取表中的数据。你可以使用 Flink 的 JDBC Connector 或编写自定义的数据源来读取数据库，并将读取到的数据作为事件流的初始状态。

无论选择 Debezium 还是自己实现方法，存量数据快照的一般思路是读取数据库中的数据，并将其作为事件流的初始状态。这样可以确保在 CDC 开始捕获数据变更之前，Flink 已经具有了数据库中现有数据的快照，从而保证数据处理的完整性和一致性。

具体选择哪种方法取决于你的需求和项目的具体情况。如果你已经在使用 Debezium 或希望利用 Debezium 的功能，那么与 Flink CDC 集成 Debezium 是一个不错的选择。如果你更倾向于自己实现方法或已经有了其他自定义的数据源，那么自己实现存量数据快照的方法也是可行的。

2023-08-13 17:17:27

赞同展开评论

问答分类：

实时计算 Flink版

问答标签：

实时计算 Flink版debezium

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

Flink CDC 里oraclecdc开启归档模式才可以cdc，有控制归档日志巨量增加的方法吗？

133

2

0

在Flink 想拿到红框里面的数据，但是这个Debezium格式好像不支持怎么解决？

94

1

0

在Flink CDC中，会报类冲突，删除debezium里面冲突的类，但是还是会报错为什么？

134

1

0

Flink CDC有对debezium 熟悉的小伙伴吗？

104

1

0

有两套flink cdc程序分别在国内海外分别采集同一个mysql集群表，请问有什么方法？

78

1

0

对于Flink CDC，debezium对PG的带时区和不带时区的TimeStamp有不同映射？

170

1

0

在Flink CDC中有升级debezium的计划吗?

92

0

0

flink程序遇到了一个问题：在不改变版本的情况下，有什么解决的方法吗？

153

1

0

有没有人用Prometheus做过flink中的debezium的监控，不是监控flink？

89

1

0

在Flink CDC中Debezium 侧能重放吗？

85

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

Delta Join：为超大规模流处理实现计算与历史数据解耦

Apache Flink 2.2.0: 推动实时数据与人工智能融合，赋能AI时代的流处理

Forrester发布流式数据平台报告：Flink 创始团队跻身领导者行列，实时AI能力获权威认可

在 OpenAI 打造流处理平台：超大规模实时计算的实践与思考

Flink + Fluss 实战: Delta Join 原理解析与操作指南

热门讨论

热门文章

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC 人大金仓能作为source吗？支持bin-log吗？

Flink CDC把主表先全量同步到索引中更新到索引中这种怎么搞？

flink cdc source端能降低消费速度嘛？

flink cdc同步的源表，一定要有主键么？

我使用flink cdc StartupOptions.latest() 采最新的日志。要是程序挂了

请问一下Flink mysqlcdc获取到数据之后关联结果不更新这个怎么办?

flink datastream ，向clickhouse插入数据时怎么关闭插入时更新,

Flink CDC有知道Mac m1下的docker 环境如何开启sqlserver代理吗？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

阿里云实时计算产品案例&解决方案汇总

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

为什么说流处理即未来？

展开全部

还有其他疑问?