文档备案控制台

开发者社区大数据与机器学习大数据开发治理DataWorks 正文

Flink CDC整库同步，故障重启，或者业务上如果单表刷数据这块都得自己想办法搞了吧？

Flink CDC整库同步，开源版本只能走stream api，并且没有sink端的实现，一致性，故障重启，或者业务上如果单表刷数据这块都得自己想办法搞了吧？

展开

收起

真的很搞笑 2023-11-06 13:51:03 170 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

芯在这

dinky的sql就可以的，paimon和doris的连接器都自己写了整库同步，此回答整理自钉群“Flink CDC 社区”

2023-11-08 07:39:38

赞同展开评论
Star时光

对于 Flink CDC 整库同步，开源版本提供了 Source 端的支持，但 Sink 端并没有实现，需要用户自己编写代码实现。此外，一致性、故障恢复等功能也需要自己实现。如果需要实现整库同步，则需要借助于一些开源框架，如 Debezium 或 CDC Connector。

2023-11-06 21:48:05

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

Apache Flink 的开源版本确实只提供了流处理 API，并且 sink 端的实现需要用户自定义。但是，这并不意味着无法进行整库同步或处理故障重启等情况。

对于整库同步，你可以通过使用 Flink SQL 来实现。虽然 Flink SQL 在社区版中并未提供所有的功能，但它仍然可以用来处理复杂的 ETL 任务和数据流处理。

至于故障重启和一致性问题，Flink 提供了 checkpoint 和 savepoint 功能来保证 Exactly Once 的语义。在出现故障时，可以通过恢复最近的 checkpoint 或 savepoint 来重新启动作业，确保不会丢失任何数据。

至于单表刷数据的问题，你可能需要根据具体的应用场景来自定义解决方案。例如，你可以定期执行全量同步，然后在全量同步的基础上进行增量同步。这样既可以保持数据的一致性，又可以减少网络传输的数据量。

2023-11-06 14:33:15

赞同展开评论

问答分类：

流计算实时计算 Flink版大数据开发治理平台 DataWorks

问答标签：

实时计算 Flink版CDC 实时计算 Flink版数据实时计算 Flink版重启实时计算 Flink版库实时计算 Flink版同步

问答地址：

开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 问答

相关问答

在Flink CDC中，16版本的机器，从库没有这个 pg_replication_slots表吗？

217

1

0

在Flink CDC中MySQL整库同步，Kafka Pipeline 不支持指定分区吗？

228

1

0

Flink多表不是我想的那种多个 create 的方式吗？好像是同步整库，然后在库里面选表吗？

174

1

0

Flink 的CDAS同步这块，元数据中有表显示刷新失败，我重新刷了好几次，都不行，这是啥情况？

190

1

0

对于Flink CDC，3.x版本的mysql整库同步到doris是可以用代码编写吗？

243

0

0

在Flink CDC中想将 A库中的所有表同步到 B库中，在route 这块怎么设置呢？

187

1

0

在Flink CDC中目前支持整库同步的sink端有哪些？

305

1

0

在Flink CDC中整库同步是先将整库的所有表数据同步到一个kafka里吗？

208

1

0

在Flink CDC中flink-cdc整库同步任务能不能指定yarn-session的id提交？

205

1

0

在Flink CDC中整库同步的时候，可以指定为yarn-application模式吗？

451

0

0

大数据与机器学习

大数据开发治理DataWorks

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

我要提问

相关文章

告别干扰困扰！RFID手持机在复杂仓储中的可靠表现

分链路差异化设计的DSP准实时数仓｜钛动科技基于阿里云实时计算 Flink 版 + DLF Paimon + EMR Serverless StarRocks 的实践

Arduino IDE下载安装和汉化一篇搞定（2026最新）

EMR + Flink 实战：从离线T+1到实时数仓的完整迁移路径

Hologres + Flink 实时OLAP分析实战：从T+1报表到秒级洞察的数据平台

相关解决方案

更多

Flink CDC 实现企业级实时数据同步

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

热门讨论

热门文章

数据服务报429请求次数过多咋办呀

数据来源：com.alibaba.fastjson.JSONException: syntax er

DataWorks这里改不了授权对象是什么情况？

dataworks一个业务流程的看板上的节点怎么看有没有定时调度呀，在节点界面调度中有配置定时调度？

DataWorks中${bdp.system.bizdate}系统不执行，有没有啥替换办法？

在DataWorks上使用PyODPS使用限制是什么？

DataWorks数据地图中是可以查到数据的，但是在【表】中的stg_test01提示不存在？

DataWorks当前使用的ram账户能访问oss，点那个文件夹会报错？

DataWorks每个项目空间的空间根节点每天什么时候自动调度？

DataWorks可以在哪里看到每天新发布的节点吗？

展开全部

2万字揭秘阿里巴巴数据治理平台DataWorks建设实践

DataWorks产品使用合集之如何在不使用用querySql时，指定上游分区

DataWorks售前咨询

DataWorks AI助理：在钉钉让AI助理帮你盯任务、修问题

DataWorks操作报错合集之在运行数据分析任务时，底层依赖服务alisa.olap.submitjob出现了异常，如何解决

DataWorks Data Agent：一句话搞定数据开发，让周期从天级到分钟级

DataWorks AI助理：一句话，帮你搞定研发周报！

DataWorks操作报错合集之在执行SQL查询时遇到报错，代码为[XX000]，该怎么解决

大数据&AI的16种可能，2020阿里云客户最佳实践合集下载

欢迎加入DataWorks产品钉钉交流群

展开全部

还有其他疑问?