开发者社区大数据与机器学习实时计算 Flink 正文

cdc在进行千万级数据同步时，checkpoint状态比较大，老超时，这块儿有没有好的解决方案?

cdc在进行千万级数据同步时，checkpoint状态比较大，老超时，这块儿有没有好的解决方案? 图片.png

展开

收起

wenti 2023-01-08 20:24:16 273 版权

1 条回答

写回答

取消提交回答

Carl_奕然

CSDN博客专家，51CTO博主专家，多知名企业认证讲师&签约作者&培训讲师，特邀作者等，华为云专家，资深测试开发专家，金牌面试官，职场面试培训及规划师。

【回答】因为你没有描述，是否每次同步都是一次同步这么多，这里，我就假设，你第一次需要同步千万级数据，后期，每次同步，都不需要千万级。这里最常用的方案： ①第一次同步，分批次同步，如果你不想修改任何配置、不想增加任何资源，那就分批次同步。

②待第一次同步完成后，后期，定期更新同步数据，这样，即解决了同步超时，也解决了，每次同步都是千万级的全部数据同步。

这里，如果你每次同步都需要全表同步，那就需要考虑了，为何要全表同步，如何改进。

每天定期更新，这样，会把当前更新/新增的数据，在做标识，这样，每次同步的时候，值对当前的做标识的数据进行同步。

同时，为了同步后，出现数据问题，你也需要在第一次同步完成后，每次都需要做backup。

这应该是互联网人必备的思维方式。

2023-01-12 15:25:43

赞同 1 展开评论

问答分类：

实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

this xml file does not appear to have any style in

47780

请问下我访问接口不通什么原因 Provisional headers are shown

1631

购买阿里国外的云服务器是否可以访问谷歌？

80390

通过www和不带www的网址输入最终都指向www.我的域名.com，求指教

123813

OSS的endpoint如何查看

36175

sql server的用户名和密码怎么查啊？

35482

配置了安全组规则，端口还是无法访问

32226

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

59439

设置域名解析如何指向我的服务器url包括端口号

17533

Connection reset by peer的常见原因及解决办法

3725

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199212

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

「48小时极速反馈」阿里云实时计算Flink广招天下英雄

Apache Flink错误处理实战手册：2年生产环境调试经验总结

抖音基于Flink的DataOps能力实践

抖音基于 Flink 的 DataOps 能力实践

淘宝闪购基于Flink&Paimon的Lakehouse生产实践：从实时数仓到湖仓一体化的演进之路

cdc在进行千万级数据同步时，checkpoint状态比较大，老超时，这块儿有没有好的解决方案?

实时计算 Flink

相关文章

热门讨论

热门文章