cdc在进行千万级数据同步时,checkpoint状态比较大,老超时,这块儿有没有好的解决方案?

cdc在进行千万级数据同步时,checkpoint状态比较大,老超时,这块儿有没有好的解决方案? 图片.png

展开
收起
wenti 2023-01-08 20:24:16 255 分享 版权
1 条回答
写回答
取消 提交回答
  • CSDN博客专家,51CTO博主专家,多知名企业认证讲师&签约作者&培训讲师,特邀作者等,华为云专家,资深测试开发专家,金牌面试官,职场面试培训及规划师。

    【回答】 因为你没有描述,是否每次同步都是一次同步这么多, 这里,我就假设, 你第一次需要同步千万级数据, 后期,每次同步,都不需要千万级。 这里最常用的方案: ①第一次同步, 分批次同步,如果你不想修改任何配置、不想增加任何资源, 那就分批次同步。

    ②待第一次同步完成后, 后期,定期更新同步数据, 这样,即解决了同步超时,也解决了, 每次同步都是千万级的全部数据同步。

    这里,如果你每次同步都需要全表同步, 那就需要考虑了,为何要全表同步, 如何改进。

    每天定期更新, 这样, 会把当前更新/新增的数据,在做标识,这样, 每次同步的时候, 值对当前的做标识的数据进行同步。

    同时,为了 同步后,出现数据问题, 你也需要在第一次同步完成后,每次都需要做backup。

    这应该是互联网人必备的思维方式。

    2023-01-12 15:25:43
    赞同 1 展开评论

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

收录在圈子:
实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商业化品牌,完全兼容开源 Flink API,提供丰富的企业级增值功能。
还有其他疑问?
咨询AI助理