开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC对接SQL SERVER,源数据库每月需要定期重启CDC导致流数据不完整

使用阿里Flink连接了同在阿里云自建IDC的SQLSERVIER数据库。

由于使用的源数据中有一些大表,开启CDC后磁盘空间占用问题,每个月需要定期重启CDC进行日志清理。

在这个过程(5分钟)只有,会发现flink读取到的源表流数据缺失,请问有什么办法可以规避这个问题码?

展开
收起
我太想进步了 2024-08-04 15:47:55 49 0
1 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    减少重启频率或避免在高流量时段重启。
    重启操作安排在业务低峰时段,以减少对数据流的影响。
    选择一个适合的State Backend来存储Flink的状态信息,例如RocksDB,它可以在重启后快速恢复状态。

    2024-08-05 08:06:47
    赞同 3 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载