开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC会和我们mysql bin log 存储时间有关系吗?

Flink CDC会和我们mysql bin log 存储时间有关系吗?52dd86f95758679e01fa06c023412bb4.png
我们同步20个表,有几个表数据有一亿条以上,使用的是 flink-doris-connector 的全表同步方式。全量同步的时候都是一个表一个表同步的。现在全量同步完增量数据没有进来。有没有可能是这段时间mysql bin log换了文件,mysql 服务器的binlog文件本地删除了导致呢

展开
收起
真的很搞笑 2023-10-23 15:11:39 72 0
2 条回答
写回答
取消 提交回答
  • binlog没了会报错的,开了gtid的话一般不会有问题,但是最好是binlog的时间增大点,因为你的数据量级是比较大的,此回答整理自钉群“Flink CDC 社区”

    2023-10-24 08:52:20
    赞同 展开评论 打赏
  • 是的,Flink CDC的工作原理是通过监控MySQL的binlog来捕获数据的变更,然后将这些变更应用到目标系统中。因此,MySQL的binlog文件的更换或者删除确实可能影响Flink CDC的工作。

    如果MySQL的binlog文件被删除,那么Flink CDC就无法捕获到对应的变更数据,从而可能导致数据丢失。因此,为了保证数据的一致性,你应该避免手动删除MySQL的binlog文件。

    另外,对于大表的全量同步,一个表一个表地同步可能会导致性能问题。你可以考虑使用分区表或者分区列的方式来提高同步性能。

    2023-10-23 16:42:43
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    PostgresChina2018_赖思超_PostgreSQL10_hash索引的WAL日志修改版final 立即下载
    Kubernetes下日志实时采集、存储与计算实践 立即下载
    日志数据采集与分析对接 立即下载