Flink CDC会和我们mysql bin log 存储时间有关系吗?
我们同步20个表,有几个表数据有一亿条以上,使用的是 flink-doris-connector 的全表同步方式。全量同步的时候都是一个表一个表同步的。现在全量同步完增量数据没有进来。有没有可能是这段时间mysql bin log换了文件,mysql 服务器的binlog文件本地删除了导致呢
binlog没了会报错的,开了gtid的话一般不会有问题,但是最好是binlog的时间增大点,因为你的数据量级是比较大的,此回答整理自钉群“Flink CDC 社区”
是的,Flink CDC的工作原理是通过监控MySQL的binlog来捕获数据的变更,然后将这些变更应用到目标系统中。因此,MySQL的binlog文件的更换或者删除确实可能影响Flink CDC的工作。
如果MySQL的binlog文件被删除,那么Flink CDC就无法捕获到对应的变更数据,从而可能导致数据丢失。因此,为了保证数据的一致性,你应该避免手动删除MySQL的binlog文件。
另外,对于大表的全量同步,一个表一个表地同步可能会导致性能问题。你可以考虑使用分区表或者分区列的方式来提高同步性能。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。