Flink CDC多个cdc任务订阅同一个mysql从库(一个database 一个任务),实测flink cdc source订阅到的数据,少于mysql的数量,造成了很高的延迟,几个小时。 请问这个什么原因呢? 需要改成整库同步吗?
Flink CDC对多个源数据库的增量变动记录进行捕获,并将其同步到一个或多个数据目的地。在此过程中,还可以对数据进行一定的处理,例如过滤、关联、分组、统计等。在您的情况下,如果发现Flink CDC source订阅到的数据少于MySQL的数量,造成了很高的延迟,这可能有几个原因:
任务多了好像不行,任务多了会给source造成很大的压力 你的延迟看看是不是带宽不够反压的 ,此回答整理自钉群“Flink CDC 社区”
Flink CDC订阅到的数据少于MySQL的实际数据,且存在较高的延迟,可能有以下几个原因:
数据源过滤:
数据库负载高:
网络问题:
并发冲突:
错误处理与重试:
CDC插件版本:
数据冲突:
资源限制:
针对你的情况,可以尝试以下解决方案:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。