Flink CDC 里我现在需要同步一个数据库的数据转换到另一个库,大概有100+张表数据,有些数据需要清洗。又不能影响业务正常使用。我想着用CDC程序同步,但是可能要同时起很多source job,这样对原数据库的会有什么影响吗?
一个job开多少并行度,在source端也是并行1。起多个job分开处理表,binglog日志也得完整处理一遍,反倒给数据库资源造成额外的浪费。此回答来自钉群Flink CDC 社区 。
在Flink CDC中,启动多个job进行数据清洗对原数据库的Binlog通常不会产生影响,因为Flink CDC是通过捕获变更数据来实现同步,而不是直接操作原始数据库。推荐的方式是使用Flink CDC的并行度和分区策略来优化数据同步过程,确保数据一致性和实时性。
具体来说,以下是一些关键点和建议:
总之,通过合理设计和配置Flink CDC作业,可以实现高效的数据同步和清洗,同时最小化对原数据库的影响。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。