大佬Flink CDC这个情况知道怎么回事嘛?
莫名奇妙的变成了双份,本来应该是一个的?
就是flink跑在k8s上面的,不然不知道是不是有次配置出问题了。图上面算子链莫名的变成了两个,应该是一个的,代码应该控制不了这个的
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Flink CDC 数据同步出现莫名其妙的双份数据,可能是由于以下原因之一导致的:
CDC 程序配置错误
CDC 程序的配置可能存在错误,导致数据重复消费。例如,可能会存在多个 CDC 程序同时对同一数据源进行消费,或者 CDC 程序的任务并行度设置过高,导致重复消费数据。您可以检查 CDC 程序的配置,确保每个 CDC 程序只对应一个数据源,并且任务并行度设置合理。
数据源重复
数据源本身存在重复数据,例如数据表中存在多条相同的数据。这可能是由于数据源更新不及时,或者数据源本身存在重复数据导致的。您可以检查数据源本身的数据是否存在重复,并且尝试升级数据源或者进行数据清洗。
Flink 的状态后端配置错误
Flink 的状态后端可能会存在配置错误,导致重复消费数据。例如,可能会存在多个 Flink 的状态后端同时对同一数据源进行消费,或者状态后端的容量不足,导致数据重复消费。您可以检查 Flink 的状态后端配置,确保每个状态后端只对应一个数据源,并且容量设置合理。
数据处理逻辑错误
数据处理逻辑可能存在错误,导致数据重复消费。例如,可能会存在多次对同一数据进行处理,或者处理逻辑本身存在重复计算导致的。您可以检查数据处理逻辑,确保每条数据只被处理一次,并且处理逻辑本身不会重复计算。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。