大佬Flink CDC这个情况知道怎么回事嘛?莫名奇妙的变成了双份,本来应该是一个的?

大佬Flink CDC这个情况知道怎么回事嘛?image.png
莫名奇妙的变成了双份,本来应该是一个的?image.png
就是flink跑在k8s上面的,不然不知道是不是有次配置出问题了。图上面算子链莫名的变成了两个,应该是一个的,代码应该控制不了这个的image.png

展开
收起
真的很搞笑 2023-08-01 14:40:21 116 分享 版权
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    Flink CDC 数据同步出现莫名其妙的双份数据,可能是由于以下原因之一导致的:

    CDC 程序配置错误
    CDC 程序的配置可能存在错误,导致数据重复消费。例如,可能会存在多个 CDC 程序同时对同一数据源进行消费,或者 CDC 程序的任务并行度设置过高,导致重复消费数据。您可以检查 CDC 程序的配置,确保每个 CDC 程序只对应一个数据源,并且任务并行度设置合理。

    数据源重复
    数据源本身存在重复数据,例如数据表中存在多条相同的数据。这可能是由于数据源更新不及时,或者数据源本身存在重复数据导致的。您可以检查数据源本身的数据是否存在重复,并且尝试升级数据源或者进行数据清洗。

    Flink 的状态后端配置错误
    Flink 的状态后端可能会存在配置错误,导致重复消费数据。例如,可能会存在多个 Flink 的状态后端同时对同一数据源进行消费,或者状态后端的容量不足,导致数据重复消费。您可以检查 Flink 的状态后端配置,确保每个状态后端只对应一个数据源,并且容量设置合理。

    数据处理逻辑错误
    数据处理逻辑可能存在错误,导致数据重复消费。例如,可能会存在多次对同一数据进行处理,或者处理逻辑本身存在重复计算导致的。您可以检查数据处理逻辑,确保每条数据只被处理一次,并且处理逻辑本身不会重复计算。

    2023-08-01 23:17:57
    赞同 展开评论
  • 未知,不好意思,也得看看sql,此回答整理自钉群“Flink CDC 社区”

    2023-08-01 14:50:07
    赞同 展开评论

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

还有其他疑问?
咨询AI助理