开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC难道是join的数据不匹配,一方算的太慢了?

Flink CDC中mysql -> mysql 先groupby然后join,groupby的结果列,大部分没有数据,只有一两条有,可能是啥原因?standalone运行join结果看样子没有问题,yarn就出现这个情况。难道是join的数据不匹配,一方算的太慢了?

展开
收起
真的很搞笑 2023-10-10 16:24:05 52 0
2 条回答
写回答
取消 提交回答
  • 数据源不一致:可能是由于数据源本身的问题,例如数据源的数据格式不一致、数据源的数据质量问题等。
    Join操作设计不合理:可能是由于Join操作的设计不合理,例如Join操作的键(Key)选择不合理、Join操作的类型(Inner Join、Left Join、Right Join等)选择不合理等。
    Join操作执行效率低:可能是由于Join操作的执行效率低,例如Join操作的算法选择不合理、Join操作的并行度设置不合理等。

    2023-10-13 15:51:21
    赞同 展开评论 打赏
  • 在Flink的CDC(Change Data Capture)功能中,如果源表和目标表的字段结构不一致,或者在转换过程中出现了数据类型的转换错误,都可能导致Join操作出现问题。

    在你描述的情况下,源表和目标表的字段结构可能存在问题,导致GroupBy操作的结果列大部分没有数据,只有一两条有。这可能是由于Flink的CDC插件在处理数据时,没有正确地处理字段的结构和类型,导致部分数据被错误地过滤掉了。

    此外,如果你在Standalone模式下运行Join操作没有问题,但是在YARN模式下运行就出现了问题,那么可能是由于YARN模式下资源的分配和管理问题,导致Join操作的性能下降,从而影响了结果的准确性。

    我建议你检查一下源表和目标表的字段结构,以及Flink的CDC插件的配置和逻辑,看看是否存在问题。

    2023-10-11 13:55:53
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 热门讨论

    热门文章

    相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载