开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

FLINK CDC 里面却只操作了30-50条,其中间过程没有做任何操作?

FLINK CDC DataStreamSource获取到数据是 171条,但是DataStreamSource.map 里面却只操作了30-50条,其中间过程没有做任何操作?

展开
收起
真的很搞笑 2023-11-01 14:24:33 43 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在 Flink CDC 中,有可能因为并行度设置不当而导致数据丢失或者数据处理不完整的问题。如果中间没有任何操作的话,这可能说明并行度设置不当,导致某些分区的数据并未被分配给下游的任务进行处理。
    建议您检查一下您的并行度设置是否合理。根据您的实际情况,调整合理的并行度。一般而言,可以根据硬件资源的可用性以及数据量的大小来设置并行度。如果数据量较大,则可以适当增加并行度;如果硬件资源有限,则可以适当减少并行度。

    2023-11-02 17:02:53
    赞同 1 展开评论 打赏
  • 这个问题可能是由于Flink的数据分区策略导致的。在Flink中,数据流的分区策略会影响数据的处理顺序和处理数量。

    在你的情况下,可能是因为你的数据流被分成了多个分区,而你的map操作只对其中一个分区进行了处理,所以看起来好像只处理了一部分数据。

    你可以通过调整数据流的分区策略来解决这个问题。例如,你可以使用rebalance()方法来重置数据流的分区策略,使所有分区都能被map操作处理。

    另外,你也可以检查一下你的map操作的代码,看看是否有任何可能导致部分数据未被处理的逻辑。

    2023-11-02 14:57:33
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载