开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

请教下Flink CDC各位老师 ,百亿数据三张表关联 有什么好的方案?

请教下Flink CDC各位老师 ,百亿数据三张表关联 有什么好的方案?

展开
收起
真的很搞笑 2024-01-09 11:30:59 60 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    对于百亿数据的三张表关联,可以考虑以下方案:

    1. 使用Flink CDC的流式关联:将三张表的数据源都接入到Flink中,通过Flink CDC实现实时数据流的捕获和处理。然后使用Flink的流式关联操作进行关联计算。这种方式可以实时地对数据进行关联,但需要保证关联结果能够被存储或输出到下游系统。

    2. 使用Flink CDC的批处理关联:将三张表的数据源都接入到Flink中,通过Flink CDC实现批量数据的捕获和处理。然后使用Flink的批处理关联操作进行关联计算。这种方式可以在离线环境下对历史数据进行关联分析,但无法实现实时关联。

    3. 使用外部存储进行关联:将三张表的数据源分别写入到外部存储系统中(如Hadoop HDFS、Spark等),然后使用这些外部存储系统提供的关联工具进行关联计算。这种方式可以将关联计算下放到外部存储系统中,减轻Flink的计算压力,但可能会增加数据传输和网络开销。

    2024-01-09 15:27:07
    赞同 展开评论 打赏
  • 加条件,关联要到位或者做成小表,此回答整理自钉群“Flink CDC 社区”

    2024-01-09 12:09:38
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载