Flink CDC一个库特别多的表 目前大家实现采集的时候 这种情况是一个库全采集麽?

Flink CDC一个库特别多的表 目前大家实现采集的时候 一般是如何做架构设计的 例如 一个库有8000多张表 然后又十几个库 这种情况是一个库全采集麽 1.下游直接对接kafka?如果是kafka那么update的情况下 join计算大家是如何处理的 2. 还是说用cdc 直接对接Doris 然后基于Doris去实现所有的需求?

展开
收起
真的很搞笑 2023-09-19 08:32:27 86 分享 版权
1 条回答
写回答
取消 提交回答
  • 不同的场景下,Flink CDC 的采集方式可能会有所不同。如果一个库特别多的表,通常可以通过以下方法实现采集:

    使用一个任务采集整个库。这种方式比较简单,但会导致数据量比较大,可能会导致 Flink 集群的性能瓶颈。
    使用多个任务采集整个库。这种方式可以分散数据量,避免数据量太大导致性能瓶颈。但是,需要对任务进行分组和分区,并且需要保证数据的一致性。
    使用 Flink CDC 的增量采集功能。这种方式可以通过维护一个元数据表来记录历史数据,从而避免数据重复。但是,需要对元数据表进行维护,并且需要保证元数据表的一致性。
    具体选择哪种方式,需要根据实际情况进行评估。

    2023-10-19 10:22:11
    赞同 展开评论

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

还有其他疑问?
咨询AI助理