Flink CDC一个库特别多的表 目前大家实现采集的时候 一般是如何做架构设计的 例如 一个库有8000多张表 然后又十几个库 这种情况是一个库全采集麽 1.下游直接对接kafka?如果是kafka那么update的情况下 join计算大家是如何处理的 2. 还是说用cdc 直接对接Doris 然后基于Doris去实现所有的需求?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
不同的场景下,Flink CDC 的采集方式可能会有所不同。如果一个库特别多的表,通常可以通过以下方法实现采集:
使用一个任务采集整个库。这种方式比较简单,但会导致数据量比较大,可能会导致 Flink 集群的性能瓶颈。
使用多个任务采集整个库。这种方式可以分散数据量,避免数据量太大导致性能瓶颈。但是,需要对任务进行分组和分区,并且需要保证数据的一致性。
使用 Flink CDC 的增量采集功能。这种方式可以通过维护一个元数据表来记录历史数据,从而避免数据重复。但是,需要对元数据表进行维护,并且需要保证元数据表的一致性。
具体选择哪种方式,需要根据实际情况进行评估。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。