问题1:Flink CDC中pg整库到hudi,大概多少张表,是在一个作业里吗?会不会占用很多算子?
问题2:flink上是没张表占用独立的算子吗,还是说可以复用?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
问题1:在 Flink CDC 中将 PostgreSQL 整个数据库迁移到 Hudi,涉及多少张表以及是否在一个作业中,与具体的实现方式和配置有关。一般来说,您可以使用 Flink CDC 连接器配置多个表作为源表,并将它们迁移到 Hudi 表中。您可以为每个表配置不同的转换逻辑和目标表配置。这样做可以使每个表都在同一个 Flink 作业中进行处理,但在作业中会有多个算子用于处理不同的表。
作业中的算子数量取决于表的数量和作业的设计。每个表都需要一个源算子用于读取变更数据,并进行相应的转换和写入操作。因此,如果有很多表,作业中可能会有相应数量的算子。此外,还需要考虑作业的并行度和资源分配,以确保作业能够有效地处理和扩展。
问题2:在 Flink 上,每张表可以有独立的算子,也可以复用算子,具体取决于作业的设计和配置。
如果每张表需要不同的处理逻辑,您可以为每个表配置独立的算子。每个表的算子将独立读取源数据、进行转换和写入操作。这种方式可以给予每个表更大的灵活性,但可能会增加算子的数量和资源消耗。
另一种方式是复用算子。如果多张表具有相似的处理逻辑,您可以使用相同的算子来处理它们。在这种情况下,您可以通过参数化算子或使用配置文件等方式来区分不同的表。这样可以减少算子的数量,从而节省资源并提高作业的效率。
选择复用算子还是使用独立算子取决于您的具体需求和性能要求。如果每张表的处理逻辑不同且需要定制化,那么使用独立算子可能更合适。如果多张表的处理逻辑相似且可以共享一些资源,那么复用算子可能更有效。
"回答1:一个sql搞一个库
回答2:这种搞不了几个表吧,这么多算子比较耗资源,肯定不能每张表一个作业。我是说跟sink端jdbc相比,hudi sink太耗资源了,表多了容易崩,不知道有啥好方法或者说通过jdbc写入hive3,据说hive3的dml性能有提升。可以走dinky的整库同步,one source one job one sink。此回答整理至钉群“Flink CDC 社区”。"
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。