开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC中pg整库到hudi,大概多少张表,是在一个作业里吗?会不会占用很多算子?

问题1:Flink CDC中pg整库到hudi,大概多少张表,是在一个作业里吗?会不会占用很多算子?
问题2:flink上是没张表占用独立的算子吗,还是说可以复用?
6e28ee706b65cfd11e582bc7b395ef4b.png

展开
收起
十一0204 2023-08-09 09:36:55 74 0
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    问题1:在 Flink CDC 中将 PostgreSQL 整个数据库迁移到 Hudi,涉及多少张表以及是否在一个作业中,与具体的实现方式和配置有关。一般来说,您可以使用 Flink CDC 连接器配置多个表作为源表,并将它们迁移到 Hudi 表中。您可以为每个表配置不同的转换逻辑和目标表配置。这样做可以使每个表都在同一个 Flink 作业中进行处理,但在作业中会有多个算子用于处理不同的表。

    作业中的算子数量取决于表的数量和作业的设计。每个表都需要一个源算子用于读取变更数据,并进行相应的转换和写入操作。因此,如果有很多表,作业中可能会有相应数量的算子。此外,还需要考虑作业的并行度和资源分配,以确保作业能够有效地处理和扩展。

    问题2:在 Flink 上,每张表可以有独立的算子,也可以复用算子,具体取决于作业的设计和配置。

    如果每张表需要不同的处理逻辑,您可以为每个表配置独立的算子。每个表的算子将独立读取源数据、进行转换和写入操作。这种方式可以给予每个表更大的灵活性,但可能会增加算子的数量和资源消耗。

    另一种方式是复用算子。如果多张表具有相似的处理逻辑,您可以使用相同的算子来处理它们。在这种情况下,您可以通过参数化算子或使用配置文件等方式来区分不同的表。这样可以减少算子的数量,从而节省资源并提高作业的效率。

    选择复用算子还是使用独立算子取决于您的具体需求和性能要求。如果每张表的处理逻辑不同且需要定制化,那么使用独立算子可能更合适。如果多张表的处理逻辑相似且可以共享一些资源,那么复用算子可能更有效。

    2023-08-11 17:20:53
    赞同 展开评论 打赏
  • 意中人就是我呀!

    "回答1:一个sql搞一个库
    回答2:这种搞不了几个表吧,这么多算子比较耗资源,肯定不能每张表一个作业。我是说跟sink端jdbc相比,hudi sink太耗资源了,表多了容易崩,不知道有啥好方法或者说通过jdbc写入hive3,据说hive3的dml性能有提升。可以走dinky的整库同步,one source one job one sink。此回答整理至钉群“Flink CDC 社区”。"

    2023-08-09 12:12:34
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载