开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC里我通过oracle的connector往hudi插入数据,为什么不变 ?

Flink CDC里我通过oracle的connector往hudi插入数据,flink web ui里面为啥Sink: clean_commits 这个步骤并行度是1,我设置的默认并行度是5,但是它改变不了为什么?

展开
收起
小小鹿鹿鹿 2024-01-18 07:45:01 72 0
2 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    Flink CDC中,Sink: clean_commits步骤的并行度是由Hudi 0.9.0版本引入的。在Hudi 0.9.0之前的版本中,clean_commits步骤是串行执行的,因此并行度为1。而在Hudi 0.9.0及以后的版本中,clean_commits步骤可以并行执行,并行度由参数hoodie.datasource.write.hive_sync.parallelism控制。

    如果你使用的是Hudi 0.9.0或更高版本,并且已经设置了默认并行度为5,但Sink: clean_commits步骤的并行度仍然为1,可能有以下几种原因:

    1. 检查你的Flink作业配置是否正确。确保你已经正确设置了hoodie.datasource.write.hive_sync.parallelism参数的值。你可以在Flink Web UI中找到该参数的配置项,并确认其值是否与你预期的一致。

    2. 检查你的Hudi配置是否正确。确保你已经正确配置了Hudi的相关参数,例如hoodie.datasource.write.recordkey.fieldhoodie.datasource.write.partitionpath.field等。这些参数的配置可能会影响Sink: clean_commits步骤的并行度。

    3. 检查你的数据源和目标存储系统是否正常工作。如果数据源或目标存储系统存在问题,可能会导致Sink: clean_commits步骤无法正常执行,从而影响并行度的设置。

    如果以上方法都无法解决问题,你可以尝试在Flink社区或相关论坛上提问,以获取更详细的帮助和支持。

    2024-01-19 14:48:24
    赞同 展开评论 打赏
  • Flink CDC 中,Sink: clean_commits 步骤的并行度是由 Hudi 控制台配置决定的。您可以通过以下方式修改 Hudi 控制台的配置:

    1. 打开 Hudi 控制台,找到 "hive-site.xml" 文件。
    2. 在文件中添加以下配置项:

      <property>
        <name>hoodie.datasource.write.recordkey.field</name>
        <value>your_record_key_field</value>
      </property>
      <property>
        <name>hoodie.datasource.write.partitionpath.field</name>
        <value>your_partition_path_field</value>
      </property>
      <property>
        <name>hoodie.datasource.write.table.type</name>
        <value>COPY_ON_WRITE</value>
      </property>
      <property>
        <name>hoodie.datasource.write.operation</name>
        <value>insert</value>
      </property>
      <property>
        <name>hoodie.datasource.write.parallelism</name>
        <value>5</value>
      </property>
      

      其中,your_record_key_fieldyour_partition_path_field 分别表示您的记录键字段和分区路径字段。将 hoodie.datasource.write.parallelism 的值设置为您想要的并行度。

    3. 保存并重启 Hudi 服务。
    4. 重新运行 Flink CDC 任务,Sink: clean_commits 步骤的并行度应该会根据您的配置改变。
    2024-01-19 09:02:10
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载