Flink CDC里我通过oracle的connector往hudi插入数据,flink web ui里面为啥Sink: clean_commits 这个步骤并行度是1,我设置的默认并行度是5,但是它改变不了为什么?
Flink CDC中,Sink: clean_commits步骤的并行度是由Hudi 0.9.0版本引入的。在Hudi 0.9.0之前的版本中,clean_commits步骤是串行执行的,因此并行度为1。而在Hudi 0.9.0及以后的版本中,clean_commits步骤可以并行执行,并行度由参数hoodie.datasource.write.hive_sync.parallelism
控制。
如果你使用的是Hudi 0.9.0或更高版本,并且已经设置了默认并行度为5,但Sink: clean_commits步骤的并行度仍然为1,可能有以下几种原因:
检查你的Flink作业配置是否正确。确保你已经正确设置了hoodie.datasource.write.hive_sync.parallelism
参数的值。你可以在Flink Web UI中找到该参数的配置项,并确认其值是否与你预期的一致。
检查你的Hudi配置是否正确。确保你已经正确配置了Hudi的相关参数,例如hoodie.datasource.write.recordkey.field
、hoodie.datasource.write.partitionpath.field
等。这些参数的配置可能会影响Sink: clean_commits步骤的并行度。
检查你的数据源和目标存储系统是否正常工作。如果数据源或目标存储系统存在问题,可能会导致Sink: clean_commits步骤无法正常执行,从而影响并行度的设置。
如果以上方法都无法解决问题,你可以尝试在Flink社区或相关论坛上提问,以获取更详细的帮助和支持。
Flink CDC 中,Sink: clean_commits 步骤的并行度是由 Hudi 控制台配置决定的。您可以通过以下方式修改 Hudi 控制台的配置:
在文件中添加以下配置项:
<property>
<name>hoodie.datasource.write.recordkey.field</name>
<value>your_record_key_field</value>
</property>
<property>
<name>hoodie.datasource.write.partitionpath.field</name>
<value>your_partition_path_field</value>
</property>
<property>
<name>hoodie.datasource.write.table.type</name>
<value>COPY_ON_WRITE</value>
</property>
<property>
<name>hoodie.datasource.write.operation</name>
<value>insert</value>
</property>
<property>
<name>hoodie.datasource.write.parallelism</name>
<value>5</value>
</property>
其中,your_record_key_field
和 your_partition_path_field
分别表示您的记录键字段和分区路径字段。将 hoodie.datasource.write.parallelism
的值设置为您想要的并行度。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。