阿里云E-MapReduce Jindodistcp任务启动以后,如果在迁移期间 hdfs有新增文件块,这个新增的文件块,会被同步到oss么?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在使用阿里云E-MapReduce的JindoDistCp工具进行数据迁移时,如果在迁移任务执行期间HDFS源端新增了文件块,这些新增文件块是否会被同步到OSS,取决于您是否启用了增量同步功能(--update
参数)。
默认情况下,JindoDistCp任务不会自动检测和同步迁移过程中HDFS源端新增的文件块。也就是说,如果您未指定 --update
参数,JindoDistCp只会按照任务启动时扫描到的文件列表进行迁移,而不会动态感知迁移期间新增的文件或文件块。
如果您希望在迁移任务中包含HDFS源端新增的文件块,可以在启动JindoDistCp任务时添加 --update
参数。该参数的作用是: - 跳过完全相同的文件和目录:只复制源端新增或发生改变的文件和目录。 - 支持断点续传:如果任务因某些原因失败,重新运行时可以只复制未成功迁移的文件。
以下是一个启用增量同步功能的示例命令:
hadoop jar jindo-distcp-tool-${version}.jar --src /data/hourly_table --dest oss://example-oss-bucket/hourly_table --update
通过上述命令,JindoDistCp会在任务执行期间动态检测源端新增的文件块,并将其同步到目标OSS路径。
--update
参数需要 JindoData 4.3.0 及以上版本支持,请确保您的环境满足版本要求。--update
参数,以避免重复迁移已成功处理的文件。--update
参数,HDFS源端新增的文件块不会被同步到OSS。--update
参数,JindoDistCp会动态检测并同步新增的文件块,确保源端和目标端的数据一致性。因此,为了实现HDFS新增文件块的同步,请务必在启动JindoDistCp任务时添加 --update
参数。
阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。