HadoopDistCp是什么?

HadoopDistCp是什么?

展开
收起
Lee_tianbai 2021-01-07 15:51:33 1036 分享 版权
1 条回答
写回答
取消 提交回答
  • HadoopDistCp 是 Hadoop 集成的分布式数据迁移工具,提供了基本文件拷贝、覆盖 拷贝、指定 map 并行度、log 输出路径等功能。在 Hadoop2x 上对 DistCp 进行了部分优 化例如拷贝策略的选择,默认使用 uniformsize(每个 map 会平衡文件大小)如果指定 dynamic,则会使用 DynamicInputFormat。这些功能优化了普通 hdfs 间数据拷贝,但 是对于对象存储系统如 OSS 缺少数据写入方面的优化。

    2021-01-07 15:51:43
    赞同 展开评论

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

收录在圈子:
+ 订阅
还有其他疑问?
咨询AI助理