开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

HadoopDistCp是什么?

HadoopDistCp是什么?

展开
收起
Lee_tianbai 2021-01-07 15:51:33 978 0
1 条回答
写回答
取消 提交回答
  • HadoopDistCp 是 Hadoop 集成的分布式数据迁移工具,提供了基本文件拷贝、覆盖 拷贝、指定 map 并行度、log 输出路径等功能。在 Hadoop2x 上对 DistCp 进行了部分优 化例如拷贝策略的选择,默认使用 uniformsize(每个 map 会平衡文件大小)如果指定 dynamic,则会使用 DynamicInputFormat。这些功能优化了普通 hdfs 间数据拷贝,但 是对于对象存储系统如 OSS 缺少数据写入方面的优化。

    2021-01-07 15:51:43
    赞同 展开评论 打赏

阿里云EMR是云原生开源大数据平台,为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎,计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载