《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(2)

简介: 《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(2)

《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(1) https://developer.aliyun.com/article/1227815?groupCode=ClouderaCDP


二、 使用 Distcp 迁移 HDFS 数据

DistCp(分)是于大型群间/复制的工具。它使用 MapReduce来影响其理和复以及报。它将文件和目录列表扩展为映射任务的入,务都将复制源列表的文件的一个分区。


1. Distcp 基本用


DistCp 调用群间复制:

bash$hadoopdistcphdfs://nn1:8020/foo/bar \hdfs://nn2:8020/bar/foo

这会nn1 /foo/bar 下的命名空展为一个时文件,将分区到一组映射务中,并在从 nn1 nn2 NodeManager 一个本。还可以在命行中多个源目

bash$hadoopdistcphdfs://nn1:8020/foo/a \hdfs://nn1:8020/foo/b \hdfs://nn2:8020/bar/foo

或者,,从使用-f 项的文件:

bash$hadoopdistcp-fhdfs://nn1:8020/srclist \hdfs://nn2:8020/bar/foo

srclist 方:

hdfs://nn1:8020/foo/ahdfs://nn1:8020/foo/b

从多个源复制时,两个源DistCp 将中止复制并示一息,目的是根据解决的。情况下,将已存在的文件(不被源文件替换)。


业结束时告跳的文件数,印机对其文件的失败在以尝试中成可能不准确。要的是NodeManager 都可以访问源文件和目文件并与之通信。对HDFS,源和目必须相同的协议或使用后兼容的协议参阅[之间复制]#Copying_Between_Versions_of_HDFS)。


复制议生成并源和目标列表,以证复制是否真。由于 DistCp使用 Map/Reduce FileSystem API此三者中的任何一个或两者之间的问都可能产生不影响。有人在-update 情况下成功运行行第二户在尝试该熟悉其


还值意的是,果另一个客户仍在入源文件,复制可能失败尝试覆在目位置入的文件在 HDFS 上也失败源文件在复制之被(重新)移动复制将失败并出现 FileNotFoundException

DistCp 中所有可项的信息细的命


集群间的复制要是做不同集群间数据目的一复制,源到目标通过

DistCP 做。


更新和覆盖

-update 于从源中复制目中不存在或与目的文件。

-overwrite 覆盖目中存在的目文件。


支持同步

-diff 项将文件从源差异的目标集群。它复制、差异列表中的文件。使用-diff 项时必须-update 项。


《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(3) https://developer.aliyun.com/article/1227811?groupCode=ClouderaCDP

目录
相关文章
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
57 4
|
2月前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
43 2
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
110 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
51 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
59 0
|
4月前
|
SQL 存储 分布式计算
HDFS数据(跨集群)迁移
HDFS数据(跨集群)迁移
|
5月前
|
弹性计算 Linux 网络安全
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
现在越来越多的个人和企业用户选择将其他云平台或者服务商的业务迁移到阿里云,但是如何快速且安全完成迁移是很多用户比较关注的问题,我们可以选择使用阿里云提供的服务器迁移中心(Server Migration Center,简称SMC),这个产品是阿里云提供给您的迁移平台,专注于提供能力普惠、体验一致、效率至上的迁移服务,满足您在阿里云的迁移需求。本文为大家展示使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云的教程,以供参考。
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
|
5月前
|
分布式计算 Hadoop
|
5月前
|
分布式计算 Hadoop 关系型数据库
实时计算 Flink版操作报错合集之Hadoop在将文件写入HDFS时,无法在所有指定的数据节点上进行复制,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
6月前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
276 3