《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(6)

简介: 《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(6)

《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(5) https://developer.aliyun.com/article/1227805?groupCode=ClouderaCDP


四、 HDFS 迁移步骤


1. 使用 DistCP 进行 HDFS 迁移


Distcp snapshot 拷贝方式的下:

Step1.假定将源群的 HDFS /data/a 拷贝到目标集群的 HDFS

/data/a_target

[root@source_cluster~]#hdfsdfs-ls/data/aFound1items-rw-r--r--2etl_usersupergroup614402021-01-0408:12/data/a/cnav.tar

意:不要预先在目标集创建 a_target distcp 动创建

Step2.许源目录创建快

[root@source_cluster~]#hdfsdfsadmin-allowSnapshot/data/aAllowingsnaphoton/data/asucceeded


Step3.源目录建立快snapshot1

[root@source_cluster~]#hdfsdfs-createSnapshot/data/asnapshot1Createdsnapshot/data/a/.snapshot/snapshot1


step4.snapshot1 进行的全拷贝

[root@source_cluster~]#hadoopdistcp-Dmapreduce.job.hdfsservers.token-renewal.exclude=source_cluster.tiger2.root.hwx.sitehdfs://source_cluster.tiger2.root.hwx.site/data/a/.snapshot/snapshot1hdfs://target_cluster.feng.root.hwx.site/data/a_target


在目标集群上,/data/a_target 已经生成,并且了数据。

[root@target_cluster~]#hdfsdfs-ls/data/a_targetFound1items-rw-r--r--3etl_useradministrator614402021-01-0400:46/data/a_target/cnav.tar


Step5.许目录创建快

[root@target_cluster~]#hdfsdfsadmin-allowSnapshot/data/a_targetAllowingsnapshoton/data/a_targetsucceeded


此时,/data/a_target 该被该目进行任何


Step6./data/a_target 创建于源目录快照名称相同snapshot1

[root@target_cluster~]#hdfsdfs-createSnapshot/data/a_targetsnapshot1Createdsnapshot/data/a_target/.snapshot/snapshot1


Step7.源目/data/a 中的进行,然后创建新的snapshot2

[root@source_cluster~]#hdfsdfs-putnav2atlas.tar/data/a[root@source_cluster~]#hdfsdfs-ls/data/aFound2items-rw-r--r--2etl_usersupergroup614402021-01-0408:12/data/a/cnav.tar-rw-r--r--2etl_usersupergroup140185602021-01-0408:50/data/a/nav2atlas.tar[root@source_cluster~]#hdfsdfs-createSnapshot/data/asnapshot2Createdsnapshot/data/a/.snapshot/snapshot2[root@source_cluster~]#hdfssnapshotDiff/data/asnapshot1snapshot2Differencebetweensnapshotsnapshot1andsnapshotsnapshot2underdirectory/data/a:
M .
+ ./nav2atlas.tartarget/nav2atlas.tar


Step8.snapshot2 进行增量拷贝

[root@source_cluster~]#hadoopdistcp-Dmapreduce.job.hdfsservers.token-renewal.exclude=source_cluster.tiger2.root.hwx.site-diffsnapshot1snapshot2-updatehdfs://source_cluster.tiger2.root.hwx.site/data/a hdfs://target_cluster.feng.root.hwx.site/data/a_target


在目标集群上,/data/a_target 了数据。

[root@target_cluster~]#hdfsdfs-ls/data/a_targetFound2items-rw-r--r--3etl_useradministrator614402021-01-0400:46/data/a_target/cnav.tar-rw-r--r--2etl_useradministrator140185602021-01-0401:43/data/a_


Step9.旦拷贝成,需要继续为目录创建与源目录同snapshot2

[root@target_cluster~]#hdfsdfs-createSnapshot/data/a_targetsnapshot2Createdsnapshot/data/a_target/.snapshot/snapshot2

2. 使用 Replication Manager 进行 HDFS 迁移。

Replication Manager 下:

1) 选择需要的数据

2) 针对的数据的复制策略,HDFS 复制业。第3.11.6 节。


数据需要

每天都需要更新的数据,每天

数据量较大的文件,需要给更多的,以map

需要使用特定复制特定数据

需要使用资源


通过 CM 界面HDFS 复制业,行日志.

目录
相关文章
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
47 4
|
2月前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
38 2
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
89 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
41 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
49 0
|
4月前
|
SQL 存储 分布式计算
HDFS数据(跨集群)迁移
HDFS数据(跨集群)迁移
|
5月前
|
弹性计算 Linux 网络安全
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
现在越来越多的个人和企业用户选择将其他云平台或者服务商的业务迁移到阿里云,但是如何快速且安全完成迁移是很多用户比较关注的问题,我们可以选择使用阿里云提供的服务器迁移中心(Server Migration Center,简称SMC),这个产品是阿里云提供给您的迁移平台,专注于提供能力普惠、体验一致、效率至上的迁移服务,满足您在阿里云的迁移需求。本文为大家展示使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云的教程,以供参考。
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
|
5月前
|
分布式计算 Hadoop
|
5月前
|
分布式计算 Hadoop 关系型数据库
实时计算 Flink版操作报错合集之Hadoop在将文件写入HDFS时,无法在所有指定的数据节点上进行复制,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
6月前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
243 3

热门文章

最新文章