HDFS 迁移到 CDP

简介: 本文整理自 Cloudera 生态资深解决方案工程师王雪峰在 阿里云CDP公开课 上的分享。

本期导读 :【阿里云 CDP 公开课】第七讲


主题:HDFS 迁移到 CDP

讲师:王雪峰,Cloudera 生态资深解决方案工程师

内容框架:

  • HDFS 迁移方案介绍
  • 使用 Distcp 迁移 HDFS
  • 使用 Replication Manager 迁移 HDFS 数据
  • 实操演示

直播回放链接:(第7讲)

https://developer.aliyun.com/live/248803


一、HDFS 迁移方案介绍

1HDFS 迁移常见工具

在进行 HDFS 迁移时,第一个使用比较广泛的工具是Hadoop自带的迁移工具DistCP;第二个是经过加工封装和功能增强的Cloudera Replication Manager。


2)工具功能比较

幻灯片4.PNG

从六个维度对这两个工具进行比较:

  • 使用方式

DistCP 主要是通过命令行执行命令的方式去执行,Replication Manager 主要是通过 CM 界面配置简单操作的方式提供给用户。


  • 安全支持

DistCP 主要支持非 Kerberos 集群间、非 Kerberos 集群到 Kerberos 集群、Kerberos 集群到 Kerberos 集群的迁移。而 Replication Manager 也同样支持。


  • 监控

DistCP 是通过命令行报告,Replication Manager 通过双方提供完整的监控和运行报告,同时可以查看历史的报告记录。


  • 增量和全量支持

DistCP 和 Replication Manager 都支持,主要是利用快照比较增量。


  • 周期性运行。

DistCP 主要是一次性执行,通过调度器来执行周期性的调度策略。Replication Manager 可以在界面上提供立即执行、一次执行和周期性执行的调度策略。对所有的执行策略都提供对应的执行日志和执行过程,可以更好的去监控。


  • 适用范围。

DistCP 适用范围比较广,适用于所有的 Hadoop集群、CDH、HDP、Hadoop、CDP,以及 HDFS 的数据迁移。Replication Manager 主要支持 CDH 到 CDH、CDH 到 CDP 以及 CDP 到 CDP 的数据迁移,要使用 Replication Manager 需要 Cloudera 许可证。

 

二、使用 Distcp 迁移 HDFS 数据

DistCp(分布式副本)是用于大型集群间/集群内复制的工具。它使用 MapReduce 来影响其分布、错误处理和恢复以及报告。它将文件和目录列表扩展为映射任务的输入,每个任务都将复制源列表中指定的文件的一个分区。


1)Distcp基本用法

幻灯片7.PNG

  • 集群间的复制:主要是做不同集群间数据目录的一些复制,把源到目标通过 DistCP 来去做。


  • 更新和覆盖:-update 用于从源中复制目标中不存在或与目标版本不同的文件。-overwrite 覆盖目标中存在的目标文件。


  • 支持同步:-diff 选项将文件从源集群同步到具有快照差异的目标集群。它复制、重命名和删除快照差异列表中的文件。使用 -diff 选项时必须包含-update选项。

2)Distcp 参数

幻灯片8.PNG

 

三、使用 Replication Manager 迁移数据

1Replication Manager数据复制

幻灯片10.PNG

Replication Manager 主要进行数据复制,用于不同集群之间的数据复制,以及本地集群和云上的数据复制,支持直接把数据写入到 S3


2Replication Manager 概述

Replication Manager 使您能够跨数据中心复制数据以用于灾难恢复场景。支持复制 HDFS 存储的数据、Hive 表存储的数据、Hive Metastore 数据、Hive Metastore 中注册的 Impala 表的 Impala 元数据(Catalog server metadata),以及 Sentry 到 Ranger 的权限。如果需要去复制 HBase,是通过 HBase shell 提供的数据迁移。


3Cloudera Replication Manager

幻灯片12.PNG

Replication Manager 提供的主要的功能:

  • 集中配置:它通过界面进行统一配置,定义备份和灾难恢复策略并跨服务应用
  • 监控和预警:跟踪复制作业的进度并在数据不同步时收到通知
  • 性能和可靠性:使用 MapReduce 通过 DistCP 进行高性能、CDH/CDP 优化复制


4CDP 备份和灾难恢复

幻灯片13.PNG

Replication Manager 提供的功能主要有:

  • 选择对应的来源和目标进行数据的同步源。
  • 做对应的配置,配置完后去做数据同步、数据复制的任务。在整个过程中可以去监控整个任务的执行。
  • 通过备份和恢复功能支持。


从上图的表中可以看到支持 HDFS HBase 的快照支持、HDFS Hive 的数据复制内容。


5Replication Manager的架构注意事项

幻灯片14.PNG

  • 支持多路复制:独立表和目录之间的这种专项复制可以支持abba的复制方式。


  • 资源管控:可以控制网络带宽的限制、每日摄取率、跨数据中心带宽等


  • 支持安全:Kerberos 可以去做身份验证,支持相同领域以及跨领域的安全配置。同时可以用数据模拟、用户模拟的方式来保留适量的权限来进行这种迁移。本身是支持 Kerberos 集群到非 Kerberos 集群,Kerberos 集群到 Kerberos 集群以及非 Kerberos 集群到非 Kerberos 集群的复制。


  • 跨版本支持:例如从 CDH 迁移到 CDP,源和集群可以运行不同版本的 CM


  • 分布式COPY增强:通过 Kerberos 集成数据的错误和详细报等提供这种增强。



6CDP私有云基础上的 Replication Manager 支持矩阵

幻灯片15.PNG


7RM 支持的场景

幻灯片16.PNG

Replication Manager 支持的场景:

  • CDH CDP Base,是基于 Cloudera BDR 做的,支持 HDFS 数据拷贝、支持 Hive 数据和元数据复制(以及 Sentry Ranger,要求 CM 最低版本是5.14CDH 最低版本是5.13
  • 对于 CDP 集群,支持 CDP Base CDP Base 的数据同步复制,主要也是使用 Cloudera BDR 来做的。支持 HDFS 数据拷贝、支持 Hive 数据和元数据复制。在目前阶段仅支持Hive 的外部表数据复制,还不支持 Ranger 复制和 Atlas 复制。


8RM 复制支持的安全场景

幻灯片17.PNG

 

四、HDFS迁移演示

  • 使用 DistCP 进行 HDFS 迁移
  • 使用 Replication Manager 进行 HDFS 迁移。


点击回放链接,观看第7讲视频回放,获取讲师实例讲解:

   https://developer.aliyun.com/live/248803



更多信息

产品试用

d42a2bc17b66476085b274d46997c8dd.png

目前,CDP产品支持三个场景试用体验:

第一,CDP沙箱环境。主要测试常用场景:如构建数仓、ETL等常见的大数据分析场景,以及测试安全、数据血缘和治理等组件。

第二,Edge2AI场景。在此Edge2Al的实操实验中,将为IoT预测性维护用例构建完整的OTIT的工作流。

第三,CDP Base+Data Service。测试存算分离,新一代容器化计集群,用户体验良好的APP等。


立即开通:https://cloudera.console.aliyun.com/?

试用申请:https://survey.aliyun.com/apps/zhiliao/owtTaIQU3



技术交流

钉钉扫描下方二维码加入产品交流群一起参与讨论吧!

10e7a6c5f5d4450ebf14b6b119753f42.jpg

相关文章
|
Web App开发 SQL 资源调度
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui
|
2月前
|
SQL 存储 分布式计算
HDFS数据(跨集群)迁移
HDFS数据(跨集群)迁移
|
分布式计算 监控 安全
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(1)
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(1)
163 0
|
分布式计算 API
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(2)
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(2)
125 0
|
SQL 存储 测试技术
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(3)
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(3)
113 0
|
SQL 监控 安全
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(4)
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(4)
106 0
|
SQL 安全 atlas
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(5)
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(5)
103 0
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(6)
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(6)
139 0
|
2月前
|
存储 分布式计算 Hadoop
【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
70 1
|
2月前
|
存储 缓存 分布式计算