本期导读 :【阿里云 CDP 公开课】第七讲
主题:HDFS 迁移到 CDP
讲师:王雪峰,Cloudera 生态资深解决方案工程师
内容框架:
- HDFS 迁移方案介绍
- 使用 Distcp 迁移 HDFS
- 使用 Replication Manager 迁移 HDFS 数据
- 实操演示
直播回放链接:(第7讲)
https://developer.aliyun.com/live/248803
一、HDFS 迁移方案介绍
1)HDFS 迁移常见工具
在进行 HDFS 迁移时,第一个使用比较广泛的工具是Hadoop自带的迁移工具DistCP;第二个是经过加工封装和功能增强的Cloudera Replication Manager。
2)工具功能比较
从六个维度对这两个工具进行比较:
- 使用方式
DistCP 主要是通过命令行执行命令的方式去执行,Replication Manager 主要是通过 CM 界面配置简单操作的方式提供给用户。
- 安全支持
DistCP 主要支持非 Kerberos 集群间、非 Kerberos 集群到 Kerberos 集群、Kerberos 集群到 Kerberos 集群的迁移。而 Replication Manager 也同样支持。
- 监控
DistCP 是通过命令行报告,Replication Manager 通过双方提供完整的监控和运行报告,同时可以查看历史的报告记录。
- 增量和全量支持
DistCP 和 Replication Manager 都支持,主要是利用快照比较增量。
- 周期性运行。
DistCP 主要是一次性执行,通过调度器来执行周期性的调度策略。Replication Manager 可以在界面上提供立即执行、一次执行和周期性执行的调度策略。对所有的执行策略都提供对应的执行日志和执行过程,可以更好的去监控。
- 适用范围。
DistCP 适用范围比较广,适用于所有的 Hadoop集群、CDH、HDP、Hadoop、CDP,以及 HDFS 的数据迁移。Replication Manager 主要支持 CDH 到 CDH、CDH 到 CDP 以及 CDP 到 CDP 的数据迁移,要使用 Replication Manager 需要 Cloudera 许可证。
二、使用 Distcp 迁移 HDFS 数据
DistCp(分布式副本)是用于大型集群间/集群内复制的工具。它使用 MapReduce 来影响其分布、错误处理和恢复以及报告。它将文件和目录列表扩展为映射任务的输入,每个任务都将复制源列表中指定的文件的一个分区。
1)Distcp基本用法
- 集群间的复制:主要是做不同集群间数据目录的一些复制,把源到目标通过 DistCP 来去做。
- 更新和覆盖:-update 用于从源中复制目标中不存在或与目标版本不同的文件。-overwrite 覆盖目标中存在的目标文件。
- 支持同步:-diff 选项将文件从源集群同步到具有快照差异的目标集群。它复制、重命名和删除快照差异列表中的文件。使用 -diff 选项时必须包含-update选项。
2)Distcp 参数
三、使用 Replication Manager 迁移数据
1)Replication Manager数据复制
Replication Manager 主要进行数据复制,用于不同集群之间的数据复制,以及本地集群和云上的数据复制,支持直接把数据写入到 S3。
2)Replication Manager 概述
Replication Manager 使您能够跨数据中心复制数据以用于灾难恢复场景。支持复制 HDFS 存储的数据、Hive 表存储的数据、Hive Metastore 数据、Hive Metastore 中注册的 Impala 表的 Impala 元数据(Catalog server metadata),以及 Sentry 到 Ranger 的权限。如果需要去复制 HBase,是通过 HBase shell 提供的数据迁移。
3)Cloudera Replication Manager
Replication Manager 提供的主要的功能:
- 集中配置:它通过界面进行统一配置,定义备份和灾难恢复策略并跨服务应用
- 监控和预警:跟踪复制作业的进度并在数据不同步时收到通知
- 性能和可靠性:使用 MapReduce 通过 DistCP 进行高性能、CDH/CDP 优化复制
4)CDP 备份和灾难恢复
Replication Manager 提供的功能主要有:
- 选择对应的来源和目标进行数据的同步源。
- 做对应的配置,配置完后去做数据同步、数据复制的任务。在整个过程中可以去监控整个任务的执行。
- 通过备份和恢复功能支持。
从上图的表中可以看到支持 HDFS 和 HBase 的快照支持、HDFS 和 Hive 的数据复制内容。
5)Replication Manager的架构注意事项
- 支持多路复制:独立表和目录之间的这种专项复制可以支持a到b、b到a的复制方式。
- 资源管控:可以控制网络带宽的限制、每日摄取率、跨数据中心带宽等
- 支持安全:Kerberos 可以去做身份验证,支持相同领域以及跨领域的安全配置。同时可以用数据模拟、用户模拟的方式来保留适量的权限来进行这种迁移。本身是支持 Kerberos 集群到非 Kerberos 集群,Kerberos 集群到 Kerberos 集群以及非 Kerberos 集群到非 Kerberos 集群的复制。
- 跨版本支持:例如从 CDH 迁移到 CDP,源和集群可以运行不同版本的 CM
- 分布式COPY增强:通过 Kerberos 集成数据的错误和详细报等提供这种增强。
6)CDP私有云基础上的 Replication Manager 支持矩阵
7)RM 支持的场景
Replication Manager 支持的场景:
- CDH 到 CDP Base,是基于 Cloudera BDR 做的,支持 HDFS 数据拷贝、支持 Hive 数据和元数据复制(以及 Sentry 到 Ranger),要求 CM 最低版本是5.14,CDH 最低版本是5.13。
- 对于 CDP 集群,支持 CDP Base 到 CDP Base 的数据同步复制,主要也是使用 Cloudera BDR 来做的。支持 HDFS 数据拷贝、支持 Hive 数据和元数据复制。在目前阶段仅支持Hive 的外部表数据复制,还不支持 Ranger 复制和 Atlas 复制。
8)RM 复制支持的安全场景
四、HDFS迁移演示
- 使用 DistCP 进行 HDFS 迁移
- 使用 Replication Manager 进行 HDFS 迁移。
⭐点击回放链接,观看第7讲视频回放,获取讲师实例讲解:
https://developer.aliyun.com/live/248803
更多信息
产品试用
目前,CDP产品支持三个场景试用体验:
第一,CDP沙箱环境。主要测试常用场景:如构建数仓、ETL等常见的大数据分析场景,以及测试安全、数据血缘和治理等组件。
第二,Edge2AI场景。在此Edge2Al的实操实验中,将为IoT预测性维护用例构建完整的OT到IT的工作流。
第三,CDP Base+Data Service。测试存算分离,新一代容器化计集群,用户体验良好的APP等。
立即开通:https://cloudera.console.aliyun.com/?
试用申请:https://survey.aliyun.com/apps/zhiliao/owtTaIQU3
技术交流
钉钉扫描下方二维码加入产品交流群一起参与讨论吧!