《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(3) https://developer.aliyun.com/article/1227811?groupCode=ClouderaCDP
3. Cloudera Replication Manager
Cloudera Manager 在 Cloudera Manager Admin Console 中提供以下关键功能,Replication Manager 可以利用这些功能:
• 选择对您的业务运营至关重要的数据集。
• 通过中央控制台监控和跟踪快照和复制作业的进度,并轻松识别问题或未能传输的文件。
• 当快照或复制作业失败或中止时发出警报,以便可以快速诊断问题。
还可以使用 Cloudera Manager 来计划、保存和恢复 HDFS 目录和 HBase表的快照。
4. CDP 备份和灾难恢复
Replication Manager 提供的功能主要有:
• 选择对应的来源和目标进行数据的同步源。
• 做对应的配置,配置完后去做数据同步、数据复制的任务。在整个过程中可以去监控整个任务的执行。
• 通过备份和恢复功能支持。
从上图的表中可以看到支持 HDFS 和 HBase 的快照支持、HDFS 和 Hive 的数据复制内容。
5. Replication Manager 的架构注意事项
• 支持多路复制:独立表和目录之间的这种专项复制可以支持 a 到 b、b 到 a 的复制方式。
• 资源管控:可以控制网络带宽的限制、每日摄取率、跨数据中心带宽等。
• 支持安全:Kerberos 可以去做身份验证,支持相同领域以及跨领域的安全配置。
同时可以用数据模拟、用户模拟的方式来保留适量的权限来进行这种迁移。本身是支持 Kerberos 集群到非 Kerberos 集群,Kerberos 集群到 Kerberos 集群
以及非 Kerberos 集群到非 Kerberos 集群的复制。
• 跨版本支持:例如从 CDH 迁移到 CDP,源和集群可以运行不同版本的CM。
• 分布式 COPY 增强:通过 Kerberos 集成数据的错误和详细报等提供这种增强。
《CDP企业数据云平台从入门到实践》——HDFS 迁移到 CDP(5) https://developer.aliyun.com/article/1227811?groupCode=ClouderaCDP