Hive 迁移到 CDP
一、 Hive 迁移工具介绍
Hive 迁移到 CDP,主要有以下两种方案:
① 使用 DistCP+HMS Mirro 迁移 Hive 数据。
② 使用 Replication Manager(企业级工具)迁移 Hive 数据。
• 方案①是基于命令行的方式,分步操作,每部分单独执行,其中DistCP负责HDFS数据的迁移,HMS Mirror 负责 Hive Metastore 数据的迁移。
• 方案②是通过企业级的界面配置进行简单操作,将 Hive 数据一次性迁移到 CDP平台,同时提供了完整的监控报告和调度。
安全支持方面,两种方式都支持非 Kerberos 集群之间、非 Kerberos 到 Kerberos 以及 Kerberos 到 Kerberos 的 Hive 数据迁移。
监控方面,两种方式都是单独执行,监控和运行是独立的,需要分别进行监控。方案②通过 UI 和 CM 界面集成,提供了完整的监控和运行报告以及调度支持。
增量和全量方面,两种方案都能支持增量和全量复制。
周期性运行方面,两种方案都基于原生命令行一次性执行,可以利用调度器实现周期性调度来完成整个复制。Replication Manager 方案可以在 UI 里配置对应调度策略来一次性执行或立即执行,也可以按照不同的时间做调度,以及按照不同的频率梯度来执行。同时它保存了完整的执行日志和执行过程,便于后续分析以及错误预警。
适用性方面,两种方案都适用于所有 Hadoop 集群进行 Hive 迁移,支持从 Hive1到 Hive3、Hive2 到 Hive3 等,也支持从 CDH/HDP、Apache Hadoop 迁移到 CDP。Replication Manager 主要支持 CDH 到 CDH/CDP、CDP 到 CDP 的 Hive 迁移。此外,由于 Replication Manager 是企业级工具,因此使用它需要通过 Cloudera 许可证以正常运行。
《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(2) https://developer.aliyun.com/article/1227683?groupCode=ClouderaCDP