《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(1) https://developer.aliyun.com/article/1227685?groupCode=ClouderaCDP
二、 使用 Replication Manager 迁移 Hive 数据
Replication Manager 主要用于整个 CDH/CDP 平台的数据备份和灾难恢复,它提供了完整的数据备份和灾难恢复功能。在其界面上可以选择源和目标的配置,然后选择需要备份和恢复的文件、表、库等。可以配置用户、资源池、带宽、监控、日常预警等信息。配置完成后,可以根据调度策略来进行数据同步,同步过程中可以进行监控以观察实时运行情况,并采取措施。
Repliation Manager 也支持快照和数据复制。快照部分主要支持 HDFS 和 Hbase,数据复制主要支持 HDFS 和 Hive。在 Hive 数据复制里,除了支持 HDFS 数据复制之外,还支持了元数据的复制以及 Sentry 到 Ranger 权限的同步。今年的版本会新增支持 Hive 数据迁移的复制。
1. RM 迁移注意点
进行 Hive 数据同步时,如果是 CDH 到 CDP 的迁移,建议在 CDP 的 Hive 里将 Hive外表目录设置成 CDH 的受管表目录,数据会自动迁移到该目录下,代码无须修改目录即可直接运行。
受管表从 CDH 迁移到 CDP 后会变成 CDP 的外表,同时增加 purge 属性,能够在做表清理的同时将数据文件进行 drop,从而保证其与 CDH 内表是相同的使用体验。而 CDP 内表目前还不支持 Repliation Manager,今年的版本会增加对应的支持。同时,Repliation Manager 支持 Sentry 权限迁移到 Ranger,用户可以根据自己的需求迁移权限。
Repliation Manager 对 CM 的版本要求较高,在 CDH 上需要将 CM 升级到版本 6.3以上,CDH 要求在版本 5.10 以上。如果 CDH 版本较老,则只能通过 Distcp+HMS Mirror 的方式来同步 Hive 元数据。目标集群要求 CDP 7.0 以上,能够支持 HDFS Sentry 到 Ranger 权限迁移,支持 Hive 到 Hive 外部表迁移等。CDP 要求 CM 和 CDH的版本在 7.1.1 以上,支持高密度的文件系统以及外部表的数据迁移。
《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(3) https://developer.aliyun.com/article/1227681?groupCode=ClouderaCDP