《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(2) https://developer.aliyun.com/article/1227683?groupCode=ClouderaCDP
二、 使用 Replication Manager 迁移 Hive 数据
2. 使用 RM 迁移 Hive 演示
本次演示的环境版本如上图所示。
在CDH集群中有四张Hive内置表,其中三张test表分别对应普通文本、ORC和
Parquet格式,本次演示需要将三张test表从CDH5迁移到CDP,并进行一些操作。
首先,进行备份复制,迁移CDH5的数据。如果集群中没有配置同行,则需要点击备份-同行-添加同行,配置同行后才能继续后续操作。
同行的端口是Cloudera Manager的登录路径。如果启用了TLS,则对应的端口为7183,否则为7180。使用默认的账户和密码填入同行管理用户名和密码。配置完成后会做测试连接,连接认证之后,即可在后续备份复制时在不同集群中进行数据迁移。
同行的操作菜单包括测试连接性、编辑和删除。
点击菜单栏中备份-复制计划-创建计划-Hive复制。
填写以上常规信息。
目标路径是指HDFS存储Hive数据和元数据的可选项,是创建表的根目录。比如HDFS的目标目录路径为/mypath,而源路径为user/hive/warehouse/bdr.db/tab1,
那么复制完成后的路径即/mypath/user/hive/warehouse/bdr.db/tab1
填写以上资源相关信息。其中,复制策略为“动态”指将小集合中的文件复制任务分配给mapper,执行完后再去处理下一个未分配的任务集,而“静态”指根据文件大小实现统一分配。
点击“命令详细信息”即可查看具体的执行相关信息。
从上图执行信息中可以看到,Hive数据复制分为6个步骤。
第一步:导出远程Hive Metastore。
第二步:传输元数据文件。
第三步:Hive表数据复制,即HDFS数据复制,主要包含做检查、文件监听、列举文件、将列举清单传输到同行中,并在目标端触发HDFS的复制任务。
第四步:Hive Metastore导入。
第五步:通过引发Impala shell执行Invalidate相关命令。
第六步:在目标端重命名Snapshots,使其变为可用。
点击“显示历史记录”,即可查看执行结果。图中显示了本次执行耗费时间为2分钟,复制了3张表,预期文件3个,无失败文件。
复制完成后,查看文件是否已经存在。
此时目标目录的路径已经变为/data/user/hive/warehouse,下面有3张表,意味着复制成功。
default库下也已经存在三张表。此处发生了几个变化:
第一,表的性质变为“EXTERNAL”外部表。
第二,路径变为/data/user/hive/warehouse。
第三,增加了external.table.purge属性,做数据清理的时候会将底层文件一起删除。
通过Replication Manager迁移Hive有以下几个注意点:
①需要企业的许可证。
②数据迁移Hive到CDP后,会变为外表同时带有purge属性。
③做增量数据同步时会自动创建快照,需要在Hive主目录上启动快照。通过比较快照的方式找到对应增量来同步增量数据,以减少数据同步的带宽。
《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(4) https://developer.aliyun.com/article/1227680?groupCode=ClouderaCDP