《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP（3）

2023-05-25 120

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP（3）

《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP（2） https://developer.aliyun.com/article/1227683?groupCode=ClouderaCDP

二、使用 Replication Manager 迁移 Hive 数据

2. 使用 RM 迁移 Hive 演示

本次演示的环境版本如上图所示。

在CDH集群中有四张Hive内置表，其中三张test表分别对应普通文本、ORC和

Parquet格式，本次演示需要将三张test表从CDH5迁移到CDP，并进行一些操作。

首先，进行备份复制，迁移CDH5的数据。如果集群中没有配置同行，则需要点击备份-同行-添加同行，配置同行后才能继续后续操作。

同行的端口是Cloudera Manager的登录路径。如果启用了TLS，则对应的端口为7183，否则为7180。使用默认的账户和密码填入同行管理用户名和密码。配置完成后会做测试连接，连接认证之后，即可在后续备份复制时在不同集群中进行数据迁移。

同行的操作菜单包括测试连接性、编辑和删除。

点击菜单栏中备份-复制计划-创建计划-Hive复制。

填写以上常规信息。

目标路径是指HDFS存储Hive数据和元数据的可选项，是创建表的根目录。比如HDFS的目标目录路径为/mypath，而源路径为user/hive/warehouse/bdr.db/tab1，

那么复制完成后的路径即/mypath/user/hive/warehouse/bdr.db/tab1

填写以上资源相关信息。其中，复制策略为“动态”指将小集合中的文件复制任务分配给mapper，执行完后再去处理下一个未分配的任务集，而“静态”指根据文件大小实现统一分配。

点击“命令详细信息”即可查看具体的执行相关信息。

从上图执行信息中可以看到，Hive数据复制分为6个步骤。

第一步：导出远程Hive Metastore。

第二步：传输元数据文件。

第三步：Hive表数据复制，即HDFS数据复制，主要包含做检查、文件监听、列举文件、将列举清单传输到同行中，并在目标端触发HDFS的复制任务。

第四步：Hive Metastore导入。

第五步：通过引发Impala shell执行Invalidate相关命令。

第六步：在目标端重命名Snapshots，使其变为可用。

点击“显示历史记录”，即可查看执行结果。图中显示了本次执行耗费时间为2分钟，复制了3张表，预期文件3个，无失败文件。

复制完成后，查看文件是否已经存在。

此时目标目录的路径已经变为/data/user/hive/warehouse，下面有3张表，意味着复制成功。

default库下也已经存在三张表。此处发生了几个变化：

第一，表的性质变为“EXTERNAL”外部表。

第二，路径变为/data/user/hive/warehouse。

第三，增加了external.table.purge属性，做数据清理的时候会将底层文件一起删除。

通过Replication Manager迁移Hive有以下几个注意点：

①需要企业的许可证。

②数据迁移Hive到CDP后，会变为外表同时带有purge属性。

③做增量数据同步时会自动创建快照，需要在Hive主目录上启动快照。通过比较快照的方式找到对应增量来同步增量数据，以减少数据同步的带宽。

《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP（4） https://developer.aliyun.com/article/1227680?groupCode=ClouderaCDP

《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP（3）

二、使用 Replication Manager 迁移 Hive 数据

2. 使用 RM 迁移 Hive 演示

Cloudera大数据技术社区

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP（3）

二、 使用 Replication Manager 迁移 Hive 数据

2. 使用 RM 迁移 Hive 演示

Cloudera大数据技术社区

热门文章

最新文章

相关课程

相关电子书

相关实验场景

二、使用 Replication Manager 迁移 Hive 数据