《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(4)

简介: 《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(4)

《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(3) https://developer.aliyun.com/article/1227681?groupCode=ClouderaCDP


三、使用DistCP+HMS Mirror迁移数据

DistCP迁移HDFS分的数据,它支持增量和全迁移方式,支持非KerberosKerberosKerberosKerberos的数据迁移


HMS Mirror弥补两个群之间的差异迁移Hive数据,数据移动不是该工具能,需要DistCP来完成。


HMSMirror在两个群之间迁移HiveMetastore,可以使用SQLEXPORT_IMPORT数据策略。也可以做一数据移动较小的数据,在大数据集场效率。此数据迁移里也有不的策略,比如SchemaRead-only

image.png

上图为HMS-Mirror迁移,此方式对来制,Hive可以是EMRHDP、CDHApache HadoopCDP,目CDP


程中通过YARN来调HDFS,将数据入,此通过DistCPYARN来执HDFS数据的迁移。然Hive Metastore数据进行复制,并通过YARN入到HiveMetastore数据库,终通过标集访问。


1.使用DistCPHMS Mirror迁移Hive演示

demo使用的环境下:CDH5.1.6Kerberos使用Hive1.1;CDP 7.1.7Kerberos使用Hive3.1.3

image.png

CDH 5.1.6test_db库下有示将的数据

image.png

CDHDB录创建Snapshot创建完其对应

image.png

到目标集数据创建针对user/hdfs,该赋予

etl_user户,并通过数据。

image.png

CDP里使用etl_user户做数据利用DistCP进行数据迁移

DistCP使用方式和对应手册

image.png

数据录里的数据,可以表已经同

image.png

github上提供了非常整的HMS Mirror进行下载安装即可。安可以user/local创建了新的目binlib参考文件。根目创建文件HMSMirror于存放对应的目,将hive-jdbcstandalone.jar文件该目下,cdhstandalone.jar文件放至该目下并创建对应置文件。


信息transfer提供了一些参数,左右群分置了HDFS

NameSpaceurijar文件的目

image.png

HMS Mirror的命来同数据。

image.png

,可以了一个数据库和对应数据库是test_db,temp下生成了若干文件。


image.png

temp下的文件结比较要的是标集群的行文件。

image.png

此文件,可以已经对应取出CDH,在CDP转成。此location对应的根目替换,保存文件。


image.png

在环境中创建test_db

image.png

Hive户,beeline生成DDL语句

image.png

Hive,可以已经存在查询parquet数据总条数为20004

image.png

对表做更新,2数据,增量

后查询parquet数据更新为20006

面为使用方式迁移数据,接下使用UI工具

image.png

text_db所在目摄快创建完后即可在页面上

image.png

切换etl户,做DistCP增量数据

image.png

切换CDP群,将工具切换Hive数据总条数,结20006








目录
相关文章
|
4月前
|
监控 安全 数据可视化
java基于微服务的智慧工地管理云平台SaaS源码 数据大屏端 APP移动端
围绕施工现场人、机、料、法、环、各个环节,“智慧工地”将传统建筑施工与大数据物联网无缝结合集成多个智慧应用子系统,施工数据云端整合分析,提供专业、先进、安全的智慧工地解决方案。
143 1
|
4月前
|
SQL 关系型数据库 MySQL
Hive跨集群和版本迁移
Hive跨集群和版本迁移
|
11月前
|
SQL 分布式计算 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
131 0
|
12月前
|
SQL 分布式计算 资源调度
阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录
阿里云MaxCompute-Hive作业迁移语法兼容性踩坑记录
1138 0
|
11月前
|
SQL 存储 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
116 0
|
4月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
193 0
|
2月前
|
弹性计算 Linux 网络安全
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
现在越来越多的个人和企业用户选择将其他云平台或者服务商的业务迁移到阿里云,但是如何快速且安全完成迁移是很多用户比较关注的问题,我们可以选择使用阿里云提供的服务器迁移中心(Server Migration Center,简称SMC),这个产品是阿里云提供给您的迁移平台,专注于提供能力普惠、体验一致、效率至上的迁移服务,满足您在阿里云的迁移需求。本文为大家展示使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云的教程,以供参考。
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
|
22天前
|
SQL 分布式计算 Hadoop
Hive基本概念入门
Hive基本概念入门
16 0
|
4月前
|
安全 Linux 网络安全
其他云平台的业务迁移到阿里云最新优惠,使用服务器迁移中心SMC快速迁移简介
越来越多的个人和企业希望将部署在其他云平台或者IDC企业的业务迁移到阿里云上,对于这部分用户来说,最为关注的问题就是迁移到阿里云有没有什么优惠,迁移过程是否麻烦,针对这部分用户的需求,阿里云推出了5亿算力补贴,针对迁移用户做出补贴优惠,在迁移过程中,用户可以自行做数据传输迁移,也可以使用阿里云的服务器迁移中心,快速完成迁移。本文为大家介绍其他云服务商的业务迁移到阿里云最新优惠政策,以及使用服务器迁移中心实现快速迁移的方法。
其他云平台的业务迁移到阿里云最新优惠,使用服务器迁移中心SMC快速迁移简介
|
4月前
|
SQL 数据可视化 Apache
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移
阿里云数据库 SelectDB 内核 Doris 的 SQL 方言转换工具, Doris SQL Convertor 致力于提供高效、稳定的 SQL 迁移解决方案,满足用户多样化的业务需求。兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移。
阿里云数据库内核 Apache Doris 兼容 Presto、Trino、ClickHouse、Hive 等近十种 SQL 方言,助力业务平滑迁移