《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(4)

简介: 《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(4)

《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(3) https://developer.aliyun.com/article/1227681?groupCode=ClouderaCDP


三、使用DistCP+HMS Mirror迁移数据

DistCP迁移HDFS分的数据,它支持增量和全迁移方式,支持非KerberosKerberosKerberosKerberos的数据迁移


HMS Mirror弥补两个群之间的差异迁移Hive数据,数据移动不是该工具能,需要DistCP来完成。


HMSMirror在两个群之间迁移HiveMetastore,可以使用SQLEXPORT_IMPORT数据策略。也可以做一数据移动较小的数据,在大数据集场效率。此数据迁移里也有不的策略,比如SchemaRead-only

image.png

上图为HMS-Mirror迁移,此方式对来制,Hive可以是EMRHDP、CDHApache HadoopCDP,目CDP


程中通过YARN来调HDFS,将数据入,此通过DistCPYARN来执HDFS数据的迁移。然Hive Metastore数据进行复制,并通过YARN入到HiveMetastore数据库,终通过标集访问。


1.使用DistCPHMS Mirror迁移Hive演示

demo使用的环境下:CDH5.1.6Kerberos使用Hive1.1;CDP 7.1.7Kerberos使用Hive3.1.3

image.png

CDH 5.1.6test_db库下有示将的数据

image.png

CDHDB录创建Snapshot创建完其对应

image.png

到目标集数据创建针对user/hdfs,该赋予

etl_user户,并通过数据。

image.png

CDP里使用etl_user户做数据利用DistCP进行数据迁移

DistCP使用方式和对应手册

image.png

数据录里的数据,可以表已经同

image.png

github上提供了非常整的HMS Mirror进行下载安装即可。安可以user/local创建了新的目binlib参考文件。根目创建文件HMSMirror于存放对应的目,将hive-jdbcstandalone.jar文件该目下,cdhstandalone.jar文件放至该目下并创建对应置文件。


信息transfer提供了一些参数,左右群分置了HDFS

NameSpaceurijar文件的目

image.png

HMS Mirror的命来同数据。

image.png

,可以了一个数据库和对应数据库是test_db,temp下生成了若干文件。


image.png

temp下的文件结比较要的是标集群的行文件。

image.png

此文件,可以已经对应取出CDH,在CDP转成。此location对应的根目替换,保存文件。


image.png

在环境中创建test_db

image.png

Hive户,beeline生成DDL语句

image.png

Hive,可以已经存在查询parquet数据总条数为20004

image.png

对表做更新,2数据,增量

后查询parquet数据更新为20006

面为使用方式迁移数据,接下使用UI工具

image.png

text_db所在目摄快创建完后即可在页面上

image.png

切换etl户,做DistCP增量数据

image.png

切换CDP群,将工具切换Hive数据总条数,结20006








目录
相关文章
|
1月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
42 4
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
Hadoop-21 Sqoop 数据迁移工具 简介与环境配置 云服务器 ETL工具 MySQL与Hive数据互相迁移 导入导出
53 3
|
1月前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
37 2
|
1月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
86 0
|
3月前
|
SQL 物联网 数据处理
"颠覆传统,Hive SQL与Flink激情碰撞!解锁流批一体数据处理新纪元,让数据决策力瞬间爆表,你准备好了吗?"
【8月更文挑战第9天】数据时代,实时性和准确性至关重要。传统上,批处理与流处理各司其职,但Apache Flink打破了这一界限,尤其Flink与Hive SQL的结合,开创了流批一体的数据处理新时代。这不仅简化了数据处理流程,还极大提升了效率和灵活性。例如,通过Flink SQL,可以轻松实现流数据与批数据的融合分析,无需在两者间切换。这种融合不仅降低了技术门槛,还为企业提供了更强大的数据支持,无论是在金融、电商还是物联网领域,都将发挥巨大作用。
60 6
|
3月前
|
SQL 关系型数据库 HIVE
实时计算 Flink版产品使用问题之如何将PostgreSQL数据实时入库Hive并实现断点续传
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
3月前
|
SQL 分布式计算 数据处理
实时计算 Flink版产品使用问题之怎么将数据从Hive表中读取并写入到另一个Hive表中
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
3月前
|
SQL 分布式计算 Hadoop
Hive基本概念入门
Hive基本概念入门
46 0
|
3月前
|
SQL 存储 分布式计算

热门文章

最新文章