《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(3)

简介: 《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(3)

《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(2) https://developer.aliyun.com/article/1227683?groupCode=ClouderaCDP


二、 使用 Replication Manager 迁移 Hive 数据


2. 使用 RM 迁移 Hive 演示

image.png

image.png

示的环境版本如上图所示。

image.png

CDH群中有Hive中三test对应ORC

Parquet式,示需要将三testCDH5迁移CDP,并进行一

image.png

,进行复制,迁移CDH5的数据。群中行,需要点击--加同行,才能继续

image.png

行的Cloudera Manager果启TLS对应口为71837180使用认的账户和行管理码。完成后会接,接认证之可在复制时在不同集群中进行数据迁

image.png

行的单包括接性、编辑和

-复制-创建计-Hive复制。

image.png

填写以上规信息

HDFS存储Hive数据和数据的可项,是创建表的根目。比如HDFS的目/mypathuser/hive/warehouse/bdr.db/tab1

那么复制/mypath/user/hive/warehouse/bdr.db/tab1

image.png


填写以上资源信息中,复制策略为小集合中的文件复制任务mapper完后再理下一个指根据文件大小实一分

image.png

image.png

image.png

image.png

令详信息具体信息

image.png

从上图信息中可以到,Hive数据复制分为6

第一步:Hive Metastore

第二步:数据文件。

第三步:Hive数据复制,HDFS数据复制,、文件列举文件、将行中,并在目端触HDFS的复制务。

步:Hive Metastore入。

步:通过引发Impala shellInvalidate

步:在目端重Snapshots使其变为可

image.png

历史记行结。图中示了费时间为2分,复制了3期文件3个,失败文件。

复制文件是已经存在。

image.png

此时目已经变为/data/user/hive/warehouse,下面有3,意味着复制成

image.png

default库下也已经存在三。此处发生了几个变化:

第一,的性变为“EXTERNAL”部表

第二,变为/data/user/hive/warehouse

第三,增加external.table.purge性,做数据理的时文件一起删

通过Replication Manager迁移Hive有以下几个

需要企业的许可证。

数据迁移HiveCDP变为表同purge性。

增量数据动创建快,需要在Hive动快。通过比较快的方式对应增量来同增量数据,以减少数据


《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(4) https://developer.aliyun.com/article/1227680?groupCode=ClouderaCDP


目录
相关文章
|
30天前
|
SQL 关系型数据库 MySQL
Hive跨集群和版本迁移
Hive跨集群和版本迁移
|
2月前
|
SQL 分布式计算 Hadoop
创建hive表并关联数据
创建hive表并关联数据
27 0
|
4月前
|
SQL 分布式计算 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
50 0
|
4月前
|
SQL Java 大数据
Hive实战(03)-深入了解Hive JDBC:在大数据世界中实现数据交互
Hive实战(03)-深入了解Hive JDBC:在大数据世界中实现数据交互
84 1
|
20天前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
32 0
|
4月前
|
SQL 存储 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
58 0
|
4月前
|
SQL 存储 分布式数据库
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
【通过Hive清洗、处理和计算原始数据,Hive清洗处理后的结果,将存入Hbase,海量数据随机查询场景从HBase查询数据 】
|
3天前
|
SQL 消息中间件 Kafka
Flink部署问题之hive表没有数据如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
2月前
|
SQL 消息中间件 存储
案例:Flume消费Kafka数据保存Hive
案例:Flume消费Kafka数据保存Hive
36 0
|
2月前
|
存储 JSON 监控
云上之旅:将内网网络监控软件迁移到AWS云平台
在当今数字化时代,企业对于网络监控的需求愈发迫切。为了更好地管理内网网络,许多企业选择将监控软件迁移到云平台。本文将介绍如何将内网网络监控软件迁移到AWS云平台,并探讨监控到的数据如何自动提交到网站。
184 0

热门文章

最新文章