《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(1)

简介: 《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(1)

Hive 迁移到 CDP

一、 Hive 迁移工具介绍

image.png

Hive 迁移到 CDP,主要有以下两种方案:


① 使用 DistCP+HMS Mirro 迁移 Hive 数据。


② 使用 Replication Manager(企业级工具)迁移 Hive 数据。


• 方案①是基于命令行的方式,分步操作,每部分单独执行,其中DistCP负责HDFS数据的迁移,HMS Mirror 负责 Hive Metastore 数据的迁移。


• 方案②是通过企业级的界面配置进行简单操作,将 Hive 数据一次性迁移到 CDP平台,同时提供了完整的监控报告和调度。


安全支持方面,两种方式都支持非 Kerberos 集群之间、非 Kerberos 到 Kerberos 以及 Kerberos 到 Kerberos 的 Hive 数据迁移。


监控方面,两种方式都是单独执行,监控和运行是独立的,需要分别进行监控。方案②通过 UI 和 CM 界面集成,提供了完整的监控和运行报告以及调度支持。


增量和全量方面,两种方案都能支持增量和全量复制。


周期性运行方面,两种方案都基于原生命令行一次性执行,可以利用调度器实现周期性调度来完成整个复制。Replication Manager 方案可以在 UI 里配置对应调度策略来一次性执行或立即执行,也可以按照不同的时间做调度,以及按照不同的频率梯度来执行。同时它保存了完整的执行日志和执行过程,便于后续分析以及错误预警。


适用性方面,两种方案都适用于所有 Hadoop 集群进行 Hive 迁移,支持从 Hive1到 Hive3、Hive2 到 Hive3 等,也支持从 CDH/HDP、Apache Hadoop 迁移到 CDP。Replication Manager 主要支持 CDH 到 CDH/CDP、CDP 到 CDP 的 Hive 迁移。此外,由于 Replication Manager 是企业级工具,因此使用它需要通过 Cloudera 许可证以正常运行。


《CDP企业数据云平台从入门到实践》——Hive 迁移到 CDP(2) https://developer.aliyun.com/article/1227683?groupCode=ClouderaCDP

目录
相关文章
|
4月前
|
监控 安全 数据可视化
java基于微服务的智慧工地管理云平台SaaS源码 数据大屏端 APP移动端
围绕施工现场人、机、料、法、环、各个环节,“智慧工地”将传统建筑施工与大数据物联网无缝结合集成多个智慧应用子系统,施工数据云端整合分析,提供专业、先进、安全的智慧工地解决方案。
141 1
|
1月前
|
SQL 物联网 数据处理
"颠覆传统,Hive SQL与Flink激情碰撞!解锁流批一体数据处理新纪元,让数据决策力瞬间爆表,你准备好了吗?"
【8月更文挑战第9天】数据时代,实时性和准确性至关重要。传统上,批处理与流处理各司其职,但Apache Flink打破了这一界限,尤其Flink与Hive SQL的结合,开创了流批一体的数据处理新时代。这不仅简化了数据处理流程,还极大提升了效率和灵活性。例如,通过Flink SQL,可以轻松实现流数据与批数据的融合分析,无需在两者间切换。这种融合不仅降低了技术门槛,还为企业提供了更强大的数据支持,无论是在金融、电商还是物联网领域,都将发挥巨大作用。
39 6
|
2月前
|
弹性计算 Linux 网络安全
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
现在越来越多的个人和企业用户选择将其他云平台或者服务商的业务迁移到阿里云,但是如何快速且安全完成迁移是很多用户比较关注的问题,我们可以选择使用阿里云提供的服务器迁移中心(Server Migration Center,简称SMC),这个产品是阿里云提供给您的迁移平台,专注于提供能力普惠、体验一致、效率至上的迁移服务,满足您在阿里云的迁移需求。本文为大家展示使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云的教程,以供参考。
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
|
14天前
|
SQL 关系型数据库 HIVE
实时计算 Flink版产品使用问题之如何将PostgreSQL数据实时入库Hive并实现断点续传
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
14天前
|
SQL 分布式计算 数据处理
实时计算 Flink版产品使用问题之怎么将数据从Hive表中读取并写入到另一个Hive表中
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
19天前
|
SQL 分布式计算 Hadoop
Hive基本概念入门
Hive基本概念入门
15 0
|
23天前
|
SQL 存储 分布式计算
|
24天前
|
SQL 存储 监控
Hive 插入大量数据
【8月更文挑战第15天】
|
2月前
|
SQL 关系型数据库 MySQL
实时计算 Flink版操作报错合集之从mysql读数据写到hive报错,是什么原因
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。