《CDP企业数据云平台从入门到实践》——HBase 迁移到 CDP(1)

简介: 《CDP企业数据云平台从入门到实践》——HBase 迁移到 CDP(1)


HBase 迁移到 CDP


一、 HBase 迁移方案介绍


HBase 表是基于 Hadoop HDFS 构建的,HBase 迁移有两个层面:


• 基于 Hadoop HDFS 的 Distcp 的迁移方式。

• 基于 HBase 表结构的 HBase 层面提供的相关工具进行迁移,包括 CopyTable、Export/Import、Snapshot、Replication。


1. Hadoop 层数据迁移方案


• Hadoop 层的数据迁移主要是 Distcp。

• 拷贝本质过程是 MR 任务,不过 Disctcp 只有 map,没有 reduce。

• 如果是独立的 MR 集群来执行 distcp,因为数据量很大,一般是按 region 目录粒度传输,同时传输到目标集群时,我们先把文件传到临时目录,最后再在目的集群上 load表。

• 关键点:在这个过程中,需要注意源端集群到目的端集群策略是通的,同时Hadoop/HBase 版本也要注意是否一致,如果版本不一致,最终 load 表时会报错。

示例:


2. HBase 层迁移方案比较


image.png

hadoopdistcp\-Dmapreduce.job.name=distcphbase\-Dyarn.resourcemanager.webapp.address=mrmaster-ip:8088\-Dyarn.resourcemanager.resourcetracker.address=mr-master-dns:8093\-Dyarn.resourcemanager.scheduler.address=mrmaster-dns:8091\-Dyarn.resourcemanager.address=mr-masterdns:8090\-Dmapreduce.jobhistory.done-dir=/history/done/\-Dmapreduce.jobhistory.intermediate-donedir=/history/log/\-Dfs.defaultFS=hdfs://hbase-fs/ \-Dfs.default.name=hdfs://hbase-fs/ \-bandwidth20\-m20\hdfs://src-hadoop-address:9000/region-hdfs-path \hdfs://dst-hadoop-address:9000/tmp/region-hdfspath

1) Distcp


• 方案类型:Hadoop 层,静态迁移方案。

• 应用场景:适合历史表和可以停止写表的场景迁移,源和目标的 hadoop/hbase版本一致。

• 特点:

本质是 DistCP。

数据量大时可以按 Region 目录粒度迁移数据。

要求源端和目标端集群网络是通的。

• 优点:开多线程并发来加速同步文件。

• 缺点:


文件层面的数据同步,不够灵活。

版本要求高,源端和目标端的 Hadoop/HBase 版本要一致。


2) copyTable


• 方案类型:Hbase 层,动态迁移方案。

• 应用场景:以表级别进行数据迁移,适用:表深度拷贝、集群间拷贝、增量备份、部分表备份。

• 特点:

涉及对原表 Scan,然后直接 put 到目标表,效率低。

这个工具实际上使用比较少,因为很难控制。


3) Export/import


• 方案类型:Hbase 层,动态迁移方案。

• 应用场景:支持不同版本数据的拷贝,同时它拷贝时先转换成文件,把文件同步到目标集群后再通过 Import 到线上表。

• 特点:类似 CopyTable,Scan 出数据放到文件,再把文件传输到目标集群做

Import。


4) Snapshot+Replication


• 方案类型:Hbase 层,动态迁移方案。

• 应用场景:利用快照技术,不是拷贝实际数据,效率高。

• 特点:比较常用,应用灵活,采用快照技术,效率比较高。


《CDP企业数据云平台从入门到实践》——HBase 迁移到 CDP(2) https://developer.aliyun.com/article/1226637?groupCode=ClouderaCDP

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
8月前
|
监控 安全 数据可视化
java基于微服务的智慧工地管理云平台SaaS源码 数据大屏端 APP移动端
围绕施工现场人、机、料、法、环、各个环节,“智慧工地”将传统建筑施工与大数据物联网无缝结合集成多个智慧应用子系统,施工数据云端整合分析,提供专业、先进、安全的智慧工地解决方案。
173 1
|
8月前
|
机器学习/深度学习 算法 数据可视化
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
基于Google Earth Engine云平台构建的多源遥感数据森林地上生物量AGB估算模型含生物量模型应用APP
259 0
|
6月前
|
弹性计算 Linux 网络安全
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
现在越来越多的个人和企业用户选择将其他云平台或者服务商的业务迁移到阿里云,但是如何快速且安全完成迁移是很多用户比较关注的问题,我们可以选择使用阿里云提供的服务器迁移中心(Server Migration Center,简称SMC),这个产品是阿里云提供给您的迁移平台,专注于提供能力普惠、体验一致、效率至上的迁移服务,满足您在阿里云的迁移需求。本文为大家展示使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云的教程,以供参考。
使用阿里云服务器迁移中心SMC将其他云平台业务迁移至阿里云教程参考
|
8月前
|
安全 Linux 网络安全
其他云平台的业务迁移到阿里云最新优惠,使用服务器迁移中心SMC快速迁移简介
越来越多的个人和企业希望将部署在其他云平台或者IDC企业的业务迁移到阿里云上,对于这部分用户来说,最为关注的问题就是迁移到阿里云有没有什么优惠,迁移过程是否麻烦,针对这部分用户的需求,阿里云推出了5亿算力补贴,针对迁移用户做出补贴优惠,在迁移过程中,用户可以自行做数据传输迁移,也可以使用阿里云的服务器迁移中心,快速完成迁移。本文为大家介绍其他云服务商的业务迁移到阿里云最新优惠政策,以及使用服务器迁移中心实现快速迁移的方法。
其他云平台的业务迁移到阿里云最新优惠,使用服务器迁移中心SMC快速迁移简介
|
8月前
|
存储 NoSQL 分布式数据库
【HBase入门与实战】一文搞懂HBase!
该文档介绍了HBase,一种高吞吐量的NoSQL数据库,适合处理大规模数据。HBase具备快速读写、列式存储和天然支持集群部署的特点,常用于高并发场景。NoSQL与关系型数据库的主要区别在于数据模型、查询语言和可伸缩性。HBase的物理架构包括Client、Zookeeper、HMaster和RegionServer,其中RegionServer管理数据存储。HBase的读写流程利用MemStore和Bloom Filter提高效率。此外,文档还提到了HBase的应用,如时间序列数据、消息传递和内容服务。
1096 1
【HBase入门与实战】一文搞懂HBase!
|
存储 大数据 关系型数据库
大数据HBase入门
大数据HBase入门
120 1
大数据HBase入门
|
8月前
|
存储 JSON 监控
云上之旅:将内网网络监控软件迁移到AWS云平台
在当今数字化时代,企业对于网络监控的需求愈发迫切。为了更好地管理内网网络,许多企业选择将监控软件迁移到云平台。本文将介绍如何将内网网络监控软件迁移到AWS云平台,并探讨监控到的数据如何自动提交到网站。
275 0
|
消息中间件 运维 安全
带你读《2022龙蜥社区全景白皮书》——6.2.1 龙蜥社区助力全国首个政府采购云平台完成CentOS迁移 - 政采云
带你读《2022龙蜥社区全景白皮书》——6.2.1 龙蜥社区助力全国首个政府采购云平台完成CentOS迁移 - 政采云
134 3
|
SQL 缓存 Java
【大数据】HBase入门学习 3
【大数据】HBase入门学习
135 0
|
存储 大数据 分布式数据库
【大数据】HBase入门学习 2
【大数据】HBase入门学习
139 0