Hbase数据迁移——实体机房集群跨网到EMR集群

简介:

分享在做数据迁移方案时,因两个集群的hbase、hadoop版本不一致,采用了以下方案步骤:

1、需要在old cluster  hbase停掉的情况下迁移或者停止收集数据进入hbase,保证迁移后的数据一致性

2、两个集群必须都配置外网IP,且new cluster每台服务器要把old cluster的所有外网IP、主机名配置hosts

3、在new cluster上执行hadoop distcp  -skipcrccheck -update -i  -m 200 <src>  <target>,具体命令参数代表什么意思,如不明白的请看官方文档,本人在迁移用到的命令hadoop distcp  -skipcrccheck -update -i -m 200  hftp://xxx.xxx.xxx.xxx:50070/hbase/表名     hdfs://xxx.xxx.xxx.xxx:9000/hbase/data/default/表名,路径查看hbase的存储配置即可知道

4、迁移完后需要在new cluster执行以下修复命令、一般执行前三个就可以进行修复了,如果还不行再执行第四个命令,为了方便写了批量迁移脚本修复 ,全部命令执行,出现 Status: OK表示成功

hbase hbck -fixTableOrphans  表名
hbase hbck -fixMeta  表名
hbase hbck -fixAssignments  表名
hbase hbck -repair  表名


对于数据量特别大的,带宽(old cluster可视情况加大,new cluster能通信即可,对带宽无要求),提高迁移速度,同时请考虑流量费用,毕竟是外网传输,内网迁移可以忽略,迁移过程遇到的各种问题,绝对是个挑战,祝君迁移顺利14.gif





相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
存储 Oracle 关系型数据库
HBase集群环境搭建与测试(上)
HBase集群环境搭建与测试
238 0
|
大数据 分布式数据库 Docker
基于Docker搭建大数据集群(七)Hbase部署
基于Docker搭建大数据集群(七)Hbase部署
|
5月前
|
机器学习/深度学习 分布式计算 Hadoop
一种HBase表数据迁移方法的优化
一种HBase表数据迁移方法的优化
87 0
|
2月前
|
分布式计算 测试技术 调度
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
|
14天前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
41 4
|
14天前
|
SQL 分布式计算 Hadoop
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
25 3
|
14天前
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
40 3
|
2月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
104 2
|
3月前
|
消息中间件 分布式计算 NoSQL
EMR-Kafka Connect:高效数据迁移的革新实践与应用探索
Kafka Connect是Kafka官方提供的一个可扩展的数据传输框架,它允许用户以声明式的方式在Kafka与其他数据源之间进行数据迁移,无需编写复杂的数据传输代码。
|
2月前
|
Prometheus 监控 Cloud Native
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?
在 HBase 集群中,Prometheus 通常监控哪些类型的性能指标?