开发者社区> 侧田> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

BDS-HBase集群之间数据迁移同步的利器

简介: BDS针对开源HBase目前存在的同步迁移痛点,自主研发的一套数据迁移的平台,用于HBase集群的无缝迁移、主备容灾、异地多活、在线离线业务分离、HBase数据归档、对接RDS实时增量数据等等。目的在于帮助阿里云上客户解决自建HBase、EMR HBase、Apsara HBase的数据导入导出,从.
+关注继续查看

HBase用户福利

新用户9.9元即可使用6个月云数据库HBase,更有低至1元包年的入门规格供广大HBase爱好者学习研究,更多内容请参考链接

BDS定位

BDS针对开源HBase目前存在的同步迁移痛点,自主研发的一套数据迁移的平台,用于HBase集群的无缝迁移、主备容灾、异地多活、在线离线业务分离、HBase数据归档、对接RDS实时增量数据等等。目的在于帮助阿里云上客户解决自建HBase、EMR HBase、Apsara HBase的数据导入导出,从而方便云上客户围绕HBase构建高可用、灵活的业务系统

使用场景

BDS在云上目前主要有以下几个使用场景

  • 新旧集群无缝迁移
  • 在线离线业务分离
  • 主备容灾
  • RDS实时数据同步到HBase、Phoenix

新旧集群无缝迁移

使用范围
  • HBase大版本升级, 1.x 升级 2.x
  • 集群配置升级
  • 集群网络的切换,经典切换VPC
  • 异地跨机房迁移
  • 业务拆分
业务流程

1559788573739_2a2b8d4b_8015_4f2a_a122_05eb8ffa63a0

在线离线业务分离

业务架构

1559788694489_57b33992_ce29_4277_a90b_0f121dee2630

通过BDS,将在线业务数据实时同步到离线集群,结合Spark、MR等大数据组件进行离线的数据分析,从而不影响在线业务的查询

主备容灾

业务流程

1559788791153_d61a9501_74c1_425f_91e4_815c71ef7c3a

通过BDS在主备集群之间实现实时数据的双向同步,当主集群出现问题,可以切换到备集群,尽可能减少对业务产生的影响,当主集群服务恢复之后,通过BDS同步服务补齐主集群遗漏的数据

RDS实时数据同步到HBase、Phoenix

业务架构

1559788841968_3a1f72f4_2083_445c_9955_a302d692afc0

通过BDS将RDS数据实时同步到HBase集群

  • 结合Spark、MR等大数据组件进行离线的数据分析,从而不影响在线业务的查询
  • 利用HBase支持动态列的功能,将mysql中多张表构建成一张HBase的大宽表,避免在RDS中进行join查询
  • 做RDS的历史库

BDS优势

  1. 功能性

    1. 支持跨版本的数据迁移和同步,HBase <-> HBase、Phoenix <-> Phoenix
    2. 对于同构数据源迁移,支持同步建表语句,保证分区一致
    3. 支持异构数据源的实时数据同步,RDS -> HBase、Phoenix
  2. 迁移同步对业务方无感知

    1. 不停服数据迁移,同时搞定历史数据迁移、实时增量数据的同步
    2. 对业务端应用代码无侵入
  3. 迁移同步对业务影响小

    1. 迁移过程中基本不会和集群的HBase交互,只读写集群的HDFS
    2. 可以动态调整迁移的速度和并发读
  4. 正确性

    1. 保证数据迁移的不丢失
    2. 数据的抽样校验
  5. 稳定性

    1. 有完善的failover机制,能够自动处理常见的错误
    2. 实时系统监控,方便定位上下游的问题
    3. 报警机制,对于一些需要人为介入的异常进行报警
    4. 错误重试支持断点续传
  6. 高效性

    1. 单个节点迁移速度可达到100MB/s,节点数支持水平扩展,能够满足支持TB、PB级别的数据迁移

总结

BDS已经在阿里云上线了,方便云上的客户在自建HBase、EMR HBase、Apsara HBase之间进行数据的迁移和实时数据同步。
在云上已经服务40多个客户,帮助客户实现集群之间的无缝迁移,集群的升配,主备容灾,数据迁移同步规模达到400多T(单副本)。
云上有迁移需求的客户,可以查看《BDS服务介绍》,或者联系侧田
对BDS实现原理及方案比较感兴趣的朋友,可以查看《BDS-HBase数据同步方案的设计与实践》

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
自建Hive数据仓库跨版本迁移到阿里云E-MapReduce
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云E-MapReduce集群。
0 0
【最佳实践】如何运用DataWorks数据同步功能,将Hadoop数据同步到阿里云Elasticsearch上
如何通过DataWorks数据同步功能,将Hadoop数据同步到阿里云Elasticsearch上,并进行搜索分析。
4217 0
BDS - HBase数据迁移同步方案的设计与实践
目前在阿里云上,BDS是如何进行HBase集群之间的数据迁移和数据的实时同步的
1995 0
ElasticSearch数据同步与无缝迁移
ElasticSearch作为一款开源的全文搜索引擎在如今的软件开发得到了越来越广泛的应用,在业务功能开发方面,可以选用ElasticSearch提供比数据库查询更强大的搜索方式,同时基于搜索结果评分(权重)和高亮让我们很轻易地通过它实现一个站内的搜索引擎。
1185 0
自建HBase集群如何高效迁移上阿里云HBase
本文主要介绍的是一种数据迁移上云HBase的方式,用户可以高效、稳定、准确、透明的将数据迁移到阿里云HBase上来,从而享受阿里云HBase带来的优质体验,整个过程不会对用户源集群的业务产生影响。
1318 0
hadoop 集群 跨 版本数据迁移
忙着做hadoop 1.x  到 2.x 的数据迁移.  hadoop 系统提供 了一个 命令  distcp  可以跨版本 迁移数据.   具体的命令格式:  在新的hadoop 版本上执行 .
775 0
ODPS跨集群迁移与数据同步经验分享
集团业务的迅猛发展带来数据量的激增,存储容量告急,迫切需要将生产集群PA上的大量数据迁移到其它集群。如何安全地跨集群迁移几十PB的数据和其上相关业务,是我们面临的第一个挑战。数据迁移之后,两个集群间存在大量的数据依赖,需要互相访问最新的数据,如何安全快速地实现跨集群数据同步,这是紧跟其后的第二个挑战
2458 0
HBase数据同步到ElasticSearch的方案
ElasticSearch的River机制 ElasticSearch自身提供了一个River机制,用于同步数据。 这里可以找到官方目前推荐的River: http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/ 但是官方没有提供HBase的River。
1396 0
+关注
侧田
Ali-HBase数据链路模块的负责人,负责Ali-HBase集群的数据接入、数据备份、数据同步、集群容灾
文章
问答
来源圈子
更多
文章排行榜
最热
最新
相关电子书
更多
Hbase数据迁移方案的设计与实践
立即下载
ApsaraDB-HBase双集群和稳定性
立即下载
HBase高效一键迁移的设计与实践
立即下载