阿里云HBase产品体系架构及特性解析-阿里云开发者社区

开发者社区> 数据库> 正文

阿里云HBase产品体系架构及特性解析

简介: 2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。

2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。
以下是精彩内容整理:
在阿里已经有12000多台在跑HBase,为什么会有这样的规模?接下来让我们一起来看看HBase产品体系架构及特性。
我们发现客户有各种不同的要求,把单独HBase拿过来用的话会碰到很多问题,那么,我们做了哪些特定的需求?

HBase在大数据中的价值

1


关系型数据库到分库分表,再到以HBase为代表的分布式存储。HBase支持实时更新、增量导入、多维删除、随机查询、范围查询、高伸缩、高可用、高可靠、高性能、高适应和分布式NOSQL数据库。

2


传统数据库有这些问题,包括成本、QPS、容量、分析,传统数据库没有什么分析能力,要么就是一个群的分析。像以前就是小型机、高端存储等等,我们从HBase阶段开始在PC机上弄数据库。最大的HBase集群是有四五千台的容量存储,HBase也可以搞很多小集群服务不同的业务。

3


新型数据库面对的办法,正好把船库存的问题解决了,很多公司在HBase上做事务,但是很多时候吃力不讨好,90%以上的业务场景都是非事务场景。阿里为什么用它?就是因为它有这些特性,所以阿里在各个业务线,几乎只要想得到的,淘宝、天猫、搜索各种业务团队都会用HBase解决自己的问题,主要是有如图特性。

阿里云HBase架构

4


我们一台武力机虚拟成虚拟机以后效率是有提升,我们在VM层面做安全隔离层面,我们的VM基本上是独享的,保证在VM迁移的时候环境不会变。底下的磁盘有多种选择,第一个选择是基于共享存储,第二个选择是基于HDFS,第三种选择是直接进入本地磁盘,disk就是一块块磁盘。基于云盘、本地盘架构、基于共享存储,本地盘架构成本要比云盘成本下降700%。当然基于共享存储也很便宜,就是稳定性和时间有一定的问题,毕竟是远端的。我们三种都支持,以满足不同客户的需求。

5


我们做这个系统不是把一个开源的架构拿过来就可以了,我们阿里从2010年到现在做了七八年时间,在各个层面都会有很多相关的做法。产品层,我们会接云监控、DMS;接入层就是数据上云、物联网;网络层会有安全保障。HBase是没有帐户密码的概念,我们现在是给HBase加一个帐户密码的提示。这三层提供上云方案、工作服务、公网访问、监控指控报警、方案支持等一站的DBaas服务。
中间件,ApsaraDB-HBase内核是基于社区的HBase1.1版本打造,目前在阿里集团内部有数千业务使用,万台机器的规模,在性能、稳定性、功能方案均有提升及改进,在历年双十一均有考验。
存储层,HBase基于HDFS、共享存储OSS,小容量直接采取盘古云盘降低成本,高容量直接采取本地磁盘,提高性能及容量,如果比较大的话还是建议用本地层,因为便宜又稳定。运维管控上我们也做了一些事情,包括运维自动化、15分钟全自动部署集群、自动守护进程、可用性检测及报警、修改配置、扩容节点、扩容磁盘、链路监控报警、指标可视化、自动升级内核等,现在所有阿里云的数据库其实都是基于这一整套体系,这一套体系已经做了三四年。如果回去要做这个平台的话也要这么去做,这么多东西都跑不了,可能有一些HBase是分布式的,可能是单机的,但都大同小异。

产品特性

6


我们会做企业级安全,我们是跟英特尔、Udp一起去做这个事情,我们会在11月份上线用户/密码直接访问HBase。这是一个开源项目,是英特尔和我们一起去做的。第一期自己会创立一个用户和密码,这个已经满足绝大多数的用户。云上有很多共享的,包括ODPS、CDP全都是共享的环境,你没有帐户密码的话怎么访问HBase?在自己家里面其实都无所谓,但云上的话绝对不能马虎,安全机制必须全部做好。后面我们会和产品体系一键结合。

7


公网访问。很多人都会问这样的开放软件在电脑上怎么访问,所以我们就做了一个公网访问,而且混访中网络同时可以访问HBase,包括公网、经典、VPC,为什么三个都支持?因为经典网络和VPC会涉及到迁移问题,从经典网络迁移到VPC,如果速度不支持同时访问的话就麻烦了。

8


HBase性能方面大家也可以去测。其他特性,包括HBase on OSS、本地磁盘存储、经典网络和公网马上可以支持了。

应用场景

9


其实阿里云内部和外部还是有点不同,HBase的核心就是高存储、高并发。中国电信存保单、公安部政府云等等,囊括各种行业,包括金融领域也很多,包括报表类、时序类、消息类等不同种类。

10


HBase发展起来的组件如图,我们现在有客户自己去把存储放在上面,还有搞图数据库的,我们是把云上的客户尽量服务好。

11


具体到物联网,温度计、GPS、车联网,核心就是有一些特性基于LSM、查询效率高、搭配使用。

12


还有交互式实时分析,能满足毫秒级的访问需求,这个好处就是scan数据效率高。

13


高并发高容量的大数据应用,大容量、成本低、稀疏表,这些都有相关的团队在支持。

14


还有大屏,为什么强调大屏,因为适应三种不同的场景,阿里内部三款产品集群上万了,GPDS(音译)、Blink(音译)、HBase。

15


实时风控,根据HBase一些特性,比如说过期淘汰、过载淘汰、低价清理,通过离线计算实现实时风控,我给你转钱,它就会转,下面就在算,如果算出来有问题就把你卡住。

16


海量数据存储—大量历史数据,把一些历史的数据,包括电信的订单、旺旺消息都存在里面,历史数据查得比较多,定时数据查得比较多。我们内部做了冷热分离,三个月以内放在热频,三个月以外放在冷频,查的时候自动地把老的放在低频上去了。我们这些东西,用户自己做很麻烦,我们把这个产品提供出来,客户配备。

17


数据链路,这是阿里整个大数据流程,不管你怎么做基本都是如此,可能HBase换成其他的。云产品就是把HBase跟其他东西打通,不需要配,就跑起来了,这就是云产品带来的魅力,这也是阿里云的技术能力,不仅是HBase多么牛。很多客户还是喜欢用开源的产品,这也是为什么开源发展快速的原因。

未来计划

  • HBase2.0上线。
  • 丰富HBase生态组件,包括可能是Phoenix,现在也有一部分同学在搞Phoenix。
  • 高可用性—双集群建设。有的客户用得起,比如说国家的项目用得起双集群。
  • 支持HBase On OSS。
  • 云HBase数据推送。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
数据库
使用钉钉扫一扫加入圈子
+ 订阅

分享数据库前沿,解构实战干货,推动数据库技术变革

其他文章