阿里云HBase产品体系架构及特性解析

简介: 2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。

2017云栖大会HBase专场,阿里云高级技术专家封神带来阿里云HBase产品体系架构及特性解析。本文主要从HBase在大数据中的价值谈起,进而介绍了产品架构和产品特性,接着分享了应用场景和后续计划。
以下是精彩内容整理:
在阿里已经有12000多台在跑HBase,为什么会有这样的规模?接下来让我们一起来看看HBase产品体系架构及特性。
我们发现客户有各种不同的要求,把单独HBase拿过来用的话会碰到很多问题,那么,我们做了哪些特定的需求?

HBase在大数据中的价值

1


关系型数据库到分库分表,再到以HBase为代表的分布式存储。HBase支持实时更新、增量导入、多维删除、随机查询、范围查询、高伸缩、高可用、高可靠、高性能、高适应和分布式NOSQL数据库。

2


传统数据库有这些问题,包括成本、QPS、容量、分析,传统数据库没有什么分析能力,要么就是一个群的分析。像以前就是小型机、高端存储等等,我们从HBase阶段开始在PC机上弄数据库。最大的HBase集群是有四五千台的容量存储,HBase也可以搞很多小集群服务不同的业务。

3


新型数据库面对的办法,正好把船库存的问题解决了,很多公司在HBase上做事务,但是很多时候吃力不讨好,90%以上的业务场景都是非事务场景。阿里为什么用它?就是因为它有这些特性,所以阿里在各个业务线,几乎只要想得到的,淘宝、天猫、搜索各种业务团队都会用HBase解决自己的问题,主要是有如图特性。

阿里云HBase架构

4


我们一台武力机虚拟成虚拟机以后效率是有提升,我们在VM层面做安全隔离层面,我们的VM基本上是独享的,保证在VM迁移的时候环境不会变。底下的磁盘有多种选择,第一个选择是基于共享存储,第二个选择是基于HDFS,第三种选择是直接进入本地磁盘,disk就是一块块磁盘。基于云盘、本地盘架构、基于共享存储,本地盘架构成本要比云盘成本下降700%。当然基于共享存储也很便宜,就是稳定性和时间有一定的问题,毕竟是远端的。我们三种都支持,以满足不同客户的需求。

5


我们做这个系统不是把一个开源的架构拿过来就可以了,我们阿里从2010年到现在做了七八年时间,在各个层面都会有很多相关的做法。产品层,我们会接云监控、DMS;接入层就是数据上云、物联网;网络层会有安全保障。HBase是没有帐户密码的概念,我们现在是给HBase加一个帐户密码的提示。这三层提供上云方案、工作服务、公网访问、监控指控报警、方案支持等一站的DBaas服务。
中间件,ApsaraDB-HBase内核是基于社区的HBase1.1版本打造,目前在阿里集团内部有数千业务使用,万台机器的规模,在性能、稳定性、功能方案均有提升及改进,在历年双十一均有考验。
存储层,HBase基于HDFS、共享存储OSS,小容量直接采取盘古云盘降低成本,高容量直接采取本地磁盘,提高性能及容量,如果比较大的话还是建议用本地层,因为便宜又稳定。运维管控上我们也做了一些事情,包括运维自动化、15分钟全自动部署集群、自动守护进程、可用性检测及报警、修改配置、扩容节点、扩容磁盘、链路监控报警、指标可视化、自动升级内核等,现在所有阿里云的数据库其实都是基于这一整套体系,这一套体系已经做了三四年。如果回去要做这个平台的话也要这么去做,这么多东西都跑不了,可能有一些HBase是分布式的,可能是单机的,但都大同小异。

产品特性

6


我们会做企业级安全,我们是跟英特尔、Udp一起去做这个事情,我们会在11月份上线用户/密码直接访问HBase。这是一个开源项目,是英特尔和我们一起去做的。第一期自己会创立一个用户和密码,这个已经满足绝大多数的用户。云上有很多共享的,包括ODPS、CDP全都是共享的环境,你没有帐户密码的话怎么访问HBase?在自己家里面其实都无所谓,但云上的话绝对不能马虎,安全机制必须全部做好。后面我们会和产品体系一键结合。

7


公网访问。很多人都会问这样的开放软件在电脑上怎么访问,所以我们就做了一个公网访问,而且混访中网络同时可以访问HBase,包括公网、经典、VPC,为什么三个都支持?因为经典网络和VPC会涉及到迁移问题,从经典网络迁移到VPC,如果速度不支持同时访问的话就麻烦了。

8


HBase性能方面大家也可以去测。其他特性,包括HBase on OSS、本地磁盘存储、经典网络和公网马上可以支持了。

应用场景

9


其实阿里云内部和外部还是有点不同,HBase的核心就是高存储、高并发。中国电信存保单、公安部政府云等等,囊括各种行业,包括金融领域也很多,包括报表类、时序类、消息类等不同种类。

10


HBase发展起来的组件如图,我们现在有客户自己去把存储放在上面,还有搞图数据库的,我们是把云上的客户尽量服务好。

11


具体到物联网,温度计、GPS、车联网,核心就是有一些特性基于LSM、查询效率高、搭配使用。

12


还有交互式实时分析,能满足毫秒级的访问需求,这个好处就是scan数据效率高。

13


高并发高容量的大数据应用,大容量、成本低、稀疏表,这些都有相关的团队在支持。

14


还有大屏,为什么强调大屏,因为适应三种不同的场景,阿里内部三款产品集群上万了,GPDS(音译)、Blink(音译)、HBase。

15


实时风控,根据HBase一些特性,比如说过期淘汰、过载淘汰、低价清理,通过离线计算实现实时风控,我给你转钱,它就会转,下面就在算,如果算出来有问题就把你卡住。

16


海量数据存储—大量历史数据,把一些历史的数据,包括电信的订单、旺旺消息都存在里面,历史数据查得比较多,定时数据查得比较多。我们内部做了冷热分离,三个月以内放在热频,三个月以外放在冷频,查的时候自动地把老的放在低频上去了。我们这些东西,用户自己做很麻烦,我们把这个产品提供出来,客户配备。

17


数据链路,这是阿里整个大数据流程,不管你怎么做基本都是如此,可能HBase换成其他的。云产品就是把HBase跟其他东西打通,不需要配,就跑起来了,这就是云产品带来的魅力,这也是阿里云的技术能力,不仅是HBase多么牛。很多客户还是喜欢用开源的产品,这也是为什么开源发展快速的原因。

未来计划

  • HBase2.0上线。
  • 丰富HBase生态组件,包括可能是Phoenix,现在也有一部分同学在搞Phoenix。
  • 高可用性—双集群建设。有的客户用得起,比如说国家的项目用得起双集群。
  • 支持HBase On OSS。
  • 云HBase数据推送。
相关文章
|
10月前
|
前端开发 JavaScript 关系型数据库
如何开发生产小工单中的产品管理板块(附架构图+流程图+代码参考)
生产小工单中的产品管理板块是制造业数字化管理的关键环节,涵盖产品信息、生产工序、产品列表和基础设置四大功能模块。通过系统化管理,企业可实现对产品属性、工艺流程及资源配置的精准控制,提升生产效率并减少误差与浪费。本文详解了各功能模块的设计逻辑、业务流程及开发实现方案,并提供示例代码,助力企业构建高效、灵活的产品管理系统。
|
8月前
|
Java API 开发工具
灵码产品演示:软件工程架构分析
本演示展示灵码对复杂软件项目的架构分析与文档生成能力。通过Qwen3模型,结合PlantUML,自动生成系统架构图、微服务时序图,并提取API接口文档,实现高效、智能的代码理解与文档输出。
509 5
|
机器学习/深度学习 安全 算法
十大主流联邦学习框架:技术特性、架构分析与对比研究
联邦学习(FL)是保障数据隐私的分布式模型训练关键技术。业界开发了多种开源和商业框架,如TensorFlow Federated、PySyft、NVFlare、FATE、Flower等,支持模型训练、数据安全、通信协议等功能。这些框架在灵活性、易用性、安全性和扩展性方面各有特色,适用于不同应用场景。选择合适的框架需综合考虑开源与商业、数据分区支持、安全性、易用性和技术生态集成等因素。联邦学习已在医疗、金融等领域广泛应用,选择适配具体需求的框架对实现最优模型性能至关重要。
2727 79
十大主流联邦学习框架:技术特性、架构分析与对比研究
|
10月前
|
前端开发 NoSQL 关系型数据库
如何开发CRM系统中的产品管理板块(附架构图+流程图+代码参考)
本文深入解析了CRM系统中产品管理模块的设计与实现,涵盖系统架构、业务流程、核心代码及落地建议,助力企业构建高效的产品管理体系。
|
10月前
|
人工智能 自然语言处理 供应链
AI时代企业难以明确大模型价值,AI产品经理如何绘制一张‘看得懂、讲得通、落得下’的AI产品架构图解决这一问题?
本文产品专家系统阐述了AI产品经理如何绘制高效实用的AI产品架构图。从明确企业六大职能切入,通过三层架构设计实现技术到业务的精准转译。重点解析了各职能模块的AI应用场景、通用场景及核心底层能力,并强调建立"需求-反馈"闭环机制。AI产品专家三桥君为AI产品经理提供了将大模型能力转化为商业价值的系统方法论,助力企业实现AI技术的业务落地与价值最大化。
535 0
|
存储 缓存 监控
ClickHouse 架构原理及核心特性详解
ClickHouse 是由 Yandex 开发的开源列式数据库,专为 OLAP 场景设计,支持高效的大数据分析。其核心特性包括列式存储、字段压缩、丰富的数据类型、向量化执行和分布式查询。ClickHouse 通过多种表引擎(如 MergeTree、ReplacingMergeTree、SummingMergeTree)优化了数据写入和查询性能,适用于电商数据分析、日志分析等场景。然而,它在事务处理、单条数据更新删除及内存占用方面存在不足。
4553 21
|
存储 消息中间件 druid
Druid 架构原理及核心特性详解
Druid 是一个分布式、支持实时多维OLAP分析的列式存储数据处理系统,适用于高速实时数据读取和灵活的多维数据分析。它通过Segment、Datasource等元数据概念管理数据,并依赖Zookeeper、Hadoop和Kafka等组件实现高可用性和扩展性。Druid采用列式存储、并行计算和预计算等技术优化查询性能,支持离线和实时数据分析。尽管其存储成本较高且查询语言功能有限,但在大数据实时分析领域表现出色。
3095 19
|
存储 SQL NoSQL
Doris 架构原理及核心特性详解
Doris 是百度内部孵化的OLAP项目,现已开源并广泛应用。它采用MPP架构、向量化执行引擎和列存储技术,提供高性能、易用性和实时数据处理能力。系统由FE(管理节点)和BE(计算与存储节点)组成,支持水平扩展和高可用性。Doris 适用于海量数据分析,尤其在电商、游戏等行业表现出色,但资源消耗较大,复杂查询优化有局限性,生态集成度有待提高。
2461 15
|
编译器 C# 开发者
C# 9.0 新特性解析
C# 9.0 是微软在2020年11月随.NET 5.0发布的重大更新,带来了一系列新特性和改进,如记录类型、初始化器增强、顶级语句、模式匹配增强、目标类型的新表达式、属性模式和空值处理操作符等,旨在提升开发效率和代码可读性。本文将详细介绍这些新特性,并提供代码示例和常见问题解答。
422 7
C# 9.0 新特性解析
|
编译器 PHP 开发者
PHP 8新特性解析与实战应用####
随着PHP 8的发布,这一经典编程语言迎来了诸多令人瞩目的新特性和性能优化。本文将深入探讨PHP 8中的几个关键新功能,包括命名参数、JIT编译器、新的字符串处理函数以及错误处理改进等。通过实际代码示例,展示如何在现有项目中有效利用这些新特性来提升代码的可读性、维护性和执行效率。无论你是PHP新手还是经验丰富的开发者,本文都将为你提供实用的技术洞察和最佳实践指导。 ####
289 1

推荐镜像

更多
  • DNS