陆豪:云数据库HBase产品架构场景解析

简介: 2018数据库直播大讲堂峰会HBase专场,阿里云技术专家陆豪带来云数据库HBase产品架构场景解析。本文主要谈及了云HBase产品架构,进而着重分享了云HBase应用场景解析和典型客户案例,接着介绍了云HBase内核优化及特性,最后对云HBase平台运维和稳定性保障作了简要分享。

2018数据库直播大讲堂峰会HBase专场,阿里云技术专家陆豪带来云数据库HBase产品架构场景解析。本文主要谈及了云HBase产品架构,进而着重分享了云HBase应用场景解析和典型客户案例,接着介绍了云HBase内核优化及特性,最后对云HBase平台运维和稳定性保障作了简要分享。
直播视频https://yq.aliyun.com/video/play/1333
PDF下载https://yq.aliyun.com/download/2458
以下是精彩视频内容整理:

云HBase产品架构

关系型数据库主要解决中小规模存储需求,当数据量变大后,会有分库分表以解决一定容量的需求实现复杂、业务感知,当数据量达到海量存储时,会有分布式存储、海量存储,数据库会牺牲一些一致性要求达到千万并发及QPS。
传统关系型数据库遇到的问题主要包括四个方面:

  1. 成本:一般需要高端存储,成本较高!
  2. 容量:无法满足TB、PB级别的存储。
  3. QPS:无法满足超高的并发要求,性能不不能横向扩展。
  4. 分析:缺乏分析的框架及支持。

而HBase使用普通磁盘,其分布式存储可以轻松满足从GB到PB的需求,可以自动横向扩展,满足高达5000w QPS需求,Spark on HBase原生支持分析需求,通过分析HFile可以加速分析性能。
HBase支持实时更新、增量导入、多维删除、随机查询、范围查询,它是高伸缩、高可用、高可靠、高性能、高适应在线分布式NOSQL数据库。

1


HBase还解决了其它关系型数据库解决不了的问题,支持多版本、动态列、异构存储等。

ApsaraDB HBase

2


ApsaraDB HBase提供安全、多活、稳定性和同步等运维体系,底层基于共享存储做到计算存储分离,我们使用的HBase内核是在阿里HBase内部版本,相比开源版本做了很多改进,性能方面有一定的提升,HBase天然支持KV方式访问,在HBase之上集成其它组件可以提供更丰富的访问形式,我们和阿里其它产品做到很好的打通,可以很好支持流式处理、批处理和机器学习需求。
ApsaraDB HBase主要特性包括容量大(200G-10P)、动态扩容、高并发/高吞吐量(1W-5000W)、强大丰富的生态。

3


ApsaraDB HBase支持丰富接口,比如KV、SQL、表格存储、文档类型等。

4


ApsaraDB HBase产品形态分为集群版和单节点版本,单节点版主要满足测试开发的需求,成本极低。集群版又分为云盘和本地盘,云盘特点是存储与计算分离,可以很方便扩容,本地盘与用物理机搭建HBase一致,存储与计算不分离,但存储便宜、延迟低。
ApsaraDB HBase与云上许多产品进行了很好的打通,其中包括支持:
  • EMR Spark:包括Spark组件,可以访问HBase,分析数据。SparkStreaming可以实时写入数据到HBase;
  • ODPS SQL:HBase数据可以实时同步到 ODPS,ODPS可以离线计算,满足离线数仓需求;
  • ElasticSearch :HBase中的字段,实时检索的需求;
  • Blink: 流式计算写入到HBase。

    5


ApsaraDB HBase与开源HBase(EMR HBase或者自建)的区别如图,云HBase是全托管,所有运维工作都是阿里云来做,支持双活,内核在性能、主备多个方面进行了优化。
与竞争产品对比,我们的产品更成熟、内核性能高出2~3倍、延迟低且稳定性高。

云HBase应用场景解析和典型客户案例

HBase应用场景十分广泛,从存储类型来看,HBase支持报表类、时序类、日志类、消息类、推荐类、风控类和轨迹类数据等;从应用行业来说,电子商务、物联网、聊天软件、金融、广告商、新闻、电信等在使用。阿里内部拥有数百个集群、数百个业务,总计10000+节点、PB+数据、1亿+TPS,主要支撑日志、聊天、监控、订单、IOT、风控和搜索等业务,阿里、京东、小米、腾讯、网易、360、知乎、中国人寿、电信等都在使用HBase。

某车联网企业

6


某车联网企业使用HBase架构如图所示,数据通过阿里IOT套件经过流计算清洗写入到HBase,将存储汽车轨迹数据和传感器数据进行分析计算。
Rowkey设计是用Sub(Hash(车辆ID),5) + 车辆ID + 时间,每辆车 10s上传一次,每次1KB。使用GeoHash存放轨迹信息,100万台车1年数据存储3P,读写请求达100w+。

白骑士(大数据风控公司)

7


用户行为数据是高度非结构化的,数据有不同的来源,每种来源结构不一样,HBase能够很好支撑各种不同结构数据存储。爬虫和APP收集到的原始数据信息会用Spark做一些算法训练,算法结果会回写到HBase里面,使用Spark SQL来生成一些报表,会有ECS实时查询返回结果,数据量达到200T+.

Soul社交

8


社交消息是feed流模式消息推进,feed流需要根据时间、兴趣等维度从数据库中做查询,对于系统可用性要求非常高。我们做了双集群保障,SLA要求达到99.99,单集群读写高峰QPS 1000w+,数据量达30T。

某金融公司(历史数据实时查询)

9


金融公司需要保留很长时间的历史数据且实时查询,HBase在该场景下有很大优势,ODPS批量加载到HBase中,HBase使用Phoenix实现SQL实时查询,单表10000亿数据,建立了很多二级索引,多个索引字段,数据量达100T。

数据流

10


阿里云经过多年沉淀积累的HBase数据流大图如图,可以看到,数据源可以是ECS服务、传感器等,中间经过消息队列通过流式计算方式写入到HBase中,也可以在ECS上直接写入,也支持从消息队列直接写入HBase。此外,也可以通过数据同步批量写入其它数据源的数据。数据出口通过ECS实时读取分析,也可以实时索引同步ES等。
众多客户信任ApsaraDB HBase,包括大搜车、千寻位置、天虹基金、蚂蚁金服、亿方云、南华期货、白骑士等。

云HBase内核优化及特性

阿里对云HBase内核进行了数百项优化及功能改进,经历天猫双十一历练,服务阿里集团,数百个集群、10000+ 机器、QPS 10亿,最大集群2000台,在集团各个业务有广泛的应用,有2 HBase PMC、3 Committer、数十位内核贡献者贡献200+ patch。
HBase性能优化包括更高的QPS,随机读最高提升 200%以上、随机写提升50%,还有更高的压缩比,以及更平稳的读写延迟。
云HBase还具备以下特性:

  • 云HBase提供增量导出功能,把增量数据实时写入到消息中间件中,再把数据同步到ODPS中做离线分析,或同步到ES做全文索引,原始数据存放HBase,检索字段存放ES。
  • 云HBase还支持企业安全,使用用户名密码登录HBase,这样可以有安全白名单,还会进行数据加密。
  • 云HBase支持公网访问,在自己的开发机器上即可访问,方便用户在线下部署开发测试环境,方便线下HBase集群上云。

云HBase平台运维和稳定性保障

我们的数据可靠性可以达到9个9,几乎不会丢数据,我们的服务可用性单集群99.9%、双集群99.99%。
ApsaraDB HBase提供了很多保障,包括运维自动化、自动守护服务、在线扩容节点/磁盘、内核在线升级、可用性检测/容量报警、15分钟快速交付、指标可视化和专家在线24小时在线服务。
在稳定性运维处理方面,我们会做热点检测并自动迁移、MajorCompaction分阶段处理、读写分离、大Scan报警、HDFS定时自动均衡、更多的参数在线生效。ApsaraDB HBase 双活保障可用性,切换时间20S以内。

本文由云栖志愿小组毛鹤整理,编辑百见

相关文章
|
7月前
|
运维 安全 关系型数据库
【产品升级】Dataphin V5.1版本发布:跨云数据集成、指标管理、平台运维带来重大更新!
V5.1版本新增多项功能:对接AWS生态(支持Amazon EMR、Redshift等),强化研发技术支撑(如API认证升级、全量任务隔离),完善运营消费链路(新增业务指标管理、指标关系图),提升平台综合能力(自定义菜单、缩短升级停机时间)。这些功能助力企业实现高效数据治理与分析,未来还将拓展智能化与国际化支持。
422 0
|
自然语言处理 数据可视化 API
淘宝商品评论 API 接口:深度解析用户评论,优化产品与服务
淘宝是领先的中国电商平台,其API为开发者提供商品信息、交易记录及用户评价等数据访问服务。对于获授权的开发者和商家,可通过申请API权限、获取并解析评论数据来进行情感分析和统计,进而优化产品设计、提升服务质量、增强用户互动及调整营销策略。未授权用户可能受限于数据访问。
|
10月前
|
机器学习/深度学习 XML 数据格式
CAL_IIR_L3_GEWEX_Cloud-Standard-V1-00:全球能量和水循环实验云数据产品
CALIPSO IIR Lidar Level 3 数据产品(CAL_IIR_L3_GEWEX_Cloud-Standard-V1-00)基于 CALIPSO 卫星的成像红外辐射计 (IIR) 数据生成,提供全球云有效半径和水路径的二维空间网格分布。该产品遵循 GEWEX 云评估标准,涵盖冰云、液态水云等属性,时间分辨率为一个月。CALIPSO 卫星由 NASA 和法国国家空间研究中心联合运营,自 2006 年发射以来,致力于研究云层与气溶胶对地球气候的影响。数据适用于气候变化、水循环等领域研究。
195 0
|
11月前
|
弹性计算 运维 网络安全
阿里云轻量应用服务器产品解析与搭建个人博客网站教程参考
轻量应用服务器(Simple Application Server)作为阿里云面向单机应用场景推出的云服务器产品,以其一键部署、一站式管理、高性价比等特性,深受个人开发者、中小企业及入门级用户的喜爱。本文将全面解析阿里云轻量应用服务器的产品优势、应用场景、使用须知,以及使用轻量应用服务器搭建个人博客网站的详细教程,帮助用户更好地了解和使用这一产品。
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
存储 搜索推荐 数据挖掘
投资回报与预算考量:CRM产品报价全解析
在当今竞争激烈的商业环境中,CRM系统已成为企业不可或缺的工具。它能有效管理客户信息、提升销售效率、优化服务并增强忠诚度。选择合适的CRM需考虑功能、用户数量、定制需求、技术支持及数据安全等因素,确保在预算内实现最大价值。企业在挑选时应明确需求、比较产品、评估长期回报,并考虑扩展性。最适合自己业务需求的CRM才是最佳选择。
|
测试技术 UED 开发者
软件测试的艺术:从代码审查到用户反馈的全景探索在软件开发的宇宙中,测试是那颗确保星系正常运转的暗物质。它或许不总是站在聚光灯下,但无疑是支撑整个系统稳定性与可靠性的基石。《软件测试的艺术:从代码审查到用户反馈的全景探索》一文,旨在揭开软件测试这一神秘面纱,通过深入浅出的方式,引领读者穿梭于测试的各个环节,从细微处着眼,至宏观视角俯瞰,全方位解析如何打造无懈可击的软件产品。
本文以“软件测试的艺术”为核心,创新性地将技术深度与通俗易懂的语言风格相结合,绘制了一幅从代码审查到用户反馈全过程的测试蓝图。不同于常规摘要的枯燥概述,这里更像是一段旅程的预告片,承诺带领读者经历一场从微观世界到宏观视野的探索之旅,揭示每一个测试环节背后的哲学与实践智慧,让即便是非专业人士也能领略到软件测试的魅力所在,并从中获取实用的启示。
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之如何在代码中解析File类型的文件内容
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
158 11
|
4月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
185 3
|
4月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。

热门文章

最新文章

推荐镜像

更多
  • DNS