阿里云HBase发布冷存储特性,助你不改代码,1/3成本轻松搞定冷数据处理

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: 9月27日,阿里云HBase发布了冷存储特性。用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本。冷存储的存储成本仅为高效云盘的1/3,适用于数据归档、访问频率较低的历史数据等各种场景。

9月27日,阿里云HBase发布了冷存储特性。用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本。冷存储的存储成本仅为高效云盘的1/3,适用于数据归档、访问频率较低的历史数据等各种场景。

阿里云HBase是基于Apache HBase深度优化的全托管、PB级、千万级QPS随机读写的云数据库,其在物联网、车联网、用户画像、历史数据存储、AI人工智能、Feeds等场景有广泛的应用。自产品发布以来,我们一直在努力优化,为用户提供更高的性能和更低的成本。此次发布的冷存储特性,针对冷数据存储的场景,可以在保证数据随时可访问及不低于云盘的写入性能的前提下,大幅降低用户的存储成本。

适用场景

一般随着业务的发展,HBase中存储的数据量会逐渐变大。在这些数据中,业务最关心的,最常访问的,往往是某些特定范围的数据,比如说最近7天的数据,业务对这类数据访问频次高,延迟要求高,即所谓的热数据。而其他的数据,一般访问量极少,性能要求不高, 但这类数据往往数据量大,即冷数据。如果能把冷热数据分离开,把热数据存储在性能更好的介质中,而把庞大的冷数据放到成本更低的介质中,从而实现把更多优质资源用来提高热数据的读写性能,同时节省存储成本的目的。

通常来说,冷数据具有如下特点:
1 数据量大,因此对成本更敏感。
2 较低的访问频率,因此可以容忍更低的访问qps和更高的访问延时,但是大多数场景下都要求随时可以访问。
3 写入tps并不低。无论是历史数据还是归档数据,他们的写入速度其实都和热数据相当。

基于以上这些特点,HBase冷存储在优化成本的同时,提供了和高效云盘相当的写入性能,并保证数据随时可访问。当然,作为优化成本的代价,冷存储上HBase的读操作qps较低,延时(在不命中缓存情况下)也比云盘要高一些。

下表对HBase上的冷存储和高效云盘两种形态做了比较。可以看出,冷存储在冷数据场景下有极大的优势。

存储介质
冷存储
高效云盘
存储成本(元/GB/月)
0.2
0.7
单机最大支持数据量
11TB
8TB
起步购买量
800GB
800GB
扩容最小单位
1GB
1GB
机型要求
无要求
无要求
写入性能
较好(具体数据和机型有关)
较好(具体数据和机型有关)
查询性能
较差(具体数据和机型有关)
较好(具体数据和机型有关)

大幅降低存储成本

只看存储成本的话,冷存储的成本不到高效云盘的1/3,由于冷数据的量通常都比较大,存储介质的成本占大头,因此即使考虑到计算资源的成本不变,整体上成本仍然有很大幅度的下降。
以某车联网应用为例:拥有10万台车, 每台车每30秒上传7K的包,数据半年后就很少访问了,但是有时会有查询历史数据的需求,所以这部分冷数据又不能删除。有了云HBase的冷存储特性,就可以把半年之前的数据放在冷存储上面节约存储成本,半年内的数据仍然放在高效云盘保证热数据的高效访问。
我们以3年的存储 ( 约2P)来估算成本,见下图。
_

可见,对于冷热数据混合的场景,通过把冷数据存放在冷存储上面可以大幅降低存储成本。对于纯冷数据的场景(例如归档数据),节省的成本就更加可观了。

写入性能与云盘相当

测试环境:
HDFS 6台8核32G DataNode
HBase 1台8核32G RegionServer
每台ECS挂载4块300G 高效云盘valueSize=100B
threads=120
测试结果:

_

无需代码改动,轻松搞定冷数据

冷存储可以独立购买,作为一个附加存储空间使用。购买冷存储介质后,可以在建表时候中指定把表创建在冷存储上(即冷表),默认是创建在云盘介质上(即热表)。HBase会根据表的属性将数据放在对应的存储介质上面,这个细节对应用是透明的,应用不需要关心表的数据存储在哪里,都是通过hbase的API对表进行读写操作,因此访问冷数据的代码不需要做任何改动。

注意事项
1.冷存储的__读IOPS__能力很低,所以冷表只适合存储冷数据。
2.写入吞吐上,冷表和基于高效云盘的热表相当,可以放心写入数据。
3.建议平均每个core节点管理冷数据不要超过10T。如果是同时有冷热表的集群,需要看region数量来衡量。

PS:
目前暂时只定向开放给特定场景用户,如有需求,请联系云HBase答疑(钉钉号)咨询

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
5天前
|
机器人
阿里云 RPA 的成本效益分析
机器人流程自动化(RPA)技术在企业数字化转型中扮演着越来越重要的角色。阿里云 RPA 作为一种高效的自动化解决方案,不仅可以提高业务效率,还可以降低运营成本。本文将对阿里云 RPA 的成本效益进行分析,帮助企业更好地评估和利用这一技术。
|
5天前
|
数据采集 自然语言处理 监控
|
5天前
|
人工智能 监控 Cloud Native
阿里云参编业内首个代码大模型标准丨云原生 2024 年 1 月产品技术动态
阿里云参编业内首个代码大模型标准丨云原生 2024 年 1 月产品技术动态
|
5天前
|
存储 弹性计算 监控
探索阿里云弹性计算:如何优化云服务器ECS的性能与成本
在云时代,【阿里云ECS】的性能优化与成本控制至关重要。利用实例规格选择、自动伸缩、网络和存储配置,可增强性能、减少成本。结合监控工具和优化建议,用户能解决性能问题,提升应用稳定性,实现高效且经济的云计算运营。
29 1
|
5天前
|
人工智能 自然语言处理 IDE
如何让阿里云AI001号员工帮我写代码(含IDEA插件使用)
AI 智能时代,将改变所有人的思维方式,学习方式,更注重人的创造力和思考力,如果你懒,你将会被 AI 替代,如果你只想干简单不用动脑的活,你将会被 AI 替代,如果你只会打螺丝,更会被 AI 替代。当下的 AI 人工智能时代,被认为是第四次工业革命的到来,我们更应该看到的是机会,而非跳进焦虑、困惑、悲观的一群人潮中。
|
5天前
|
SQL DataWorks Java
DataWorks操作报错合集之在阿里云 DataWorks 中,代码在开发测试阶段能够成功运行,但在提交后失败并报错“不支持https”如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
27 1
DataWorks操作报错合集之在阿里云 DataWorks 中,代码在开发测试阶段能够成功运行,但在提交后失败并报错“不支持https”如何解决
|
5天前
|
弹性计算 JSON 运维
Serverless 应用引擎产品使用之阿里云serverless的s deploy,本地的代码编译后的镜像无法推送上去如何解决
阿里云Serverless 应用引擎(SAE)提供了完整的微服务应用生命周期管理能力,包括应用部署、服务治理、开发运维、资源管理等功能,并通过扩展功能支持多环境管理、API Gateway、事件驱动等高级应用场景,帮助企业快速构建、部署、运维和扩展微服务架构,实现Serverless化的应用部署与运维模式。以下是对SAE产品使用合集的概述,包括应用管理、服务治理、开发运维、资源管理等方面。
63 0
|
5天前
|
消息中间件 运维 安全
使用成本降低50%!阿里云消息队列ApsaraMQ全系Serverless化
使用成本降低50%!阿里云消息队列ApsaraMQ全系Serverless化
22 0
|
5天前
|
弹性计算 前端开发 Java
使用阿里云 mqtt serverless 版本超低成本快速实现 webscoket 长链接服务器
使用阿里云 MQTT Serverless 可轻松实现弹性伸缩的 WebSocket 服务,每日成本低至几元。适用于小程序消息推送的 MQTT P2P 模式。前端需注意安全,避免 AK 泄露,采用一机一密方案。后端通过调用 `RegisterDeviceCredential` API 发送消息。示例代码包括 JavaScript 前端连接和 Java 后端发送。
262 0
|
5天前
|
弹性计算 数据安全/隐私保护
【零成本】【懒人版】阿里云上雾锁王国/Enshrouded服务搭建教程
【零成本】【懒人版】雾锁王国/Enshrouded服务搭建教程。随着游戏行业的不断发展,玩家们对于游戏体验的要求也越来越高。为了满足玩家们的需求,腾讯云提供了游戏联机服务器一键部署方案,本文将为大家分享基于阿里云服务器10秒钟完成雾锁王国游戏服务器搭建教程,让大家的游戏体验更加顺畅。