阿里云HBase发布冷存储特性,助你不改代码,1/3成本轻松搞定冷数据处理

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云数据库 Redis 版,社区版 2GB
推荐场景:
搭建游戏排行榜
简介: 9月27日,阿里云HBase发布了冷存储特性。用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本。冷存储的存储成本仅为高效云盘的1/3,适用于数据归档、访问频率较低的历史数据等各种场景。

9月27日,阿里云HBase发布了冷存储特性。用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本。冷存储的存储成本仅为高效云盘的1/3,适用于数据归档、访问频率较低的历史数据等各种场景。

阿里云HBase是基于Apache HBase深度优化的全托管、PB级、千万级QPS随机读写的云数据库,其在物联网、车联网、用户画像、历史数据存储、AI人工智能、Feeds等场景有广泛的应用。自产品发布以来,我们一直在努力优化,为用户提供更高的性能和更低的成本。此次发布的冷存储特性,针对冷数据存储的场景,可以在保证数据随时可访问及不低于云盘的写入性能的前提下,大幅降低用户的存储成本。

适用场景

一般随着业务的发展,HBase中存储的数据量会逐渐变大。在这些数据中,业务最关心的,最常访问的,往往是某些特定范围的数据,比如说最近7天的数据,业务对这类数据访问频次高,延迟要求高,即所谓的热数据。而其他的数据,一般访问量极少,性能要求不高, 但这类数据往往数据量大,即冷数据。如果能把冷热数据分离开,把热数据存储在性能更好的介质中,而把庞大的冷数据放到成本更低的介质中,从而实现把更多优质资源用来提高热数据的读写性能,同时节省存储成本的目的。

通常来说,冷数据具有如下特点:
1 数据量大,因此对成本更敏感。
2 较低的访问频率,因此可以容忍更低的访问qps和更高的访问延时,但是大多数场景下都要求随时可以访问。
3 写入tps并不低。无论是历史数据还是归档数据,他们的写入速度其实都和热数据相当。

基于以上这些特点,HBase冷存储在优化成本的同时,提供了和高效云盘相当的写入性能,并保证数据随时可访问。当然,作为优化成本的代价,冷存储上HBase的读操作qps较低,延时(在不命中缓存情况下)也比云盘要高一些。

下表对HBase上的冷存储和高效云盘两种形态做了比较。可以看出,冷存储在冷数据场景下有极大的优势。

存储介质
冷存储
高效云盘
存储成本(元/GB/月)
0.2
0.7
单机最大支持数据量
11TB
8TB
起步购买量
800GB
800GB
扩容最小单位
1GB
1GB
机型要求
无要求
无要求
写入性能
较好(具体数据和机型有关)
较好(具体数据和机型有关)
查询性能
较差(具体数据和机型有关)
较好(具体数据和机型有关)

大幅降低存储成本

只看存储成本的话,冷存储的成本不到高效云盘的1/3,由于冷数据的量通常都比较大,存储介质的成本占大头,因此即使考虑到计算资源的成本不变,整体上成本仍然有很大幅度的下降。
以某车联网应用为例:拥有10万台车, 每台车每30秒上传7K的包,数据半年后就很少访问了,但是有时会有查询历史数据的需求,所以这部分冷数据又不能删除。有了云HBase的冷存储特性,就可以把半年之前的数据放在冷存储上面节约存储成本,半年内的数据仍然放在高效云盘保证热数据的高效访问。
我们以3年的存储 ( 约2P)来估算成本,见下图。
_

可见,对于冷热数据混合的场景,通过把冷数据存放在冷存储上面可以大幅降低存储成本。对于纯冷数据的场景(例如归档数据),节省的成本就更加可观了。

写入性能与云盘相当

测试环境:
HDFS 6台8核32G DataNode
HBase 1台8核32G RegionServer
每台ECS挂载4块300G 高效云盘valueSize=100B
threads=120
测试结果:

_

无需代码改动,轻松搞定冷数据

冷存储可以独立购买,作为一个附加存储空间使用。购买冷存储介质后,可以在建表时候中指定把表创建在冷存储上(即冷表),默认是创建在云盘介质上(即热表)。HBase会根据表的属性将数据放在对应的存储介质上面,这个细节对应用是透明的,应用不需要关心表的数据存储在哪里,都是通过hbase的API对表进行读写操作,因此访问冷数据的代码不需要做任何改动。

注意事项
1.冷存储的__读IOPS__能力很低,所以冷表只适合存储冷数据。
2.写入吞吐上,冷表和基于高效云盘的热表相当,可以放心写入数据。
3.建议平均每个core节点管理冷数据不要超过10T。如果是同时有冷热表的集群,需要看region数量来衡量。

PS:
目前暂时只定向开放给特定场景用户,如有需求,请联系云HBase答疑(钉钉号)咨询

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
13天前
|
存储 调度 块存储
阿里云连续两年斩获全球存储顶会FAST最佳论文
阿里云连续两年斩获全球存储顶会FAST最佳论文
358 0
|
2天前
|
消息中间件 弹性计算 物联网
【阿里云弹性计算】阿里云ECS在IoT领域的应用:支撑大规模设备连接与数据处理
【5月更文挑战第26天】阿里云ECS是弹性计算服务,支持IoT设备的连接与数据处理。通过MQTT协议实现设备快速接入,配合消息队列处理异构实时数据。ECS可用于部署数据处理工具、应用服务,如智能家居控制系统,通过弹性伸缩适应负载变化。结合阿里云其他服务,ECS为IoT提供完整解决方案,助力企业数字化转型。
11 0
|
2天前
|
弹性计算 数据库 云计算
【阿里云弹性计算】云成本管理艺术:利用阿里云ECS预留实例节约成本
【5月更文挑战第26天】阿里云ECS预留实例助力企业有效管理云成本,提供预付费计费模式,降低高达70%的费用。适合长期稳定需求、可预测业务高峰和批量部署场景。通过预留实例,企业能确保资源保障、灵活调整并节约成本,实现成本优化与业务连续性的平衡。
18 0
|
5天前
|
存储 弹性计算 大数据
【阿里云弹性计算】阿里云ECS在大数据处理中的应用:高效存储与计算实践
【5月更文挑战第23天】阿里云ECS在大数据处理中发挥关键作用,提供多样化实例规格适应不同需求,尤其大数据型实例适合离线计算。通过集成分布式文件系统如OSS,实现大规模存储,而本地存储优化提升I/O性能。弹性扩容和计算优化实例确保高效运行,案例显示使用ECS能提升处理速度并降低成本。结合阿里云服务,ECS构建起强大的数据处理生态,推动企业创新和数字化转型。
22 0
|
7天前
|
存储 弹性计算 监控
利用阿里云云产品进行项目成本节约的实践
本文分享了利用阿里云降低成本的实践经验,主要通过选择合适的计费模式(如按量付费、包年包月和抢占式实例)、优化资源配置(弹性伸缩、资源监控与调整、适配存储方案)、利用优惠和成本管理工具(预留实例券、成本预警、优惠活动)以及案例分析,实现云计算成本的有效控制。通过这些策略,企业在保证灵活性和扩展性的同时,能更好地管理云服务成本,提高项目经济效益。
71 1
|
7天前
|
存储 弹性计算 监控
【阿里云弹性计算】成本优化实战:利用阿里云 ECS 抢占式实例节省云支出
【5月更文挑战第21天】阿里云ECS的抢占式实例提供了一种成本优化策略,适合对中断容忍度较高的业务。通过创建和管理抢占式实例,结合API查询价格信息,企业能节省大量成本。使用时注意业务容错性,设置监控系统应对中断,结合其他成本优化措施,如存储类型选择和网络配置优化。确保业务可恢复性,关注阿里云政策,并根据业务变化调整策略,以实现成本与效益的最佳平衡。
55 3
|
8天前
|
存储 弹性计算 Cloud Native
AutoMQ:如何基于阿里云计算与存储产品实现云原生架构升级
AutoMQ:如何基于阿里云计算与存储产品实现云原生架构升级
|
8天前
|
存储 弹性计算 监控
【阿里云弹性计算】深入阿里云ECS配置选择:CPU、内存与存储的最优搭配策略
【5月更文挑战第20天】阿里云ECS提供多种实例类型满足不同需求,如通用型、计算型、内存型等。选择CPU时,通用应用可选1-2核,计算密集型应用推荐4核以上。内存选择要考虑应用类型,内存密集型至少4GB起。存储方面,系统盘和数据盘容量依据应用和数据量决定,高性能应用可选SSD或高效云盘。结合业务特点和预算制定配置方案,并通过监控应用性能适时调整,确保资源最优利用。示例代码展示了使用阿里云CLI创建ECS实例的过程。
79 5
|
9天前
|
SQL 分布式计算 数据挖掘
阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。让我们结合maxcompute的技术特点,看看如何助力华大基因。
820 9
|
13天前
|
存储 弹性计算 监控
探索阿里云弹性计算:如何优化云服务器ECS的性能与成本
在云时代,【阿里云ECS】的性能优化与成本控制至关重要。利用实例规格选择、自动伸缩、网络和存储配置,可增强性能、减少成本。结合监控工具和优化建议,用户能解决性能问题,提升应用稳定性,实现高效且经济的云计算运营。
52 1