设计HBase RowKey需要注意的二三事

简介:

在HBase中,定位一条数据(即一个Cell)需要4个维度的限定:行键(RowKey)、列族(Column Family)、列限定符(Column Qualifier)、时间戳(Timestamp)。其中,RowKey是最容易出现问题的。除了根据业务和查询需求来设计之外,还需要注意以下三点。

  1. 打散RowKey
    HBase中的行是按照RowKey字典序排序的。

这对Scan操作非常友好,因为RowKey相近的行总是存储在相近的位置,顺序读的效率比随机读要高。
但是,如果大量的读写操作总是集中在某个RowKey范围,那么就会造成Region热点,拖累RegionServer的性能。
因此,要适当地将RowKey打散。
加盐(salting)+哈希(hashing)
这里的“加盐”与密码学中的“加盐”不是一回事。
它是指在RowKey的前面增加一些前缀。
加盐的前缀种类越多,RowKey就被打得越散。
前缀不可以是随机的,因为必须要让客户端能够完整地重构RowKey。
我们一般会拿原RowKey或其一部分计算hash值,然后再对hash值做运算作为前缀。
反转固定格式的数值
以手机号为例,手机号的前缀变化比较少(如152、185等),但后半部分变化很多。
如果将它反转过来,可以有效地避免热点。
不过其缺点就是失去了有序性。
反转时间
这个操作严格来讲不算“打散”,但可以调整数据的时间排序。
如果将时间按照字典序排列,最近产生的数据会排在旧数据后面。
如果用一个大值减去时间(比如用99999999减去yyyyMMdd,或者Long.MAX_VALUE减去时间戳),最新的数据就可以排在前面了。

  1. 控制RowKey长度
    在HBase中,RowKey、列族、列名等都是以byte[]形式传输的。

RowKey的最大长度限制为64KB,但在实际应用中最多不会超过100B。
设计短RowKey有以下两方面考虑:
在HBase的底层存储HFile中,RowKey是KeyValue结构中的一个域。假设RowKey长度100B,那么1000万条数据中,只算RowKey就占用掉将近1G空间,会影响HFile的存储效率。

image

HBase中设计有MemStore和BlockCache,分别对应列族/Store级别的写入缓存,和RegionServer级别的读取缓存。如果RowKey过长,缓存中存储数据的密度就会降低,影响数据落地或查询效率。

image

另外,我们目前使用的服务器操作系统都是64位系统,内存是按照8B对齐的,因此设计RowKey时一般做成8B的整数倍,如16B或者24B,可以提高寻址效率。
同样地,列族、列名的命名在保证可读的情况下也应尽量短。HBase官方不推荐使用3个以上列族,因此实际上列族命名几乎都用一个字母,比如‘c’或‘f’。

  1. 保证RowKey唯一性
    这个就是显而易见的了,不再赘述。

举个例子
我们的业务中,有一部分是用户在日历上记录自己的行为。需要储存在RowKey中的维度有:用户ID(uid,不会超过十亿)、日历上的日期(date,yyyyMMdd格式)、记录行为的类型(type,0~99之间)。记录的详细数据则存储在列f:data中。根据查询逻辑,我们设计的RowKey格式如下:
9~79809782~05~0008839540
长度正好是24B。以字符‘~’为分界(‘~’的ASCII码是最大的,方便),各个部分的含义如下:

uid.toString().hashCode() % 10

99999999 - date

StringUtils.leftPad(type, 2, "0")

StringUtils.leftPad(uid, 10, "0")

基于这种设计,我们在建表阶段就可以将其预分区,使得数据在一开始就均匀分布在不同的Region上。建表语句参考:

create 'user_calendar_record', {
NAME => 'f',
VERSIONS => '1',
BLOCKCACHE => 'true',
BLOCKSIZE => '65536',
BLOOMFILTER => 'row',
COMPRESSION => 'SNAPPY'
}, {
SPLITS => ['1', '2', '3', '4', '5', '6', '7', '8', '9']
}

如果不做预分区,那么表刚开始只会有一个Region。随着数据量增大,就会频繁触发Region split,影响效率。关于Region split应该另外写文章讨论,这里就不提了。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
SQL 分布式数据库 Apache
Hbase的二级索引和RowKey的设计
Hbase的二级索引和RowKey的设计
332 1
|
分布式数据库 索引 Hbase
《HBase应用与发展之HBase RowKey与索引设计》电子版地址
HBase应用与发展之HBase RowKey与索引设计
128 0
《HBase应用与发展之HBase RowKey与索引设计》电子版地址
|
分布式数据库 Hbase
|
分布式数据库 Hbase
|
存储 缓存 负载均衡
Hbase的Rowkey设计以及如何进行预分区
今天有人问我Hbase的rowkey设计和预分区的问题,这篇文字就简单介绍一下.,关于Hbase的表的一些基本概念这里就不说了,直接说重点,尽可能说的简单一点,废话就不写了. 1.什么是Rowkey? 我们知道Hbase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式.
Hbase的Rowkey设计以及如何进行预分区
|
存储 分布式数据库 开发者
HBase表设计_8 | 学习笔记
快速学习 HBase表设计_8
158 0
|
存储 分布式数据库 开发者
HBase 表设计_7 | 学习笔记
快速学习 HBase 表设计_7
130 0
|
分布式数据库 开发者 Hbase
HBase 表设计_6 | 学习笔记
快速学习 HBase 表设计_6
128 0
|
存储 大数据 Java
HBase 表设计_5 | 学习笔记
快速学习 HBase 表设计_5
133 0
|
分布式数据库 开发者 Hbase
HBase 表设计_4 | 学习笔记
快速学习 HBase 表设计_4
130 0