--原理
Hbase是一个分布式的 面相列的数据库,他和一般关系型数据库最大的区别是:HBase很合适与存储非结构化的数据,还有就是它基于列的而不是基于行的模式.
既然HBase是采用KeyValue的列存储,那么RowKey就是KeyValue的key了,表示唯一一行,RowKey也是一段二进制码流,最大长度为64KB内容可以由使用的用户自定义,数据加载时,一百也是根据RowKey的二进制序由小到大的进行.
HBase是根据RowKey来进行检索的,系统通过找到某个RowKey所在的Region然后将查询数据的请求路由到该Region获取数据,HBase的检所支持3种方式.
(1)通过单个RowKey访问,即按照某个RowKey键值进行get操作,这样获取唯一一条记录.
(2)通过RowKey的range进行scan ,即通过设置startRowKey和endRowKey,在这个范围内进行扫描.
(3)全表扫描.即直接扫描整张表中所有行记录.
HBASE按单个RowKey检索的效率是很高的,耗时在1毫秒以下,每秒中可获取1000~2000条记录,不过非key列的查询很慢.
分类
RowKey长度原则
RowKey是一个二进制码流,RowKey的长度被很多开发者建议设计在10~100个字节,不过建议越多越好,不要超过16个字节.
原因如下:
(1)数据的持久化文件HFile中是按照KeyValue存储的,如果RowKey过长比如100个字节,1000万列数据光RowKey就要占10万亿个字节,将近1G数据,这回极大影响Hfie的存储效率
(2)MenStore将缓存部分数据到内存,如果RowKey字段过长内存的有效利用率会降低,系统将无法缓存更多的数据,这会降低检索效率,因此RowKey的字节长度越短越好.
(3)目前操作系统都是64位系统,内存8字节对齐,控制在16字节
RowKey散列原则
如果RowKey是按时间戳的方式递增,不要讲时间放在二进制码的前面,建议将RowKey的高位作为散列字段,由程序循环生成,地位放时间字段,这样将提升数据均衡分布在每个RegionServer实现负载均衡的几率,如果没有散列字段,首字段直接是时间信息将产生所有新数据都在一个RegionServer上堆积的热点现象,这样在做数据检索的时候负载将会集中在个别RegionServer 降低查询效率.
1.随机数
2.UUID
3.MD5,Hash,等加密算法
4.业务有序数反向
RowKey唯一原则
必须在设计上保证其唯一性
RowKey是hashBase里面唯一的索引,对于某些查询频繁的限定条件数据需要把内容放在rowkey里面