hbase源码系列(四)数据模型-表定义和列族定义的具体含义-阿里云开发者社区

开发者社区> 岑玉海> 正文

hbase源码系列(四)数据模型-表定义和列族定义的具体含义

简介: hbase是一个KeyValue型的数据库,在《hbase实战》描述它的逻辑模型【行键,列族,列限定符,时间版本】,物理模型是基于列族的。但实际情况是啥?还是上点代码吧。
+关注继续查看

hbase是一个KeyValue型的数据库,在《hbase实战》描述它的逻辑模型【行键,列族,列限定符,时间版本】,物理模型是基于列族的。但实际情况是啥?还是上点代码吧。

HTableDescriptor tableDesc = new HTableDescriptor("test");
        //日志flush的时候是同步写,还是异步写
        tableDesc.setDurability(Durability.SYNC_WAL);
        //MemStore大小
        tableDesc.setMemStoreFlushSize(256*1024*1024);
        
        HColumnDescriptor colDesc = new HColumnDescriptor("f");
        //块缓存,保存着每个HFile数据块的startKey
        colDesc.setBlockCacheEnabled(true);
        //块的大小,默认值是65536
        //加载到内存当中的数据块越小,随机查找性能更好,越大,连续读性能更好
        colDesc.setBlocksize(64*1024);
        //bloom过滤器,有ROW和ROWCOL,ROWCOL除了过滤ROW还要过滤列族
        colDesc.setBloomFilterType(BloomType.ROW);
        //写的时候缓存bloom
        colDesc.setCacheBloomsOnWrite(true);
        //写的时候缓存索引
        colDesc.setCacheIndexesOnWrite(true);
     //存储的时候使用压缩算法
      colDesc.setCompressionType(Algorithm.SNAPPY);
        //进行compaction的时候使用压缩算法
        colDesc.setCompactionCompressionType(Algorithm.SNAPPY);
        //压缩内存和存储的数据,区别于Snappy
        colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX);
        //写入硬盘的时候是否进行编码
        colDesc.setEncodeOnDisk(true);
        //关闭的时候,是否剔除缓存的块
        colDesc.setEvictBlocksOnClose(true);
        //是否保存那些已经删除掉的kv
        colDesc.setKeepDeletedCells(false);
        //让数据块缓存在LRU缓存里面有更高的优先级
        colDesc.setInMemory(true);
        //最大最小版本
        colDesc.setMaxVersions(3);
        colDesc.setMinVersions(1);
        //集群间复制的时候,如果被设置成REPLICATION_SCOPE_LOCAL就不能被复制了
        colDesc.setScope(HConstants.REPLICATION_SCOPE_GLOBAL);
        //生存时间
        colDesc.setTimeToLive(18000);
        
        tableDesc.addFamily(colDesc);

在上面列出来表定义和列族定义的所有参数,含义也标上去了,我们经常需要设置的可能就是下面的这些。

//bloom过滤器,过滤加速
        colDesc.setBloomFilterType(BloomType.ROW);
        //压缩内存和存储中的数据,内存紧张的时候设置
        colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX);
     //让数据块缓存在LRU缓存里面有更高的优先级
        colDesc.setInMemory(true);
        //最大版本,没必要的话,就设置成1个
        colDesc.setMaxVersions(1);
        //集群间复制的时候,如果被设置成REPLICATION_SCOPE_LOCAL就不能被复制了
        colDesc.setScope(HConstants.REPLICATION_SCOPE_GLOBAL);
     //存储的时候使用压缩算法,这个基本是必备的,hbase的存储大得惊人
      colDesc.setCompressionType(Algorithm.SNAPPY);
        //进行compaction的时候使用压缩算法
        colDesc.setCompactionCompressionType(Algorithm.SNAPPY);

hbase的表在hdfs上面的是这么存储的,/hbase-root/tableName/regionName/familyName/HFile, 在tableName这一级目录会有一个名.tabledesc的文件,在region这一级目录有一个名为.regioninfo的文件,都是明文的。

了解完表和列族的定义之后,我们看看KeyValue是怎么存储的吧,引用一下代码,可能大家一看就都懂了。

@Override
    public void write(Cell cell) throws IOException {
      checkFlushed();
      // Row rowkey,起始位置,长度
      write(cell.getRowArray(), cell.getRowOffset(), cell.getRowLength());
      // Column family 列族,起始位置,长度
      write(cell.getFamilyArray(), cell.getFamilyOffset(), cell.getFamilyLength());
      // Qualifier 列名,起始位置,长度
      write(cell.getQualifierArray(), cell.getQualifierOffset(), cell.getQualifierLength());
      // Version 时间戳
      this.out.write(Bytes.toBytes(cell.getTimestamp()));
      // Type Put或者Delete
      this.out.write(cell.getTypeByte());
      // Value 值,起始位置,长度
      write(cell.getValueArray(), cell.getValueOffset(), cell.getValueLength());
    }
好吧,列存储的话存储的时候每个列都会重复前面的rowkey、列族这些信息,在列很多的情况下,rowkey和列族越长,消耗的内存和列族都会很大,所以它们都要尽量的短。可以考虑用colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX_TREE)来压缩一下内存中的大小,这个后面后面会讲到。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
C# 水晶按钮数据源中表的更新技巧
图1 图2     很明显,图1、图2中所示的作用是很大的。很多时间当我们设置好一个中字段的格式(含字体、大小、颜色、位置等),如图3, 图3     我们是不希望这些数据会被重新清除的。
534 0
基于表单数据的封装,泛型,反射以及使用BeanUtils进行处理
在Java Web开发过程中,会遇到很多的表单数据的提交和对表单数据的处理。而每次都需要对这些数据的字段进行一个一个的处理就显得尤为繁琐,在Java语言中,面向对象的存在目的便是为了消除重复代码,减少我们程序员的负担。
699 0
数据仓库建模:定义事实表的粒度
数据仓库建模:定义事实表的粒度Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏 维度建模中一个非常重要的步骤是定义事实表的粒度。
1367 0
干货 | 论Elasticsearch数据建模的重要性
1、什么是数据模型? 数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,用图形化的形式去描述业务规则的过程,从而表示现实世界中事务的相互关系的一种映射。
9 0
Objective-C中通过下标的方式访问自定义数据模型中属性
Objective-C中通过下标的方式访问自定义数据模型中属性
9 0
数据天生就是流式的
现在依然很多人使用Azkaban/Oozie等工具衔接各个系统,通过外力让数据进行流转。而随着流式计算慢慢成熟与稳定,数据必然如河水一般,天生就是流式的。
1734 0
+关注
64
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载