Hadoop-No.10之列簇

简介: HBase中包含列簇(column family)的概念.列簇本质上是列的存储容器.一张表可以有一个或多个列簇.每个列簇都有自己的HFile结婚,而且在执行合并操作时,同一个表的其他列簇不受影响在很多实用案例中,一张表不需要多个列簇.

HBase中包含列簇(column family)的概念.列簇本质上是列的存储容器.一张表可以有一个或多个列簇.每个列簇都有自己的HFile结婚,而且在执行合并操作时,同一个表的其他列簇不受影响

在很多实用案例中,一张表不需要多个列簇.如果一张标中国的一部分列操作完成,或者变化频率与其他列存在显著不同,则可以使用一个以上的列簇.

比如,HBase 表包含两列:列1每行包含400字节,而列2每行包含20个字节.现在我们假设列1的值只设置一次,,不会改变,但是列2的值要经常改变.另外,从访问模式上看,对列2调用的get请求远多于针对列1 的get函数.

这种情况下,使用两个列簇更好,原因如下 :

  • 降低合并成本

    如果有两个独立的列簇,那么包含列2的列簇会经常刷新memstore,所以会产生较小的合并.因为列2在其自身的列簇中,所以HBase只需要合并总记录数中的5%的数据,因此合并对性能的影响更小

  • 更好的使用数据块存储

    从HBase中检索数据时,附近(位于同一个HBase缓存中)的记录会拉入数据块缓存中.如果列1和列2在同一个列簇中,每次对列2调用get请求时都会把两列数据拉倒缓存中.缓存包含了列1 的数据,而列1中的数据接受的get请求非常少,使用的频率也非常低,这就导致了不理想的缓存分布.使用列1和列2位于不同列簇,会导致缓存中填充的数据仅来自于列2,因此增加了随后对列2调用get请求的高速缓存命中率

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
6月前
|
存储 分布式计算 资源调度
干翻Hadoop系列文章【03】:MapReduce概念详解
干翻Hadoop系列文章【03】:MapReduce概念详解
|
消息中间件 分布式计算 安全
Hadoop 1(二)|学习笔记
快速学习 Hadoop 1(二)
107 0
Hadoop 1(二)|学习笔记
|
分布式计算 资源调度 Hadoop
Hadoop 2(三)|学习笔记
快速学习 Hadoop 2(三)
125 0
Hadoop 2(三)|学习笔记
|
存储 分布式计算 资源调度
Hadoop 2(二)|学习笔记
快速学习 Hadoop 2(二)
122 0
Hadoop 2(二)|学习笔记
|
存储 SQL 分布式计算
Hadoop 1(三)|学习笔记
快速学习 Hadoop 1(三)
166 0
Hadoop 1(三)|学习笔记
|
分布式计算 资源调度 Hadoop
Hadoop 2(一)|学习笔记
快速学习 Hadoop 2(一)
152 0
Hadoop 2(一)|学习笔记
|
消息中间件 分布式计算 Hadoop
Hadoop 1(一)|学习笔记
快速学习 Hadoop 1(一)
116 0
Hadoop 1(一)|学习笔记
|
分布式计算 Java Hadoop
|
存储 分布式数据库 Hbase
Hadoop-No.11之元数据
元数据的重要性 三个重要理由,让我们不得不在意元数据 元数据允许用户通过一张表的高一级逻辑抽象,而不是HDFS中文件的简单几何,或者HBase中的表来与数据交互.这意味着用户不比关心数据是如何存储的,存储到了什么地方 元数据允许用户提供数据的信息(如分区或者排序特...
1210 0
|
存储 分布式计算 Hadoop
在Hadoop环境里面统计西游记文章的词组(hdfs实验)
在Hadoop环境里面统计西游记文章的词组(hdfs实验)
186 0
在Hadoop环境里面统计西游记文章的词组(hdfs实验)