开发者社区> soledad_lhc> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

HBase数据结构(读书笔记 )

简介: 背景:      最近在做一些跟大数据相关的东西,涉及到数据的存储和分析,考虑各个方面,选择使用HBase进行存储,使用原生Java API进行数据分析,之后会陆续写一系列来说明最近做的东西,给像我这样未曾涉及过这个领域的人一点儿idea。
+关注继续查看


背景:


     最近在做一些跟大数据相关的东西,涉及到数据的存储和分析,考虑各个方面,选择使用HBase进行存储,使用原生Java API进行数据分析,之后会陆续写一系列来说明最近做的东西,给像我这样未曾涉及过这个领域的人一点儿idea。


引言:

     HBase以表的方式组织数据源,这一点跟关系型数据库时一样的,在我们的application里面,通过API/Thrift、或者各种SQL引擎,将数据存入库里面或者进行查询;Hbase的表由行(Row)和列(Column)共同构成,与关系型数据库不同的是,HBase有一个列族(Column Family)的概念,它将一列或者多列组织在一起,HBase的列必须属于某一个列族。


    行和列的交叉点称为单元格(Cell),单元格是版本化的。单元格的内容也就是列的值是不可分割的字节数组,以二进制的形式存储。HBase没有数据类型,任何列值都被转换成字符数组进行存储。HBase表中的行是通过行键(Rowkey)来进行区分的,行健也是用来唯一确定一行的标识,不同的行健嗲表不同的行,行健也是一段字节数组,不论是字符串还是数字,最终都会被转换成自己数组进行存储。HBase表中的行是按照RowKey排序的,排序方式采用字典顺序,所有表中的行都必须有RowKey。


逻辑模型


     HBase是一个类似GoogleBigTable的开源分布式数据库,它最基本的单位是列,一列或者多列组成行,行有行健,每一行的行健都是唯一的,相同的行健的插入操作被认为是对同一行的操作,也就是说如果做了两次写入操作,而行健是同一个,那么后面的操作可以认为是对改行的某些列的更新操作。

    列名是右列族前缀和修饰符连接而成,分隔符是应为冒号。

物理模型

     
    在逻辑模型中,表可以被看成一个稀疏的行的集合。但是在物理上,表是按照列分开存储的。HBase的列是按照列族分组的,HFile是面向列的,存放行的不同的列的物理文件,一个列族的数据存放在多个HFile中,最重要的是一个列族的数据会被同一个Region管理,物理上存放在一起。Region是管理HFile的一种机制。



     




 


    



版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
面试官:你看过Redis数据结构底层实现吗?(上)
面试官:你看过Redis数据结构底层实现吗?(上)
73 0
数据结构与算法学习笔记
数据结构与算法学习笔记
21 0
数据结构——链栈
数据结构——链栈
119 0
云数据库HBase降价优惠,震撼来袭!
云数据库HBase版是面向大数据领域的一站式NoSQL服务, 支持GB至PB级数据,用于处理大规模吞吐、检索、分析工作负载, 目前正降价优惠中!
237 0
《数据结构》学习笔记一:绪论
个人看法: 数据结构的重要性对于码农而言就像盖房子的图纸,做饭的菜谱,没有它,也许也能盖得成房子,也能做的熟菜,但是质量如何就不敢说了。我们从大学的时候就把《数据结构》作为重要的基础课程来认真学习,但是真正听懂的,弄明白的,并不是很多。
1105 0
数据结构学习笔记(串)
                         串的定义 1.串:串是由零个或多个字符组成的有限序列,又名叫字符串。 2.串的比较:串的长度以及它们各个对应位置的字符都相等时,才算相等。给定两个串:s=“a1a2......an”, t=“b1b2……bm”, 当满足以下条件之一时,s
721 0
数据结构学习笔记(特殊的线性表:栈与队列)
                     栈与队列 栈是限定仅在表尾(栈顶)进行插入和删除操作的线性表(后进先出)。队列是只允许在一端进行插入操作,而在另一端进行删除操作的线性表(先进先出)。   栈(Stack): 1.下标为0的一端作为栈底比较好,因为首元素都存在栈底,变化最小,所以让它作为栈底。
1090 0
光纤通道协议网络拓扑结构简介
光纤通道网络中有三种不同的拓扑结构:点对点拓扑结构,仲裁环路拓扑结构,交换式光纤网络拓扑结构: http://download.csdn.net/detail/changyanmanman/5305062 问:   大多数磁盘阵列都是通过两个控制器后端的端口,组成1/2/4条FC-AL环,来连接所有磁盘。
922 0
+关注
soledad_lhc
csdn博客:http://blog.csdn.net/lhc1105
508
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载