开发者学堂课程【HBase 入门教程:HBase 原理_3】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/397/detail/5063
HBase 原理_3
内容介绍
一、HBase 数据模型
二、HBase 体系框架
三、HBase 存储模型
一、HBase 数据模型
Cell 单元格
由行和列的坐标交叉决定;
单元格是有版本的;
单元格的内容是未解析的字节数组;
由{row key,column(=+),versnon}唯一确定的单元。cell 中的数据是没有类型的,全部是字节码形式存贮。
+两个结合起来才说明属性的列,versnon 在对应着版本
通过这些结合起来,才能唯一确定了一个单元格
单元格里面能够存贮的是未解析的字节数组,不管是电源、图片、音乐等类型,只要转换为数组都可以进行分装。
“com.cnn.ww”对应的是一行数据
有三个单元格(CF2:q1=val3,CF3:q4=val4,CF1:q2=val2,),但是不同的单元格对应的版本也不相同,所以就有 t6,t5,t3三个版本。
HLog(WAL log)
HLog(WAL log)主要是记录日志。HLog 与之前的 log 文件有些区别:平时的 log 记录各项操作;HLog 除了会记录各项操作还会记录数据(如果在 HBase 里面插入一条数据,它不止记录了这项操作,连同将插入的数据“data”记录下来)。
HLog(WAL log)的作用:做容灾(灾备)
容灾:解决出现的意外问题,比如 namelog 容灾的手段。如果发现一些灾难性的问题,想要把磁盘彻底烧掉,就需要做一些容灾。
HLog 可以做一些高格。数据丢失可以通过HLog来恢复。
HLog 文件就是一个普通的 Hadoop Sequence File,Sequence File 的 Key 是 HLogKey 对象,HLogKey 中记录了写入数据的归属信息,除了 table 和 region 名字外,同时还包括 sequence number 和 timestamp,timestamp 是“写入时间”,sequence number 的起始值为0,或者是最近一次存入文件系统中 sequence number。
Hadoop Sequence File 的 Value 是 HBase 的 KeyValue 对象,即对应 HFile 中的 KeyValue。
二、HBase 体系框架
左上角 Client 是购物单,Zookeeper 在 HBase 的作用不仅仅是高格用途,可以存贮元数据。HMaster 相当于对我们整个 Region server 进行管理。
一个局情里面有多个 Region server;一个 Region server 有多个 Region ;一个 Region 有多个 Store ; Store 分为了一个 MomStore、多个 StoreFile 。 MomStore 是内存缓存区,一些数据会先在 MomStore 里面进行存储,当内存缓存区写满之后就会进行一写,一写会生成 StoreFile ; StoreFile 下面有 HFile,StoreFile 和 HFile 指的是同一种东西, HFile 是 HBase 的存储机制-站的角度不同,名字就不同(如果站在 HFile 的角度就叫做 StoreFile ;如果站在 Hadoop 的角度,这个文件就叫做 HFile )。
此时的数据是放在 HBase 的局情里面,也可以放在本地的服务器上。在生产环境里面。最好是放在HBase 的局情里面,它可靠性高、可以伸缩、稳定性高、容量很大。
Client
包含访问 HBase 的接口并维护 cache 来加快对 HBase 的访问
Zookeeper
保证任何时候,集群中只有一个 master (只有一台是处于工作状态的 master)。
存贮所有 Region 的寻址入口(里面有一个内存数据库)。
实时监控 Region server 的上线和下线信息。并实时通知 Master(如果 Region server 出现问题的时候就会通知 Master )
存储 HBase 的 schema 和 table 元数据(表定义和表的元素信息都是在 Region 里面进行传送的,不是在 master 里面)
Master
为 Region server 分配 region
负责 Region server 的负载均衡(对两台 Region server 做可用)
如果后面一台如果有100条 Region server ,就可以分一部分给前一台的 Region server 上面。
发现失效的 Region server 并重新分配其上的 region (如果 Master 发现已经有一台 Region server 当掉了,Master 就会把这上面的 Region 分配其他的 Region server)。
管理用户对 table 的增删改操作(把请求转发给 Region server )
RegionServer
Region server 维护 region ,处理对这些 region 的 IO 请求(对 HBase 所有的读写请求)
都是 RegionServer 进行的,而不是 Master。
Region server 负责切分在运行过程中变得过大的 region (如果数据一直往 Region 里面写入,文件会越来越大; Region server 就会把过大的 Region 进行切分。切分的时候是尽量按照等分的原则来切分的-假如是100条数据,切分之后就50,50;如果是101,它会尽量等分,但是不会把“1”再切分)。
三、HBase 存储模型
Region
HBase 自动把表水平划分成多个区域(region),自动把表水平划分成多个区域;每个表一开始只有一个 region,随着数据不断插入表,region 不断增大,当增大到一个阀值的时候,region 就会等分会两个新的 region(裂变);
自动把表水平划分成多个区域;自动把表水平划分成多个区域;m 是一段连续的区域,n 也是一段连续的区域,
当 table 中的行不断最多,就会有越来越多的 region。这样一张完整的表被保存在多个 Regionserver 上。
region 会越来越多,region 就会分成到不同的 Regionserver 上。