关于hbase 的一些基本概念

简介:

Hbase主要部件组成

  1. Cilent

  • 包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息。

MasterServer

  •  为Region server分配region

  •  负责region server的负载均衡

  •  发现失效的region server并重新分配其上的region

  •  HDFS上的垃圾文件回收

  • 处理schema更新请求

Region Server

  •  Region server维护Master分配给它的region,处理对这些region的IO请求

  •  Region server负责切分在运行过程中变得过大的region

Zookeeper

  •  保证任何时候,集群中只有一个master

  •  存贮所有Region的寻址入口。

  •  实时监控Region Server的状态,将Region server的上线和下线信息实时通知给Master

  •  存储Hbase的schema,包括有哪些table,每个table有哪些column family

HBase的压缩

        当由内存将文件flush到硬盘上时,会创建很多的hfile文件,对这些hfile文件需要压缩,包含minor compactions and major compactions

        minor压缩,是将多个小的文件合并成大的文件,执行n路合并。

        major压缩,是指将一个column family的文件都存储为一个大文件,同时他还扫描删除标示,或者过期的版本信息。

HBASE的删除

HBASE的删除意义

        hbase的delete命令,并不是真的删除了文件,而是设置一个标记(delete marker)。用户在检索数据的时候,会过滤掉这些标示的数据。

HBASE的删除种类

        HBase的删除标记有三种:

1. version delete marker 删除指定version的某个qualifier对应的value

2. column delete marker 删除某个qualifier的所有version的数据

3. family delete marker 删除column  family  下所有qualifier对应的所有version的数据

如何基于时间查询已经查询的数据

        还可以再column和family delete marker上打上时间戳,这时,只有小于这个时间戳的version才会被影响到。

HBase允许进行基于时间的查询从而得到指定时间段的历史数据。查询时间T的数据即查询[0,T+1)的数据。这样就带来了一个潜在的问题。当一个delete marker被set上,所有被它影响到的数据都不再可见。如果你在时间T put了一个qualifier为C的数据,接着在T+X的时间点删除这个qualifier,此时查询[0,T+1)时间段的数据将不会返回qualifier为C的这个KV对。

        HBASE-4536 https://issues.apache.org/jira/browse/HBASE-4536解决了这个问题,可以通过在shell里建表时加上 KEEP_DELETED_CELLS=>true或在java client上调用时加上HColumnDescriptor.setKeepDeletedCells(true)。这样,被删除的数据在基于时间的历史数据查询中依然可见(当然要保证delete marker的时间戳不在历史查询的时间范围内)。就刚才的例子来说,加上这个支持后,查询[0,T+1)时间段的数据将会返回C,而查询[0,T+X+1)时间段的数据将不会返回C,因为在该时间点,C也已经被删除了。

将表的属性KEEP_DELETED_CELLS设置为on,是为了使 flashback queries能返回正确的结果

相关实践学习
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
9月前
|
存储 分布式计算 NoSQL
分布式数据库HBase的基本概念和架构之基本数据模型的Cell
HBase是一个分布式数据库系统,基于Google的Bigtable和Apache Hadoop的HDFS构建而成。它是一个分布式数据库的NoSQL数据库,主要用于存储和处理海量数据。HBase的核心特性包括高可用性、高性能和高伸缩性。在阿里云开发者社区中,我们将介绍HBase的基本概念和架构,以及它的基本数据模型Cell。
549 0
|
9月前
|
存储 分布式计算 NoSQL
分布式数据库HBase的基本概念和架构之基本数据模型的Row
HBase是一个分布式数据库系统,基于Google的Bigtable和Apache Hadoop的HDFS构建而成。
210 0
|
9月前
|
存储 分布式数据库 Hbase
分布式数据库HBase的基本概念和架构之概念面向列(簇)的分布式数据库
在分布式数据库 HBase 中,数据的存储和管理是基于列的分布式存储。
47 0
|
9月前
|
存储 分布式计算 监控
分布式数据库HBase的基本概念和架构之基本架构的Master
分布式数据库HBase是一个开源的分布式数据库系统,是Apache Hadoop生态系统的重要组成部分。
306 0
|
9月前
|
存储 分布式计算 监控
分布式数据库HBase的基本概念和架构之基本架构的ZooKeeper
分布式数据库HBase是一个开源的分布式数据库系统,是Apache Hadoop生态系统的重要组成部分。
389 0
|
9月前
|
存储 分布式计算 NoSQL
分布式数据库HBase的基本概念和架构之基本架构的Client
HBase是一个分布式数据库系统,基于Google的Bigtable和Apache Hadoop的HDFS构建而成。它是一个分布式数据库的NoSQL数据库,主要用于存储和处理海量数据。HBase的核心特性包括高可用性、高性能和高伸缩性。在阿里云开发者社区中,我们将介绍HBase的基本概念和架构,以及它的基本架构Client。
446 1
|
9月前
|
存储 分布式计算 NoSQL
分布式数据库HBase的基本概念和架构之基本数据模型的TimeStamp
HBase是一个分布式数据库系统,基于Google的Bigtable和Apache Hadoop的HDFS构建而成。
358 0
|
9月前
|
存储 分布式计算 NoSQL
分布式数据库HBase的基本概念和架构之基本数据模型的Table
HBase是一个分布式数据库系统,基于Google的Bigtable和Apache Hadoop的HDFS构建而成。
|
9月前
|
存储 分布式计算 NoSQL
分布式数据库HBase的基本概念和架构之基本数据模型的Column
HBase是一个分布式数据库系统,基于Google的Bigtable和Apache Hadoop的HDFS构建而成。
230 0
|
9月前
|
存储 分布式数据库 Hbase
分布式数据库HBase的基本概念和架构之基本数据模型的NameSpace
在分布式数据库 HBase 中,数据的存储和管理是基于列的分布式存储。
55 0