关于hbase 的一些基本概念

2016-05-13 4242

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Hbase主要部件组成

Cilent

包含访问hbase的接口，client维护着一些cache来加快对hbase的访问，比如regione的位置信息。

MasterServer

为Region server分配region
负责region server的负载均衡
发现失效的region server并重新分配其上的region
HDFS上的垃圾文件回收
处理schema更新请求

Region Server

Region server维护Master分配给它的region，处理对这些region的IO请求
Region server负责切分在运行过程中变得过大的region

Zookeeper

保证任何时候，集群中只有一个master
存贮所有Region的寻址入口。
实时监控Region Server的状态，将Region server的上线和下线信息实时通知给Master
存储Hbase的schema,包括有哪些table，每个table有哪些column family

HBase的压缩

当由内存将文件flush到硬盘上时，会创建很多的hfile文件，对这些hfile文件需要压缩，包含minor compactions and major compactions

minor压缩，是将多个小的文件合并成大的文件，执行n路合并。

major压缩，是指将一个column family的文件都存储为一个大文件，同时他还扫描删除标示，或者过期的版本信息。

HBASE的删除

HBASE的删除意义

hbase的delete命令，并不是真的删除了文件，而是设置一个标记（delete marker）。用户在检索数据的时候，会过滤掉这些标示的数据。

HBASE的删除种类

HBase的删除标记有三种：

1. version delete marker 删除指定version的某个qualifier对应的value

2. column delete marker 删除某个qualifier的所有version的数据

3. family delete marker 删除column family 下所有qualifier对应的所有version的数据

如何基于时间查询已经查询的数据

还可以再column和family delete marker上打上时间戳，这时，只有小于这个时间戳的version才会被影响到。

HBase允许进行基于时间的查询从而得到指定时间段的历史数据。查询时间T的数据即查询[0,T+1)的数据。这样就带来了一个潜在的问题。当一个delete marker被set上，所有被它影响到的数据都不再可见。如果你在时间T put了一个qualifier为C的数据，接着在T+X的时间点删除这个qualifier，此时查询[0,T+1)时间段的数据将不会返回qualifier为C的这个KV对。

HBASE-4536 https://issues.apache.org/jira/browse/HBASE-4536解决了这个问题，可以通过在shell里建表时加上 KEEP_DELETED_CELLS=>true或在java client上调用时加上HColumnDescriptor.setKeepDeletedCells(true)。这样，被删除的数据在基于时间的历史数据查询中依然可见(当然要保证delete marker的时间戳不在历史查询的时间范围内)。就刚才的例子来说，加上这个支持后，查询[0,T+1)时间段的数据将会返回C，而查询[0,T+X+1)时间段的数据将不会返回C，因为在该时间点，C也已经被删除了。

将表的属性KEEP_DELETED_CELLS设置为on,是为了使 flashback queries能返回正确的结果

关于hbase 的一些基本概念

Hbase主要部件组成

HBase的压缩

HBASE的删除

HBASE的删除意义

HBASE的删除种类

如何基于时间查询已经查询的数据

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

关于hbase 的一些基本概念

Hbase主要部件组成

HBase的压缩

HBASE的删除

HBASE的删除意义

HBASE的删除种类

如何基于时间查询已经查询的数据

热门文章

最新文章

相关课程

相关电子书