HBase知识点集中总结

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

  好程序员大数据培训分享:HBase知识点集中总结,HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
  与FUJITSU Cliq等商用大数据产品不同,HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。
一、hbase的特性
1、hbase数据的终持久化存储是基于hsfs文件系统,存储容量几乎无限,可以随时在线扩容。
2、hbase的数据增删改查功能模块是分布式系统。
3、nosql数据库,表结构。
二、HBase的存储
HBase中的所有数据文件都存储在Hadoop HDFS文件系统上。

  1. HFile, HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制格式文件,实际上StoreFile就是对HFile做了轻量级包装,即StoreFile底层就是HFile。
  2. HLog File,HBase中WAL(Write Ahead Log) 的存储格式,物理上是Hadoop的Sequence File。
    三、HBase工作机制

hbase工作机制详细解析:
1、hbase的整体工作机制是接受客户端发来的请求命令,从hdfs中读取表文件信息返回给客户端;
2、每个hbase服务器负责表文件中对应region区域,hdfs上表文件的存储也是分为每个region单独存储,每个region中又分为多个列族存储;
3、hbase集群中有两种角色,regionserver和master,regionserver负责响应客户端请求,读取表文件;
master负责监控regionserver的状态,以便及时处理掉线的regionserver,保证hbase集群正常运行;当一个region挂掉时,master会及时监控到,这里利用了zookeeper管理regionserver状态信息。
  当一个master挂掉时,不会影响客户端查数据,但如果此时regionserver挂掉,master又不能及时监控到,便会影响数据查询;解决方法就是再设置一台master,一台active状态,一台standby状态用作备用,当active的master挂掉,standby的master将会变为active状态,监控regionserver。
4、master和zookeeper就组成了高可用。
大数据开发之路不易,大家且行且珍惜。好程序员精心打造大数据学习路线,为大家的学习保驾护航。

相关文章
|
存储 分布式计算 大数据
HBase分布式数据库关键技术与实战:面试经验与必备知识点解析
【4月更文挑战第9天】本文深入剖析了HBase的核心技术,包括数据模型、分布式架构、访问模式和一致性保证,并探讨了其实战应用,如大规模数据存储、实时数据分析及与Hadoop、Spark集成。同时,分享了面试经验,对比了HBase与其他数据库的差异,提出了应对挑战的解决方案,展望了HBase的未来趋势。通过Java API代码示例,帮助读者巩固理解。全面了解和掌握HBase,能为面试和实际工作中的大数据处理提供坚实基础。
663 3
|
分布式数据库 Hbase
HBase sequenceId知识点略记
在HBase中,sequenceId是实现一致性的灵魂,这里的一致性有两方面意思: 顺序性,即先写的先被读到,未提交的写不能被读到; 完整性,包含如下几点; 未持久化到hfile的数据,对应的wal文件不能删除 如果由于wal文件过多需要清理,则需要先把对应的数据持久化 异常恢复过程中,需要.
1897 0
|
存储 SQL 分布式数据库
记录一次 Hbase 线上问题的分析和解决,并分析总结下背后的知识点 - KeyValue size too large
记录一次 Hbase 线上问题的分析和解决,并分析总结下背后的知识点 - KeyValue size too large
|
存储 SQL 分布式计算
一文让您全面了解清楚HBase数据库的所有知识点,值得收藏!
一文让您全面了解清楚HBase数据库的所有知识点,值得收藏!
216 0
|
存储 分布式计算 监控
好程序员大数据纪实:HBase知识点集中总结
好程序员大数据纪实: HBase知识点集中总结, HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。    与 FUJITSU Cliq等商用大数据产品不同,HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中
157 0
|
存储 人工智能 大数据
一文让您全面了解清楚HBase数据库的所有知识点,值得收藏!
欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! 一、HBase基本概念:列式数据库 在Hadoop生态体系结构中,HBase位于HDFS(Hadoop分布式文件系统)的上一层,不依赖于MapReduce,那么如果没有HBase这种Nosql数据库会有什么影响呢?传统的关系型数据库由于存储数据有限,且其分布式结构由于本身的特点导致节点数量最大不会超过一百个,例如分布式的oracle数据库只能部署一百个节点等等。
2106 0
|
11天前
|
分布式计算 Java Hadoop
java使用hbase、hadoop报错举例
java使用hbase、hadoop报错举例
51 6
|
5月前
|
分布式计算 Ubuntu Hadoop
Ubuntu22.04下搭建Hadoop3.3.6+Hbase2.5.6+Phoenix5.1.3开发环境的指南
呈上,这些步骤如诗如画,但有效且动人。仿佛一个画家在画布上描绘出一幅完美的画面,这就是你的开发环境。接下来,尽情去创造吧,祝编程愉快!
260 19
|
分布式计算 Java Hadoop
java使用hbase、hadoop报错举例
java使用hbase、hadoop报错举例
261 4
|
12月前
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
253 4