大数据编程技术基础实验七:HBase实验——部署HBase

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 大数据技术基础实验七,.掌握HBase集群安装部署及HBase Shell的一些常用命令的使用。

一、前言

本期大数据编程技术基础实验的内容是HBase的部署,内容比较简单,但会用到之前实验的东西,所以大家在学习这些知识前,要懂得如何去部署这些大数据组件,并熟练的掌握linux命令。

二、实验目的

  1. 掌握HBase基础简介及体系架构
  2. 掌握HBase集群安装部署及HBase Shell的一些常用命令的使用
  3. 了解HBase和HDFS及Zookeeper之间的关系

三、实验要求

  1. 巩固前面所学实验
  2. 部署一个主节点,三个子节点的HBase集群,并引用外部Zookeeper
  3. 进入HBase Shell通过命令练习创建表、插入数据及查询等命令。

四、实验原理

简介:HBase是基于Hadoop的开源分布式数据库,它以Google的BigTable为原型,设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,它是基于列而不是基于行的模式,适合存储非结构化数据。

体系结构:HBase是一个分布式的数据库,使用Zookeeper管理集群,使用HDFS作为底层存储,它由HMaster和HRegionServer组成,遵从主从服务器架构。HBase将逻辑上的表划分成多个数据块即HRegion,存储在HRegionServer中。HMaster负责管理所有的HRegionServer,它本身并不存储任何数据,而只是存储数据到HRegionServer的映射关系(元数据)。HBase的基本架构如图所示:

image-20221003103601263.png

五、实验步骤

本实验主要演示HBase的安装部署过程,因HBase依赖于HDFS和Zookeeper,所以该实验需要分为四个步骤。

首先,配置SSH无密钥登录。

其次,安装Hadoop集群。

然后,安装Zookeeper集群。

最后,修改HBase配置文件。

前三个步骤我就不再演示了,而且我们学习的大数据平台支持一键搭建,所以前面的步骤也不用再进行,如果需要自己进行配置环境的话,请移步到我之前的大数据技术基础实验,里面有详细过程:

往期的实验博客都在这个专栏里面:大数据技术基础

1、点击一键搭建按钮,等待搭建完成,通过jps命令验证Hadoop已启动

image-20221003153339230.png

image-20221003153347929.png

image-20221003153356282.png

2、修改HBase配置文件

具体操作如下:

将HBase 安装包hbase.1.1.2.tar.gz解压到/usr/cstor目录,并将hbase.1.1.2目录改名为hbase,且所属用户改成root:root。

[root@master ~]#tar -zxvf hbase.1.1.2.tar.gz -c /usr/cstor/hbase[root@master ~]#mv /usr/cstor/hbase.1.1.2 /usr/cstor/hbase[root@master ~]#chown -R root:root /usr/cstor/hbase

以上操作学校平台已经事先做好了。

我们直接进入到hbase目录下:

image-20221003153913221.png

进入解压目录下,配置conf目录下的/usr/cstor/hbase/conf/hbase-env.sh文件,设置如下:

  • Java安装路径:
exportJAVA_HOME=/usr/local/jdk1.7.0_79 (需根据实际情况指定)

  • image-20221003155018312.png
  • 不使用HBase自带的Zookeeper:
exportHBASE_MANAGES_ZK=false

  • image-20221003155116431.png

配置conf目录下的hbase-site.xml文件,设置如下:

<configuration>
   <property>
      <name>hbase.rootdir</name>
      <value>hdfs://master:8020/hbase</value>
   </property>
   <property>
      <name>hbase.cluster.distributed</name>
      <value>true</value>
   </property>
   <property>
      <name>hbase.zookeeper.quorum</name>
      <value>slave1,slave2,master</value>
   </property>
   <property>
      <name>hbase.tmp.dir</name>
      <value>/usr/cstor/hbase/data/tmp</value>
   </property>
</configuration>

image-20221003155300131.png

配置conf目录下的regionservers文件,设置如下:

image-20221003155359837.png

配置完成后,将hbase目录传输到集群的其它节点:

scp -r /usr/cstor/hbase root@slave1:/usr/cstor
scp -r /usr/cstor/hbase root@slave2:/usr/cstor

image-20221003155606398.png

接着,启动HBase,并简单验证HBase,如下:

在主节点master进入hbase解压目录的bin目录,启动HBase服务进程(已启动Zookeeper):

[root@master ~]#cd /usr/cstor/hbase/bin[root@master ~]#./start-hbase.sh

image-20221003155712780.png

通过以下命令进入HBase shell界面:

./hbase shell

在shell里创建表:

create 'testhbase' , 'f1'

查询所有表名:

list

查看表结构信息:

describe 'testhbase'

在shell里插入数据:

put 'testhbase', '001', 'f1:name', 'aaa'

在shell里查询:

scan 'testhbase'

删除表,先disable再drop:

disable 'testhbase'drop 'testhbase'

image-20221007102909914.png

image-20221007103030305.png

HBase安装成功后,可以通过访问HBase WEB页面(http://master:16010) 来查看HBase集群的一些基本情况,网址中的master为你的master节点IP。

image-20221007103155902.png

六、最后我想说

本期实验就到这里结束,另外需要注意的是,如果你在最后进入HBase shell界面或者后面创建表的时候出现了错误,请务必检查一下服务器的其他组件是否正常运行,需要注意的就是master节点是否正常,如果解决不了的话,可以尝试重新搭建环境。

最后,关于状态的事,我会利用周末的时间好好的调整一下自己的状态的,从下周开始就要继续正常学习生活了,人生并不是处处顺风,所以我们需要抗住压力,勇往直前,决不放弃,相信自己并不差,这句话送给我,也送给你们。

谢谢你们看完,我会继续加油的。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
29天前
|
人工智能 搜索推荐 算法
数据平台演进问题之数据库技术面临挑战如何解决
数据平台演进问题之数据库技术面临挑战如何解决
|
2天前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
11 1
|
9天前
|
消息中间件 监控 大数据
"探索Streaming技术:如何重塑大数据未来,实时处理引领数据价值即时转化新纪元"
【8月更文挑战第10天】信息技术高速发展,数据成为推动社会进步的关键。面对数据爆炸,高效实时处理成挑战。流处理(Streaming)技术应运而生,即时处理数据流,无需积累。应用于实时监控、日志分析等场景。例如,电商平台利用流处理分析用户行为,推送个性化推荐;智能交通系统预测拥堵。结合Apache Kafka和Flink,实现从数据收集到复杂流处理的全过程。流处理技术促进数据即时价值挖掘,与AI、云计算融合,引领大数据未来发展。
27 5
|
22天前
|
机器学习/深度学习 存储 分布式计算
驾驭数据洪流:大数据处理的技术与应用
大数据处理不仅是信息技术领域的一个热门话题,也是推动各行各业创新和发展的重要力量。随着技术的进步和社会需求的变化,大数据处理将继续发挥其核心作用,为企业创造更多的商业价值和社会贡献。未来,大数据处理将更加注重智能化、实时性和安全性,以应对不断增长的数据挑战。
|
21天前
|
传感器 大数据 数据处理
大数据处理中的流计算技术:实现实时数据处理与分析
【7月更文挑战第30天】随着分布式系统、云原生技术、数据安全与隐私保护技术的不断发展,流计算技术将在更多领域得到应用和推广,为大数据处理和分析提供更加高效、智能的解决方案。
|
29天前
|
机器学习/深度学习 人工智能 数据可视化
大数据时代的数据可视化技术:趋势、挑战与未来展望
【7月更文挑战第22天】随着技术的不断进步和应用场景的不断拓展,数据可视化技术将在更多领域发挥更大的作用。未来,我们可以期待更加智能化、实时化、沉浸式和民主化的数据可视化解决方案的出现。同时,随着数据量的不断增加和数据类型的不断丰富,数据可视化技术也将面临更多的挑战和机遇。只有不断创新和优化技术才能满足日益增长的需求并推动数据可视化技术的持续发展。
|
29天前
|
人工智能 自然语言处理 数据管理
数据平台演进问题之自然语言处理技术在AI驱动的数据库中的作用是什么
数据平台演进问题之自然语言处理技术在AI驱动的数据库中的作用是什么
|
6天前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
19 1
|
13天前
|
机器学习/深度学习 人工智能 分布式计算
理解并利用大数据的力量:解锁数据背后的价值
【8月更文挑战第7天】大数据已成为推动社会进步和经济发展的重要力量。通过理解并利用大数据的力量,企业可以解锁数据背后的价值,优化业务流程、提升决策效率和创新能力。然而,大数据应用也面临着诸多挑战和风险,需要企业不断学习和实践以应对。相信在未来的发展中,大数据将为我们带来更多的惊喜和机遇。
|
13天前
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。