云计算与大数据实验七 HBase的安装与基本操作

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 云计算与大数据实验七 HBase的安装与基本操作

一、实验目的

  1. 回顾HadoopZookeeper安装与配置
  2. 掌握HBase安装与配置
  3. 理解HBase工作原理
  4. 掌握HBase表的基本操作

二、实验内容

  1. HBase安装与配置
  2. 使用HBase shell指令创建表
  3. 使用HBase shell命令添加/删除数据
  4. 使用命令删除表

三、实验步骤

(一)HBase安装与配置

HBase安装

HBase的安装也分为三种,单机版、伪分布式、分布式;我们先来安装单机版。

单机版安装

首先我们去官网下载HBase的安装包;

接下来,将压缩包解压缩到你想安装的目录

1. mkdir /app
2. cd /opt
3. ulimit -f 1000000
4. tar -zxvf hbase-2.1.1-bin.tar.gz -C /app

安装单机版很简单,我们只需要配置JDK的路径即可,我们将JDK的路径配置到conf/下的hbase-env.sh中。

我们先输入echo $JAVA_HOME来复制JAVA_HOME的路径,以方便之后的配置:

接着我们编辑HBase conf目录下的hbase-env.sh文件,将其中的JAVA_HOME指向到你Java的安装目录,最后保存设置:

vim /app/hbase-2.1.1/conf/hbase-env.sh

然后编辑hbase-site.xml文件,在<configuration>标签中添加如下内容:

1. <configuration>
2.   <property>
3.        <name>hbase.rootdir</name>
4.        <value>file:///root/data/hbase/data</value>
5.   </property>
6.   <property>
7.        <name>hbase.zookeeper.property.dataDir</name>
8.        <value>/root/data/hbase/zookeeper</value>
9.   </property>
10.   <property>    
11.   <name>hbase.unsafe.stream.capability.enforce</name>
12.         <value>false</value>
13.   </property>
14. </configuration>

以上各参数的解释:

  • hbase.rootdir:这个目录是region server的共享目录,用来持久化HbaseURL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 /hbase目录,namenode运行在namenode.example.org9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下Hbase是写到/tmp的。不改这个配置,数据会在重启的时候丢失;
  • hbase.zookeeper.property.dataDirZooKeeperzoo.conf中的配置。快照的存储位置,默认是:${hbase.tmp.dir}/zookeeper
  • hbase.unsafe.stream.capability.enforce:控制HBase是否检查流功能(hflush / hsync),如果您打算在rootdir表示的LocalFileSystem上运行,那就禁用此选项。

配置好了之后我们就可以启动HBase了,在启动之前我们可以将Hbasebin目录配置到/etc/profile中,这样更方便我们以后操作。 在etc/profile的文件末尾添加如下内容:

1. # SET HBASE_enviroment
2. HBASE_HOME=/app/hbase-2.1.1
3. export PATH=$PATH:$HBASE_HOME/bin

HBASE_HOME为你自己本机Hbase的地址。

不要忘了,source /etc/profile使刚刚的配置生效。

接下来我们就可以运行HBase来初步的体验它的功能了:

在命令行输入start-hbase.sh来启动HBase,接着输入jps查看是否启动成功,出现了HMaster进程即表示启动成功了。

启动成功之后,咱们就可以对Hbase进行一些基本的操作了。

根据上述步骤安装配置好HBase数据库,并启动成功。

请注意,HBase非常消耗资源,所以你在长时间没使用命令行后台会回收资源,如果你想保持环境不被注销,请在弹出延时窗口时点击延时,并且保持操作命令行,这样可以保持你的环境一直持续。

相关代码:

1. 1. #创建 app 目录
2. 2. mkdir /app
3. 3. #进入 /opt 目录下
4. 4. cd /opt
5. 5. #解压 Hbase 压缩包
6. 6. tar -zxvf hbase-2.1.1-bin.tar.gz -C /app
7. 7. #编辑hbase-env.sh配置文件
8. 8. vi /app/hbase-2.1.1/conf/hbase-env.sh
9. 9. 
10. 10. #进入后配置配置
11. 11. export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_111
12. 12. 
13. 13. #编辑hbase-site.xml配置文件
14. 14. vi /app/hbase-2.1.1/conf/hbase-site.xml
15. 15. 
16. 16. <configuration>
17. 17.   <property>
18. 18.        <name>hbase.rootdir</name>
19. 19.        <value>file:///root/data/hbase/data</value>
20. 20.   </property>
21. 21.   <property>
22. 22.        <name>hbase.zookeeper.property.dataDir</name>
23. 23.        <value>/root/data/hbase/zookeeper</value>
24. 24.   </property>
25. 25.   <property>
26. 26.   <name>hbase.unsafe.stream.capability.enforce</name>
27. 27.         <value>false</value>
28. 28.   </property>
29. 29. </configuration>
30. 30. 
31. 31. 
32. 32. 
33. 33. #配置Hbase环境变量
34. 34. vi /etc/profile
35. 35. 
36. 36. HBASE_HOME=/app/hbase-2.1.1
37. 37. export PATH=$PATH:$HBASE_HOME/bin
38. 38. 
39. 39. #是环境变量生效
40. 40. source /etc/profile
41. 41. 
42. 42. #启动HBase(环境变量配置好后)
43. 43. start-hbase.sh

(二)使用HBase shell指令创建表

Hbase shell操作

启动HBase之后,我们输入hbase shell进入到Hbase shell命令行窗口:

在这里我们输入hbase shell会启动一个加入了一些Hbase特有命令的JRuby JRB解释器,输入help然后按回车键可以查看已分组的shell环境的命令列表。

现在,我们来创建一个简单的表。

要新建一个表,首先必须要给它起个名字,并为其定义模式,一个表的模式包含表的属性和列族的列表。

例如:我们想要新建一个名为test的表,使其中包含一个名为data的列,表和列族属性都为默认值,则可以使用如下命令:

创建完毕之后我们可以输入list来查看表是否创建成功:

编程要求

然后继续在HBase中创建两张表,表名分别为:dept,emp,列都为:data

相关代码:

1. 1. # 启动 HBase
2. 2. start-hbase.sh
3. 3. # 进入 hbase shell
4. 4. hbase shell
5. 5. create 'test','data'
6. 6. create 'dept','data'
7. 7. create 'emp','data'
8. 8. 
9. 9. 
10. 10. # 退出
11. 11. exit

(三)使用HBase shell命令添加/删除数据

添加数据

我们来给上一步创建的test表的列data添加一些数据:

从上面例子我们可以看出,使用put命令可以用来添加数据,使用get命令可以获取数据。

当然我们肯定还会有一个需求:查看所有的数据。

输入scan命令就可以查看所有的数据了。

删除数据、删除表

我们经常会添加错数据,想要删除然后重新添加应该怎么做呢?

删除整行数据:

deleteall 'test','row1'

指令:deleteall 表名,行名称即可删除整行数据。

有时候我们还想将创建好的表删除,怎么做呢?

为了移除test这个表,首先我们要把它设为禁用,然后在删除:

可以发现删除表需要两个步骤:

  1. disable 表名
  2. drop 表名

接着我们ctrl + c或者 输入exit退出HBase shell命令行。

编程要求

HBase中创建表mytable,列为data,并在列族data中添加三行数据:

  • 行号分别为:row1row2row3
  • 列名分别为:data:1data:2data:3
  • 值分别为:zhangsanzhangsanfengzhangwuji

预期输出:

row1column=data:1,value=zhangsanrow2column=data:2,value=zhangsanfengrow3column=data:3,value=zhangwuji3row(s)

row1column=data:1,value=zhangsanrow2column=data:2,value=zhangsanfengrow3column=data:3,value=zhangwuji3row(s)

相关代码:

1. 1. # 启动 HBase
2. 2. start-hbase.sh
3. 3. # 进入 hbase shell
4. 4. hbase shell
5. 5. create 'mytable','data'
6. 6. put 'mytable','row1','data:1','zhangsan'
7. 7. put 'mytable','row2','data:2','zhangsanfeng'
8. 8. put 'mytable','row3','data:3','zhangwuji'
9. 9. 
10. 10. 
11. 11. 
12. 12. # 退出
13. exit

四、实验心得

会使用HBase shell指令创建表

会使用HBase shell命令添加/删除数据

会使用命令删除表

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
14天前
|
存储 人工智能 大数据
物联网、大数据、云计算、人工智能之间的关系
物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征,又能在不同层面上相互融合,共同推动信息技术的发展和应用。
123 0
|
23天前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
32 3
|
6月前
|
存储 大数据 云计算
大数据与云计算
大数据与云计算
201 2
|
3月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
54 1
|
6月前
|
存储 大数据 数据挖掘
云计算与大数据:从基础设施到实际应用
云计算与大数据:从基础设施到实际应用
988 0
|
5月前
|
机器学习/深度学习 存储 算法
云计算和大数据处理
云计算和大数据处理
95 1
|
5月前
|
存储 资源调度 大数据
云计算在大数据分析中的弹性资源调度策略
云计算在大数据分析中的弹性资源调度策略
|
6月前
|
存储 机器学习/深度学习 大数据
云计算与大数据:合作与创新
本文探讨了大数据技术与云计算的背景和发展,大数据的5V特征(量、速度、多样、复杂、不确定)及云计算的3S特点(服务、共享、可扩展)。两者相互依赖,云计算为大数据提供计算与存储资源。核心算法涉及分布式计算、数据挖掘和机器学习,如线性回归、逻辑回归等。通过代码示例展示了Hadoop的MapReduce、Scikit-learn的KNN和TensorFlow的线性回归应用。未来趋势包括数据量增长、实时处理、AI与ML集成及数据安全挑战。附录解答了大数据、云计算等相关问题。
510 3
|
6月前
|
Linux 云计算 Windows
|
6月前
|
存储 Java Linux
Linux安装HBase的详细教程及常用方法
Linux安装HBase的详细教程及常用方法
632 1