云计算与大数据实验七 HBase的安装与基本操作

本文涉及的产品
云原生网关 MSE Higress,422元/月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 云计算与大数据实验七 HBase的安装与基本操作

一、实验目的

  1. 回顾HadoopZookeeper安装与配置
  2. 掌握HBase安装与配置
  3. 理解HBase工作原理
  4. 掌握HBase表的基本操作

二、实验内容

  1. HBase安装与配置
  2. 使用HBase shell指令创建表
  3. 使用HBase shell命令添加/删除数据
  4. 使用命令删除表

三、实验步骤

(一)HBase安装与配置

HBase安装

HBase的安装也分为三种,单机版、伪分布式、分布式;我们先来安装单机版。

单机版安装

首先我们去官网下载HBase的安装包;

接下来,将压缩包解压缩到你想安装的目录

1. mkdir /app
2. cd /opt
3. ulimit -f 1000000
4. tar -zxvf hbase-2.1.1-bin.tar.gz -C /app

安装单机版很简单,我们只需要配置JDK的路径即可,我们将JDK的路径配置到conf/下的hbase-env.sh中。

我们先输入echo $JAVA_HOME来复制JAVA_HOME的路径,以方便之后的配置:

接着我们编辑HBase conf目录下的hbase-env.sh文件,将其中的JAVA_HOME指向到你Java的安装目录,最后保存设置:

vim /app/hbase-2.1.1/conf/hbase-env.sh

然后编辑hbase-site.xml文件,在<configuration>标签中添加如下内容:

1. <configuration>
2.   <property>
3.        <name>hbase.rootdir</name>
4.        <value>file:///root/data/hbase/data</value>
5.   </property>
6.   <property>
7.        <name>hbase.zookeeper.property.dataDir</name>
8.        <value>/root/data/hbase/zookeeper</value>
9.   </property>
10.   <property>    
11.   <name>hbase.unsafe.stream.capability.enforce</name>
12.         <value>false</value>
13.   </property>
14. </configuration>

以上各参数的解释:

  • hbase.rootdir:这个目录是region server的共享目录,用来持久化HbaseURL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的 /hbase目录,namenode运行在namenode.example.org9090端口。则需要设置为hdfs://namenode.example.org:9000 /hbase。默认情况下Hbase是写到/tmp的。不改这个配置,数据会在重启的时候丢失;
  • hbase.zookeeper.property.dataDirZooKeeperzoo.conf中的配置。快照的存储位置,默认是:${hbase.tmp.dir}/zookeeper
  • hbase.unsafe.stream.capability.enforce:控制HBase是否检查流功能(hflush / hsync),如果您打算在rootdir表示的LocalFileSystem上运行,那就禁用此选项。

配置好了之后我们就可以启动HBase了,在启动之前我们可以将Hbasebin目录配置到/etc/profile中,这样更方便我们以后操作。 在etc/profile的文件末尾添加如下内容:

1. # SET HBASE_enviroment
2. HBASE_HOME=/app/hbase-2.1.1
3. export PATH=$PATH:$HBASE_HOME/bin

HBASE_HOME为你自己本机Hbase的地址。

不要忘了,source /etc/profile使刚刚的配置生效。

接下来我们就可以运行HBase来初步的体验它的功能了:

在命令行输入start-hbase.sh来启动HBase,接着输入jps查看是否启动成功,出现了HMaster进程即表示启动成功了。

启动成功之后,咱们就可以对Hbase进行一些基本的操作了。

根据上述步骤安装配置好HBase数据库,并启动成功。

请注意,HBase非常消耗资源,所以你在长时间没使用命令行后台会回收资源,如果你想保持环境不被注销,请在弹出延时窗口时点击延时,并且保持操作命令行,这样可以保持你的环境一直持续。

相关代码:

1. 1. #创建 app 目录
2. 2. mkdir /app
3. 3. #进入 /opt 目录下
4. 4. cd /opt
5. 5. #解压 Hbase 压缩包
6. 6. tar -zxvf hbase-2.1.1-bin.tar.gz -C /app
7. 7. #编辑hbase-env.sh配置文件
8. 8. vi /app/hbase-2.1.1/conf/hbase-env.sh
9. 9. 
10. 10. #进入后配置配置
11. 11. export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_111
12. 12. 
13. 13. #编辑hbase-site.xml配置文件
14. 14. vi /app/hbase-2.1.1/conf/hbase-site.xml
15. 15. 
16. 16. <configuration>
17. 17.   <property>
18. 18.        <name>hbase.rootdir</name>
19. 19.        <value>file:///root/data/hbase/data</value>
20. 20.   </property>
21. 21.   <property>
22. 22.        <name>hbase.zookeeper.property.dataDir</name>
23. 23.        <value>/root/data/hbase/zookeeper</value>
24. 24.   </property>
25. 25.   <property>
26. 26.   <name>hbase.unsafe.stream.capability.enforce</name>
27. 27.         <value>false</value>
28. 28.   </property>
29. 29. </configuration>
30. 30. 
31. 31. 
32. 32. 
33. 33. #配置Hbase环境变量
34. 34. vi /etc/profile
35. 35. 
36. 36. HBASE_HOME=/app/hbase-2.1.1
37. 37. export PATH=$PATH:$HBASE_HOME/bin
38. 38. 
39. 39. #是环境变量生效
40. 40. source /etc/profile
41. 41. 
42. 42. #启动HBase(环境变量配置好后)
43. 43. start-hbase.sh

(二)使用HBase shell指令创建表

Hbase shell操作

启动HBase之后,我们输入hbase shell进入到Hbase shell命令行窗口:

在这里我们输入hbase shell会启动一个加入了一些Hbase特有命令的JRuby JRB解释器,输入help然后按回车键可以查看已分组的shell环境的命令列表。

现在,我们来创建一个简单的表。

要新建一个表,首先必须要给它起个名字,并为其定义模式,一个表的模式包含表的属性和列族的列表。

例如:我们想要新建一个名为test的表,使其中包含一个名为data的列,表和列族属性都为默认值,则可以使用如下命令:

创建完毕之后我们可以输入list来查看表是否创建成功:

编程要求

然后继续在HBase中创建两张表,表名分别为:dept,emp,列都为:data

相关代码:

1. 1. # 启动 HBase
2. 2. start-hbase.sh
3. 3. # 进入 hbase shell
4. 4. hbase shell
5. 5. create 'test','data'
6. 6. create 'dept','data'
7. 7. create 'emp','data'
8. 8. 
9. 9. 
10. 10. # 退出
11. 11. exit

(三)使用HBase shell命令添加/删除数据

添加数据

我们来给上一步创建的test表的列data添加一些数据:

从上面例子我们可以看出,使用put命令可以用来添加数据,使用get命令可以获取数据。

当然我们肯定还会有一个需求:查看所有的数据。

输入scan命令就可以查看所有的数据了。

删除数据、删除表

我们经常会添加错数据,想要删除然后重新添加应该怎么做呢?

删除整行数据:

deleteall 'test','row1'

指令:deleteall 表名,行名称即可删除整行数据。

有时候我们还想将创建好的表删除,怎么做呢?

为了移除test这个表,首先我们要把它设为禁用,然后在删除:

可以发现删除表需要两个步骤:

  1. disable 表名
  2. drop 表名

接着我们ctrl + c或者 输入exit退出HBase shell命令行。

编程要求

HBase中创建表mytable,列为data,并在列族data中添加三行数据:

  • 行号分别为:row1row2row3
  • 列名分别为:data:1data:2data:3
  • 值分别为:zhangsanzhangsanfengzhangwuji

预期输出:

row1column=data:1,value=zhangsanrow2column=data:2,value=zhangsanfengrow3column=data:3,value=zhangwuji3row(s)

row1column=data:1,value=zhangsanrow2column=data:2,value=zhangsanfengrow3column=data:3,value=zhangwuji3row(s)

相关代码:

1. 1. # 启动 HBase
2. 2. start-hbase.sh
3. 3. # 进入 hbase shell
4. 4. hbase shell
5. 5. create 'mytable','data'
6. 6. put 'mytable','row1','data:1','zhangsan'
7. 7. put 'mytable','row2','data:2','zhangsanfeng'
8. 8. put 'mytable','row3','data:3','zhangwuji'
9. 9. 
10. 10. 
11. 11. 
12. 12. # 退出
13. exit

四、实验心得

会使用HBase shell指令创建表

会使用HBase shell命令添加/删除数据

会使用命令删除表

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
5月前
|
Java 大数据 分布式数据库
Spring Boot 与 HBase 的完美融合:探索高效大数据应用开发的新途径
【8月更文挑战第29天】Spring Boot是一款广受好评的微服务框架,以其便捷的开发体验著称。HBase则是一个高性能的大数据分布式数据库系统。结合两者,可极大简化HBase应用开发。本文将对比传统方式与Spring Boot集成HBase的区别,展示如何在Spring Boot中优雅实现HBase功能,并提供示例代码。从依赖管理、连接配置、表操作到数据访问,Spring Boot均能显著减少工作量,提升代码可读性和可维护性,使开发者更专注业务逻辑。
325 1
|
2月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
2月前
|
存储 弹性计算 分布式计算
云计算在大数据处理中的优势与挑战
云计算在大数据处理中的优势与挑战
|
2月前
|
存储 人工智能 大数据
物联网、大数据、云计算、人工智能之间的关系
物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征,又能在不同层面上相互融合,共同推动信息技术的发展和应用。
760 0
|
3月前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
67 3
|
4月前
|
存储 分布式计算 分布式数据库
深入理解Apache HBase:构建大数据时代的基石
在大数据时代,数据的存储和管理成为了企业面临的一大挑战。随着数据量的急剧增长和数据结构的多样化,传统的关系型数据库(如RDBMS)逐渐显现出局限性。
642 12
|
5月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
93 1
|
5月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
61 1
|
6月前
|
存储 NoSQL 大数据
大数据存储:HBase与Cassandra的对比
【7月更文挑战第16天】HBase和Cassandra作为两种流行的分布式NoSQL数据库,在数据模型、一致性模型、数据分布、查询语言和性能等方面各有千秋。HBase适用于需要强一致性和与Hadoop生态系统集成的场景,如大规模数据处理和分析。而Cassandra则更适合需要高可用性和灵活查询能力的场景,如分布式计算、云计算和大数据应用等。在实际应用中,选择哪种数据库取决于具体的需求和场景。希望本文的对比分析能够帮助读者更好地理解这两种数据库,并做出明智的选择。
|
6月前
|
存储 Java 分布式数据库
使用Spring Boot和HBase实现大数据存储
使用Spring Boot和HBase实现大数据存储