Hive的安装与配置

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: Hive的安装与配置

1:Hive的安装与配置

任务描述

本关任务:在已安装Hadoop的基础上安装配置好Hive并运行。


相关知识

为了完成本关任务,你需要掌握:

1.Hive的基本安装;

2.Mysql的安装与设置;

3.Hive 的配置。

注意:本关实训Hive的安装与配置建立在Hadoop已安装配置好的情况下。


Hive 的基本安装

从 官网 下载Hive二进制包,不过这里你无须再从网上下载,我已经帮你下载好了放在/opt目录下。

进入/opt目录,解压apache-hive-3.1.0-bin.tar.gz到该目录下,并将解压的文件重命名为hive;

cd /opt
tar -zxvf apache-hive-3.1.0-bin.tar.gz
mv apache-hive-3.1.0-bin hive


设置环境变量,编辑vi /etc/profile,在末尾添加以下两行代码;

export HIVE_HOME=/opt/hive
export PATH=$HIVE_HOME/bin:$PATH
source /etc/profile使环境生效;

查看hive是否安装成功:hive --version。


出现hive版本就说明安装成功,但是可以看到其中有一些警告信息,是由于包的冲突引起的。我们只需删除掉引起冲突的包即可:rm /opt/hive/lib/log4j-slf4j-impl-2.10.0.jar。


Mysql 的安装与设置

平台已安装MySQL数据库,同学们在本地没有安装可以采用以下命令进行安装:

sudo apt-get install mysql-server   #安装mysql服务
apt-get install mysql-client        #安装mysql客户端
sudo apt-get install libmysqlclient-dev  #安装相关依赖环境


注意:安装过程中会提示设置密码什么的,不要忘了设置。

安装完成之后可以使用如下命令来检查是否安装成功。

sudo netstat -tap | grep mysql

通过上述命令检查之后,如果看到有MySQL的socket处于listen 状态则表示安装成功。


Hive需要数据库来存储metastore的内容,因此我们需要配置一下MySQL数据库。


下载mysql驱动;


我已经帮你下载好放在/opt目录下,进入该目录并进行以下操作:

tar -zxvf mysql-connector-java-5.1.45.tar.gz
cd mysql-connector-java-5.1.45
cp mysql-connector-java-5.1.45-bin.jar /opt/hive/lib/


接下来介绍MySQL为Hive做的设置。

使用root用户登录MySQL数据库;

mysql -uroot -p123123 -h127.0.0.1


创建数据库实例hiveDB;

create database hiveDB;


创建用户bee,密码为123123;

create user 'bee'@'%' identified by '123123';


授权用户bee拥有数据库实例hiveDB的所有权限;

grant all privileges on hiveDB.* to 'bee'@'%' identified by '123123';


刷新系统权限表。

flush privileges;


Hive 的配置

在/opt/hive/conf目录下,修改hive-site.xml和hive-env.sh两个文件。


hive-site.xml

hive-site.xml保存Hive运行时所需要的相关配置信息。

如果目录下没有该文件,我们直接创建一个:vi hive-site.xml,将以下内容复制到其中(按i进入编辑模式后再进行粘贴)。

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- WARNING!!! This file is auto generated for documentation purposes ONLY! -->
<!-- WARNING!!! Any changes you make to this file will be ignored by Hive.   -->
<!-- WARNING!!! You must make your changes in hive-site.xml instead.         -->
<!-- Hive Execution Parameters -->
 <property>
 <name>hive.metastore.warehouse.dir</name>
 <value>/opt/hive/warehouse</value>
 </property>
 <property>
 <name>hive.exec.scratchdir</name>
 <value>/opt/hive/tmp</value>
 </property>
 <property>
 <name>hive.querylog.location</name>
 <value>/opt/hive/logs</value>
 </property>
 <property>
 <name>hive.server2.thrift.port</name>
 <value>10000</value>
 </property>
 <property>
 <name>hive.server2.thrift.bind.host</name>
 <value>localhost</value>
 </property>
 <property>
 <name>hive.server2.enable.doAs</name>
 <value>true</value>
 </property>
 <property>
 <name>hive.session.id</name>
 <value>false</value>
 </property>
 <property>
 <name>hive.session.silent</name>
 <value>false</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionURL</name>
 <value>jdbc:mysql://localhost:3306/hiveDB?createDatabaseIfNotExist=true</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionDriverName</name>
 <value>com.mysql.jdbc.Driver</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionUserName</name>
 <value>bee</value>
 <!-- 这里是之前设置的数据库 -->
 </property>
 <property>
 <name>javax.jdo.option.ConnectionPassword</name>
 <!-- 这里是数据库密码 -->
 <value>123123</value>
 </property>
</configuration>

完成后,在命令行模式(按 Esc),输入:wq保存退出。


hive-env.sh

由于Hive是一个基于Hadoop分布式文件系统的数据仓库架构,主要运行在 Hadoop分布式环境下,因此,需要在文件hive-env.sh中指定Hadoop相关配置文件的路径,用于Hive访问HDFS(读取fs.defaultFS属性值)和 MapReduce(读取mapreduce.jobhistory.address属性值)等Hadoop 相关组件。


如果目录下没有该文件,我们就以模板复制一个cp hive-env.sh.template hive-env.sh。vi hive-env.sh打开文件,在文件末尾添加变量指向 Hadoop 的安装路径:

HADOOP_HOME=/usr/local/hadoop #在本地环境安装,要根据自己hadoop的路径来确定

至此Hive配置完成。 第一次启动Hive前还需要执行初始化命令:schematool -dbType mysql -initSchema。


编程要求

请仔细阅读左侧文档知识点,根据提示,在右侧命令行区域进行 Hive 环境搭建,具体任务如下:

根据上述步骤完成Hive的安装与配置

然后在命令行start-dfs.sh启动 Hadoop

点击测评,验证hive是否成功安装配置。


参考命令

cd /opt
tar -zxvf apache-hive-3.1.0-bin.tar.gz
mv apache-hive-3.1.0-bin hive
vi /etc/profile
i
#在末尾添加以下两行代码:
export HIVE_HOME=/opt/hive
export PATH=$HIVE_HOME/bin:$PATH
Esc
:
wq
source /etc/profile
rm /opt/hive/lib/log4j-slf4j-impl-2.10.0.jar
apt-get install mysql-server
apt-get install mysql-client
apt-get install libmysqlclient-dev 
netstat -tap | grep mysql
tar -zxvf mysql-connector-java-5.1.45.tar.gz
cd mysql-connector-java-5.1.45
cp mysql-connector-java-5.1.45-bin.jar /opt/hive/lib/
mysql -uroot -p123123 -h127.0.0.1
create database hiveDB;
create user 'bee'@'%' identified by '123123';
grant all privileges on hiveDB.* to 'bee'@'%' identified by '123123';
flush privileges;
exit
cd /opt/hive/conf
vim hive-site.xml
i
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <property>
 <name>hive.metastore.warehouse.dir</name>
 <value>/opt/hive/warehouse</value>
 </property>
 <property>
 <name>hive.exec.scratchdir</name>
 <value>/opt/hive/tmp</value>
 </property>
 <property>
 <name>hive.querylog.location</name>
 <value>/opt/hive/logs</value>
 </property>
 <property>
 <name>hive.server2.thrift.port</name>
 <value>10000</value>
 </property>
 <property>
 <name>hive.server2.thrift.bind.host</name>
 <value>localhost</value>
 </property>
 <property>
 <name>hive.server2.enable.doAs</name>
 <value>true</value>
 </property>
 <property>
 <name>hive.session.id</name>
 <value>false</value>
 </property>
 <property>
 <name>hive.session.silent</name>
 <value>false</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionURL</name>
 <value>jdbc:mysql://localhost:3306/hiveDB?createDatabaseIfNotExist=true</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionDriverName</name>
 <value>com.mysql.jdbc.Driver</value>
 </property>
 <property>
 <name>javax.jdo.option.ConnectionUserName</name>
 <value>bee</value>
 <!-- 这里是之前设置的数据库 -->
 </property>
 <property>
 <name>javax.jdo.option.ConnectionPassword</name>
 <!-- 这里是数据库密码 -->
 <value>123123</value>
 </property>
</configuration>
Esc
:
wq
cp hive-env.sh.template hive-env.sh
vim hive-env.sh
i
#末尾添加:
HADOOP_HOME=/usr/local/hadoop
Esc
:
wq
schematool -dbType mysql -initSchema
start-dfs.sh


2:Hive Shell入门基础命令

任务描述

本关任务:按照编程要求,在Hive下创建表。


相关知识

Hive Shell运行在Hadoop集群环境上,是Hive提供的命令行接口(CLI),在Hive提示符输入HiveQL命令,Hive Shell把HQL查询转换为一系列MapReduce作业对任务进行并行处理,然后返回处理结果。

为了完成本关任务,你需要掌握:Hive Shell常用命令 。


Hive Shell 常用命令

注意:Hive命令必须以分号;结束。


启动 Hive Shell:hive;


出现hive>说明启动成功。


查询数据库:show databases;;


查询表:show tables;;


因为该数据库下没有创建表,所以输出结果为0行。


创建数据库mydb:create database mydb;;


删除数据库mydb:drop database mydb;;

创建表mytable,有id字段,数据类型为int:create table mytable(id int);


删除表mytable:drop table mytable;;


退出 Hive Shell:exit;。


Hive Shell 非交互式运行

我们也可以不启动Hive Shell,直接在Linux的命令行操作Hive。


hive -e ‘show databases;’;


在Hive的交互式模式和非交互式模式下,执行HiveQL操作都会输出执行过程信息,如执行查询操作所用时间,通过指定-S选项可以禁止输出此类信息。


hive -S -e ‘show databases;’。


编程要求

请根据左侧知识点的描述,在右侧命令行中使用 Hive 进行创表 ,具体任务如下:

在Hive Shell下创建一个表student,表结构如下:

col_name data_type
id int
name string
age int


参考命令

hive
create table student(
id int,
name string,
age int);


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
7月前
|
SQL 数据库 HIVE
记录hive数据库远程访问配置问题
记录hive数据库远程访问配置问题
163 0
|
2月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
49 3
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
80 3
|
2月前
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
64 2
|
7月前
|
SQL HIVE
|
5月前
|
SQL 分布式计算 关系型数据库
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
77 2
|
6月前
|
SQL 分布式计算 关系型数据库
分布式系统详解 -- Hive1.2.1 安装
分布式系统详解 -- Hive1.2.1 安装
72 1
|
7月前
|
SQL 分布式计算 关系型数据库
Ubuntu上安装MySQL以及hive
Ubuntu上安装MySQL以及hive
|
7月前
|
SQL 存储 分布式计算
Hive详解、配置、数据结构、Hive CLI
Hive详解、配置、数据结构、Hive CLI
133 0
Hive详解、配置、数据结构、Hive CLI
|
7月前
|
SQL 分布式计算 资源调度
一文看懂 Hive 优化大全(参数配置、语法优化)
以下是对提供的内容的摘要,总长度为240个字符: 在Hadoop集群中,服务器环境包括3台机器,分别运行不同的服务,如NodeManager、DataNode、NameNode等。集群组件版本包括jdk 1.8、mysql 5.7、hadoop 3.1.3和hive 3.1.2。文章讨论了YARN的配置优化,如`yarn.nodemanager.resource.memory-mb`、`yarn.nodemanager.vmem-check-enabled`和`hive.map.aggr`等参数,以及Map-Side聚合优化、Map Join和Bucket Map Join。
386 0
下一篇
DataWorks