1:Hive的安装与配置
任务描述
本关任务:在已安装Hadoop的基础上安装配置好Hive并运行。
相关知识
为了完成本关任务,你需要掌握:
1.Hive的基本安装;
2.Mysql的安装与设置;
3.Hive 的配置。
注意:本关实训Hive的安装与配置建立在Hadoop已安装配置好的情况下。
Hive 的基本安装
从 官网 下载Hive二进制包,不过这里你无须再从网上下载,我已经帮你下载好了放在/opt目录下。
进入/opt目录,解压apache-hive-3.1.0-bin.tar.gz到该目录下,并将解压的文件重命名为hive;
cd /opt tar -zxvf apache-hive-3.1.0-bin.tar.gz mv apache-hive-3.1.0-bin hive
设置环境变量,编辑vi /etc/profile,在末尾添加以下两行代码;
export HIVE_HOME=/opt/hive export PATH=$HIVE_HOME/bin:$PATH source /etc/profile使环境生效;
查看hive是否安装成功:hive --version。
出现hive版本就说明安装成功,但是可以看到其中有一些警告信息,是由于包的冲突引起的。我们只需删除掉引起冲突的包即可:rm /opt/hive/lib/log4j-slf4j-impl-2.10.0.jar。
Mysql 的安装与设置
平台已安装MySQL数据库,同学们在本地没有安装可以采用以下命令进行安装:
sudo apt-get install mysql-server #安装mysql服务 apt-get install mysql-client #安装mysql客户端 sudo apt-get install libmysqlclient-dev #安装相关依赖环境
注意:安装过程中会提示设置密码什么的,不要忘了设置。
安装完成之后可以使用如下命令来检查是否安装成功。
sudo netstat -tap | grep mysql
通过上述命令检查之后,如果看到有MySQL的socket处于listen 状态则表示安装成功。
Hive需要数据库来存储metastore的内容,因此我们需要配置一下MySQL数据库。
下载mysql驱动;
我已经帮你下载好放在/opt目录下,进入该目录并进行以下操作:
tar -zxvf mysql-connector-java-5.1.45.tar.gz cd mysql-connector-java-5.1.45 cp mysql-connector-java-5.1.45-bin.jar /opt/hive/lib/
接下来介绍MySQL为Hive做的设置。
使用root用户登录MySQL数据库;
mysql -uroot -p123123 -h127.0.0.1
创建数据库实例hiveDB;
create database hiveDB;
创建用户bee,密码为123123;
create user 'bee'@'%' identified by '123123';
授权用户bee拥有数据库实例hiveDB的所有权限;
grant all privileges on hiveDB.* to 'bee'@'%' identified by '123123';
刷新系统权限表。
flush privileges;
Hive 的配置
在/opt/hive/conf目录下,修改hive-site.xml和hive-env.sh两个文件。
hive-site.xml
hive-site.xml保存Hive运行时所需要的相关配置信息。
如果目录下没有该文件,我们直接创建一个:vi hive-site.xml,将以下内容复制到其中(按i进入编辑模式后再进行粘贴)。
<?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!-- WARNING!!! This file is auto generated for documentation purposes ONLY! --> <!-- WARNING!!! Any changes you make to this file will be ignored by Hive. --> <!-- WARNING!!! You must make your changes in hive-site.xml instead. --> <!-- Hive Execution Parameters --> <property> <name>hive.metastore.warehouse.dir</name> <value>/opt/hive/warehouse</value> </property> <property> <name>hive.exec.scratchdir</name> <value>/opt/hive/tmp</value> </property> <property> <name>hive.querylog.location</name> <value>/opt/hive/logs</value> </property> <property> <name>hive.server2.thrift.port</name> <value>10000</value> </property> <property> <name>hive.server2.thrift.bind.host</name> <value>localhost</value> </property> <property> <name>hive.server2.enable.doAs</name> <value>true</value> </property> <property> <name>hive.session.id</name> <value>false</value> </property> <property> <name>hive.session.silent</name> <value>false</value> </property> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hiveDB?createDatabaseIfNotExist=true</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>bee</value> <!-- 这里是之前设置的数据库 --> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <!-- 这里是数据库密码 --> <value>123123</value> </property> </configuration>
完成后,在命令行模式(按 Esc),输入:wq保存退出。
hive-env.sh
由于Hive是一个基于Hadoop分布式文件系统的数据仓库架构,主要运行在 Hadoop分布式环境下,因此,需要在文件hive-env.sh中指定Hadoop相关配置文件的路径,用于Hive访问HDFS(读取fs.defaultFS属性值)和 MapReduce(读取mapreduce.jobhistory.address属性值)等Hadoop 相关组件。
如果目录下没有该文件,我们就以模板复制一个cp hive-env.sh.template hive-env.sh。vi hive-env.sh打开文件,在文件末尾添加变量指向 Hadoop 的安装路径:
HADOOP_HOME=/usr/local/hadoop #在本地环境安装,要根据自己hadoop的路径来确定
至此Hive配置完成。 第一次启动Hive前还需要执行初始化命令:schematool -dbType mysql -initSchema。
编程要求
请仔细阅读左侧文档知识点,根据提示,在右侧命令行区域进行 Hive 环境搭建,具体任务如下:
根据上述步骤完成Hive的安装与配置
然后在命令行start-dfs.sh启动 Hadoop
点击测评,验证hive是否成功安装配置。
参考命令
cd /opt tar -zxvf apache-hive-3.1.0-bin.tar.gz mv apache-hive-3.1.0-bin hive vi /etc/profile i #在末尾添加以下两行代码: export HIVE_HOME=/opt/hive export PATH=$HIVE_HOME/bin:$PATH Esc : wq source /etc/profile rm /opt/hive/lib/log4j-slf4j-impl-2.10.0.jar apt-get install mysql-server apt-get install mysql-client apt-get install libmysqlclient-dev netstat -tap | grep mysql tar -zxvf mysql-connector-java-5.1.45.tar.gz cd mysql-connector-java-5.1.45 cp mysql-connector-java-5.1.45-bin.jar /opt/hive/lib/ mysql -uroot -p123123 -h127.0.0.1 create database hiveDB; create user 'bee'@'%' identified by '123123'; grant all privileges on hiveDB.* to 'bee'@'%' identified by '123123'; flush privileges; exit cd /opt/hive/conf vim hive-site.xml i <?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>hive.metastore.warehouse.dir</name> <value>/opt/hive/warehouse</value> </property> <property> <name>hive.exec.scratchdir</name> <value>/opt/hive/tmp</value> </property> <property> <name>hive.querylog.location</name> <value>/opt/hive/logs</value> </property> <property> <name>hive.server2.thrift.port</name> <value>10000</value> </property> <property> <name>hive.server2.thrift.bind.host</name> <value>localhost</value> </property> <property> <name>hive.server2.enable.doAs</name> <value>true</value> </property> <property> <name>hive.session.id</name> <value>false</value> </property> <property> <name>hive.session.silent</name> <value>false</value> </property> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hiveDB?createDatabaseIfNotExist=true</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>bee</value> <!-- 这里是之前设置的数据库 --> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <!-- 这里是数据库密码 --> <value>123123</value> </property> </configuration> Esc : wq cp hive-env.sh.template hive-env.sh vim hive-env.sh i #末尾添加: HADOOP_HOME=/usr/local/hadoop Esc : wq schematool -dbType mysql -initSchema start-dfs.sh
2:Hive Shell入门基础命令
任务描述
本关任务:按照编程要求,在Hive下创建表。
相关知识
Hive Shell运行在Hadoop集群环境上,是Hive提供的命令行接口(CLI),在Hive提示符输入HiveQL命令,Hive Shell把HQL查询转换为一系列MapReduce作业对任务进行并行处理,然后返回处理结果。
为了完成本关任务,你需要掌握:Hive Shell常用命令 。
Hive Shell 常用命令
注意:Hive命令必须以分号;结束。
启动 Hive Shell:hive;
出现hive>说明启动成功。
查询数据库:show databases;;
查询表:show tables;;
因为该数据库下没有创建表,所以输出结果为0行。
创建数据库mydb:create database mydb;;
删除数据库mydb:drop database mydb;;
创建表mytable,有id字段,数据类型为int:create table mytable(id int);
删除表mytable:drop table mytable;;
退出 Hive Shell:exit;。
Hive Shell 非交互式运行
我们也可以不启动Hive Shell,直接在Linux的命令行操作Hive。
hive -e ‘show databases;’;
在Hive的交互式模式和非交互式模式下,执行HiveQL操作都会输出执行过程信息,如执行查询操作所用时间,通过指定-S选项可以禁止输出此类信息。
hive -S -e ‘show databases;’。
编程要求
请根据左侧知识点的描述,在右侧命令行中使用 Hive 进行创表 ,具体任务如下:
在Hive Shell下创建一个表student,表结构如下:
col_name | data_type |
id | int |
name | string |
age | int |
参考命令
hive create table student( id int, name string, age int);