D007 复制粘贴玩大数据之安装与配置Hive

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Hive的获取; 上传安装包到集群; 安装Hive; Hive校验

0x01 Hive的获取

1. 官网下载

a. 为了统一,此处下载Hive2.3.3版本 :

http://archive.apache.org/dist/hive/

选择2.3.3/apache-hive-2.3.3-bin.tar.gz进行下载

ps:(221M,略大)在此也给出清华的镜像库下载,版本可能会不同, 但问题一般不大:

https://mirrors.tuna.tsinghua.edu.cn/apache/hive/stable-2/


0x02 上传安装包到集群

1. 上传安装包到虚拟机

PS:如果不是docker部署的集群,则直接上传到虚拟机即可,因为,每台虚拟机就是一个节点。

2. 复制安装包到master节点

docker cp apache-hive-2.3.3-bin.tar.gz hadoop-master:/root

sh master.sh

ll

20190301170800167.png

0x03 安装Hive

1. 解压Hive

a. 解压安装包(-C为指定解压到/usr/local路径)

tar -zxvf apache-hive-2.3.3-bin.tar.gz -C /usr/local


2. 配置Hive

a. 修改配置文件 hive-env.sh ($HIVE_HOME/conf):

cd /usr/local/apache-hive-2.3.3-bin/conf

cp hive-env.sh.template hive-env.sh

vi hive-env.sh


20190301170942632.png

=> 在里面随便找个地方,添加HADOOP_HOME

export HADOOP_HOME=/usr/local/hadoop-2.7.5

20190301171040573.png

b.创建HDFS存储Hive元数据的文件目录

在HDFS(需启动HDFS)中新建/tmp/user/hive/warehouse两个文件目录(默认),并对同组用户增加写权限,作为Hive的存储目录(创建过程中可能已经存在tmp,则不执行第一句),如果提示/tmp已经存在,也不管。

hadoop fs -mkdir /tmp

hadoop fs -mkdir -p /user/hive/warehouse

因为我们这里是使用root用户,所以可以不设置权限,如自己创建了其他用户操作,则要执行下面两行指令:

hadoop fs -chmod g+w /tmp

hadoop fs -chmod g+w /user/hive/warehouse

20190301172037697.png

c. 配置环境变量(可看到docker生成节点时默认配好的其他环境变量)

vi /etc/profile

export HIVE_HOME=/usr/local/apache-hive-2.3.3-bin                          
export PATH=$PATH:$HIVE_HOME/bin 


20190301174104225.png

  • 使配置生效(echo一下有内容输入,说明已经配好)

source /etc/profile


#忽略步骤:

d. 替换YARN与Hive冲突的包(本实验的版本为:hadoop2.7.5、hive为2.3.3jar包没有发生冲突,略过此步骤)

把Hive的jline.jar覆盖YARN路径下的:

cd /usr/local/hadoop-2.7.5/share/hadoop/yarn/lib

备份一下YARN的(重命名)

mv jline-0.9.94.jar jline-0.9.94.jar.bak

cd /usr/local/apache-hive-2.3.3-bin/lib

拷贝Hive路径下的到YARN/lib路径下

cp jline-2.12.jar /usr/local/hadoop-2.7.5/share/hadoop/yarn/lib


0x04 Hive校验

1. 启动Hadoop集群

a. 查看进程(如有hadoop与zk进程,则不需执行b.c.步):

~/jps_all.sh

2019030117514945.png

2. 启动Hive

a. 初始化元数据信息(选择一个路径,表示元数据信息在此目录下,当前路径下会生成一个文件目录metastore_db

cd /usr/local/apache-hive-2.3.3-bin

./bin/schematool -dbType derby -initSchema

ps:如果去其他地方执行,在会在其他目录下创建文件目录 metastore_db

自行测试此命令:$HIVE_HOME/bin/schematool -dbType derby -initSchema


20190301174816472.png

d. 查看Hive中的函数:

show functions;


20190301175015662.png


e. 退出:

exit;

0xFF 总结


  1. 这里使用的部署方式是默认的内嵌模式,其实Hive常用的部署方式有三种:内嵌模式、本地Mysql方式、远程模式,自行查资料,或者等以后我的教程更新哈。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
65 0
|
2月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
75 0
|
2月前
|
消息中间件 监控 Ubuntu
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
94 3
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
|
2月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
43 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
2月前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
72 1
|
2月前
|
消息中间件 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
42 2
|
2月前
|
消息中间件 分布式计算 Java
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
33 2
|
2月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
49 3
|
2月前
|
存储 消息中间件 druid
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
88 1
|
2月前
|
消息中间件 Java 大数据
大数据-56 Kafka SpringBoot与Kafka 基础简单配置和使用 Java代码 POM文件
大数据-56 Kafka SpringBoot与Kafka 基础简单配置和使用 Java代码 POM文件
73 2