D007 复制粘贴玩大数据之安装与配置Hive

简介: Hive的获取; 上传安装包到集群; 安装Hive; Hive校验

0x01 Hive的获取

1. 官网下载

a. 为了统一,此处下载Hive2.3.3版本 :

http://archive.apache.org/dist/hive/

选择2.3.3/apache-hive-2.3.3-bin.tar.gz进行下载

ps:(221M,略大)在此也给出清华的镜像库下载,版本可能会不同, 但问题一般不大:

https://mirrors.tuna.tsinghua.edu.cn/apache/hive/stable-2/


0x02 上传安装包到集群

1. 上传安装包到虚拟机

PS:如果不是docker部署的集群,则直接上传到虚拟机即可,因为,每台虚拟机就是一个节点。

2. 复制安装包到master节点

docker cp apache-hive-2.3.3-bin.tar.gz hadoop-master:/root

sh master.sh

ll

20190301170800167.png

0x03 安装Hive

1. 解压Hive

a. 解压安装包(-C为指定解压到/usr/local路径)

tar -zxvf apache-hive-2.3.3-bin.tar.gz -C /usr/local


2. 配置Hive

a. 修改配置文件 hive-env.sh ($HIVE_HOME/conf):

cd /usr/local/apache-hive-2.3.3-bin/conf

cp hive-env.sh.template hive-env.sh

vi hive-env.sh


20190301170942632.png

=> 在里面随便找个地方,添加HADOOP_HOME

export HADOOP_HOME=/usr/local/hadoop-2.7.5

20190301171040573.png

b.创建HDFS存储Hive元数据的文件目录

在HDFS(需启动HDFS)中新建/tmp/user/hive/warehouse两个文件目录(默认),并对同组用户增加写权限,作为Hive的存储目录(创建过程中可能已经存在tmp,则不执行第一句),如果提示/tmp已经存在,也不管。

hadoop fs -mkdir /tmp

hadoop fs -mkdir -p /user/hive/warehouse

因为我们这里是使用root用户,所以可以不设置权限,如自己创建了其他用户操作,则要执行下面两行指令:

hadoop fs -chmod g+w /tmp

hadoop fs -chmod g+w /user/hive/warehouse

20190301172037697.png

c. 配置环境变量(可看到docker生成节点时默认配好的其他环境变量)

vi /etc/profile

export HIVE_HOME=/usr/local/apache-hive-2.3.3-bin                          
export PATH=$PATH:$HIVE_HOME/bin 


20190301174104225.png

  • 使配置生效(echo一下有内容输入,说明已经配好)

source /etc/profile


#忽略步骤:

d. 替换YARN与Hive冲突的包(本实验的版本为:hadoop2.7.5、hive为2.3.3jar包没有发生冲突,略过此步骤)

把Hive的jline.jar覆盖YARN路径下的:

cd /usr/local/hadoop-2.7.5/share/hadoop/yarn/lib

备份一下YARN的(重命名)

mv jline-0.9.94.jar jline-0.9.94.jar.bak

cd /usr/local/apache-hive-2.3.3-bin/lib

拷贝Hive路径下的到YARN/lib路径下

cp jline-2.12.jar /usr/local/hadoop-2.7.5/share/hadoop/yarn/lib


0x04 Hive校验

1. 启动Hadoop集群

a. 查看进程(如有hadoop与zk进程,则不需执行b.c.步):

~/jps_all.sh

2019030117514945.png

2. 启动Hive

a. 初始化元数据信息(选择一个路径,表示元数据信息在此目录下,当前路径下会生成一个文件目录metastore_db

cd /usr/local/apache-hive-2.3.3-bin

./bin/schematool -dbType derby -initSchema

ps:如果去其他地方执行,在会在其他目录下创建文件目录 metastore_db

自行测试此命令:$HIVE_HOME/bin/schematool -dbType derby -initSchema


20190301174816472.png

d. 查看Hive中的函数:

show functions;


20190301175015662.png


e. 退出:

exit;

0xFF 总结


  1. 这里使用的部署方式是默认的内嵌模式,其实Hive常用的部署方式有三种:内嵌模式、本地Mysql方式、远程模式,自行查资料,或者等以后我的教程更新哈。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
11月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
9月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
440 0
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
354 0
|
SQL 分布式计算 关系型数据库
基于云服务器的数仓搭建-hive/spark安装
本文介绍了在本地安装和配置MySQL、Hive及Spark的过程。主要内容包括: - **MySQL本地安装**:详细描述了内存占用情况及安装步骤,涉及安装脚本的编写与执行,以及连接MySQL的方法。 - **Hive安装**:涵盖了从上传压缩包到配置环境变量的全过程,并解释了如何将Hive元数据存储配置到MySQL中。 - **Hive与Spark集成**:说明了如何安装Spark并将其与Hive集成,确保Hive任务由Spark执行,同时解决了依赖冲突问题。 - **常见问题及解决方法**:列举了安装过程中可能遇到的问题及其解决方案,如内存配置不足、节点间通信问题等。
基于云服务器的数仓搭建-hive/spark安装
|
SQL 关系型数据库 MySQL
seatunnel配置mysql2hive
本文介绍了SeaTunnel的安装与使用教程,涵盖从安装、配置到数据同步的全过程。主要内容包括: 1. **SeaTunnel安装**:详细描述了下载、解压及配置连接器等步骤。 2. **模拟数据到Hive (fake2hive)**:通过编辑测试脚本,将模拟数据写入Hive表。 3. **MySQL到控制台 (mysql2console)**:创建配置文件并执行命令,将MySQL数据输出到控制台。 4. **MySQL到Hive (mysql2hive)**:创建Hive表,配置并启动同步任务,支持单表和多表同步。
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
317 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
508 1
|
消息中间件 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
199 2