D007 复制粘贴玩大数据之安装与配置Hive

简介: Hive的获取; 上传安装包到集群; 安装Hive; Hive校验

0x01 Hive的获取

1. 官网下载

a. 为了统一,此处下载Hive2.3.3版本 :

http://archive.apache.org/dist/hive/

选择2.3.3/apache-hive-2.3.3-bin.tar.gz进行下载

ps:(221M,略大)在此也给出清华的镜像库下载,版本可能会不同, 但问题一般不大:

https://mirrors.tuna.tsinghua.edu.cn/apache/hive/stable-2/


0x02 上传安装包到集群

1. 上传安装包到虚拟机

PS:如果不是docker部署的集群,则直接上传到虚拟机即可,因为,每台虚拟机就是一个节点。

2. 复制安装包到master节点

docker cp apache-hive-2.3.3-bin.tar.gz hadoop-master:/root

sh master.sh

ll

20190301170800167.png

0x03 安装Hive

1. 解压Hive

a. 解压安装包(-C为指定解压到/usr/local路径)

tar -zxvf apache-hive-2.3.3-bin.tar.gz -C /usr/local


2. 配置Hive

a. 修改配置文件 hive-env.sh ($HIVE_HOME/conf):

cd /usr/local/apache-hive-2.3.3-bin/conf

cp hive-env.sh.template hive-env.sh

vi hive-env.sh


20190301170942632.png

=> 在里面随便找个地方,添加HADOOP_HOME

export HADOOP_HOME=/usr/local/hadoop-2.7.5

20190301171040573.png

b.创建HDFS存储Hive元数据的文件目录

在HDFS(需启动HDFS)中新建/tmp/user/hive/warehouse两个文件目录(默认),并对同组用户增加写权限,作为Hive的存储目录(创建过程中可能已经存在tmp,则不执行第一句),如果提示/tmp已经存在,也不管。

hadoop fs -mkdir /tmp

hadoop fs -mkdir -p /user/hive/warehouse

因为我们这里是使用root用户,所以可以不设置权限,如自己创建了其他用户操作,则要执行下面两行指令:

hadoop fs -chmod g+w /tmp

hadoop fs -chmod g+w /user/hive/warehouse

20190301172037697.png

c. 配置环境变量(可看到docker生成节点时默认配好的其他环境变量)

vi /etc/profile

export HIVE_HOME=/usr/local/apache-hive-2.3.3-bin                          
export PATH=$PATH:$HIVE_HOME/bin 


20190301174104225.png

  • 使配置生效(echo一下有内容输入,说明已经配好)

source /etc/profile


#忽略步骤:

d. 替换YARN与Hive冲突的包(本实验的版本为:hadoop2.7.5、hive为2.3.3jar包没有发生冲突,略过此步骤)

把Hive的jline.jar覆盖YARN路径下的:

cd /usr/local/hadoop-2.7.5/share/hadoop/yarn/lib

备份一下YARN的(重命名)

mv jline-0.9.94.jar jline-0.9.94.jar.bak

cd /usr/local/apache-hive-2.3.3-bin/lib

拷贝Hive路径下的到YARN/lib路径下

cp jline-2.12.jar /usr/local/hadoop-2.7.5/share/hadoop/yarn/lib


0x04 Hive校验

1. 启动Hadoop集群

a. 查看进程(如有hadoop与zk进程,则不需执行b.c.步):

~/jps_all.sh

2019030117514945.png

2. 启动Hive

a. 初始化元数据信息(选择一个路径,表示元数据信息在此目录下,当前路径下会生成一个文件目录metastore_db

cd /usr/local/apache-hive-2.3.3-bin

./bin/schematool -dbType derby -initSchema

ps:如果去其他地方执行,在会在其他目录下创建文件目录 metastore_db

自行测试此命令:$HIVE_HOME/bin/schematool -dbType derby -initSchema


20190301174816472.png

d. 查看Hive中的函数:

show functions;


20190301175015662.png


e. 退出:

exit;

0xFF 总结


  1. 这里使用的部署方式是默认的内嵌模式,其实Hive常用的部署方式有三种:内嵌模式、本地Mysql方式、远程模式,自行查资料,或者等以后我的教程更新哈。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
分布式计算 DataWorks 调度
maxcompute配置问题之优先级如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
35 1
|
3月前
|
存储 分布式计算 Hadoop
maxcompute配置问题之加速查询超时配置回退如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
35 1
|
3月前
|
SQL 分布式计算 DataWorks
maxcompute配置问题之配置回退的参数如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
40 2
|
3月前
|
SQL 分布式计算 MaxCompute
maxcompute之配置报错如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
40 0
|
3月前
|
SQL 存储 分布式计算
maxcompute配置问题之配置mc内容如何解决
MaxCompute配置是指在使用阿里云MaxCompute服务时对项目设置、计算资源、存储空间等进行的各项调整;本合集将提供MaxCompute配置的指南和建议,帮助用户根据数据处理需求优化其MaxCompute环境。
35 1
|
21天前
|
SQL HIVE
Hive的安装
Hive的安装
19 1
|
5天前
|
SQL 存储 分布式计算
Hive详解、配置、数据结构、Hive CLI
Hive详解、配置、数据结构、Hive CLI
20 0
Hive详解、配置、数据结构、Hive CLI
|
11天前
|
存储 分布式计算 DataWorks
MaxCompute产品使用合集之大数据计算MaxCompute dataworks可以批量修改数据集成任务的数据源配置信息吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
11天前
|
分布式计算 大数据 数据处理
MaxCompute操作报错合集之在开发环境中配置MaxCompute参数进行调度,但参数解析不出来,如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
11天前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之spark3.1.1通过resource目录下的conf文件配置,报错如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。

热门文章

最新文章