大数据基础-部署Hive

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 部署Hive

下载地址

https://archive.apache.org/dist/hive/

https://hive.apache.org/downloads.html

这里我们下载hive-3.1.2这个版本

软件地址在这:

链接: https://pan.baidu.com/s/1sYvZsTc4Mz1d9QnwG8zu5A 提取码: jewn --来自百度网盘超级会员v7的分享

部署

部署Mysql8.x

1.下载镜像

yum install wget

wgethttps://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm

网络异常,图片无法展示
|

2.安装镜像

rpm -ivh mysql80-community-release-el7-3.noarch.rpm

3.升级系统中的软件包

yum update mysql-server

4.安装mysql

yum -y install mysql-server

提示:

失败的软件包是:mysql-community-icu-data-files-8.0.30-1.el7.x86_64GPG  密钥配置为:file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql

重新导入密钥并执行安装

rpm --importhttps://repo.mysql.com/RPM-GPG-KEY-mysql-2022

yum -y install mysql-server

安装完毕

网络异常,图片无法展示
|

5.修改文件权限

chown mysql:mysql -R /var/lib/mysql

6.初始化

mysqld --initialize

7.启动设置开机自启动

systemctl start mysqld.service

systemctl enable mysqld.service

systemctl daemon-reload

网络异常,图片无法展示
|

看到active状态表示正常

8.查看版本

mysqladmin --version

9.进入mysql

mysql -u root -p

权限错误

10.重置密码

#关闭服务

systemctl stop mysqld

#跳过检查方式启动

mysqld --user=root --skip-grant-tables &

#登录mysql

mysql:mysql -u root -p

#刷新权限

flush privileges;

#修改密码

use mysql;

ALTER USER 'root'@'localhost' IDENTIFIED BY '你的密码';

11.开启mysql远程

#登录

mysql -u root -p 你的密码

#查询数据库的用户

SELECT DISTINCT CONCAT('User: ''',user,'''@''',host,''';') AS query FROM mysql.user;

#更新用户表

UPDATE user SET `Host`='%' WHERE `User`='root' LIMIT 1;

alter user 'root'@'%' identified with mysql_native_password by '你的密码';

#刷新权限

flush privileges;

12.使用Navicat测试连接

连接成功即可

网络异常,图片无法展示
|

备份快照

网络异常,图片无法展示
|

部署Hive

由于Hive本身属于Hadoop客户端工具,所以放在任意节点都可以

这里我们选择部署在客户机bigdata04上

1.上传安装包并解压:

网络异常,图片无法展示
|

2.进入conf目录 修改模板文件

mv hive-env.sh.template  hive-env.sh

mv hive-default.xml.template  hive-site.xml

3.修改hive-env.sh配置文件内容并保存

vi hive-env.sh

#添加如下三行内容

exportJAVA_HOME=/data/soft/jdk1.8

exportHIVE_HOME=/data/soft/apache-hive-3.1.2-bin

exportHADOOP_HOME=/data/soft/hadoop-3.2.0

4.修改hive-site.xml文件具体内容

  • 指定元数据存放数据库为mysql
  • 指定日志目录与资源目录

修改Hive中的hive-site.xml配置文件

vi hive-site.xml

<property>

   <name>javax.jdo.option.ConnectionURL</name>

   <value>jdbc:mysql://mysqlIp:3306/hive?serverTimezone=Asia/Shanghai</value>

</property>

<property>

   <name>javax.jdo.option.ConnectionDriverName</name>

   <value>com.mysql.cj.jdbc.Driver</value>

</property>

<property>

   <name>javax.jdo.option.ConnectionUserName</name>

   <value>root</value>

</property>

<property>

   <name>javax.jdo.option.ConnectionPassword</name>

   <value>admin</value>

</property>

<property>

   <name>hive.querylog.location</name>

   <value>/data/hive_repo/querylog</value>

</property>

<property>

   <name>hive.exec.local.scratchdir</name>

   <value>/data/hive_repo/scratchdir</value>

</property>

<property>

   <name>hive.downloaded.resources.dir</name>

   <value>/data/hive_repo/resources</value>

</property>

5.在bigdata01节点上修改Hadoop配置

这里配置的目的是处理beeline连接产生的错误信息

在Hadoop的core-site.xml文件中增加下面配置

vi core-site.xml

   <property>

       <name>hadoop.proxyuser.root.hosts</name>

       <value>*</value>

   </property>

   <property>

       <name>hadoop.proxyuser.root.groups</name>

       <value>*</value>

   </property>

6.同步bigdata01的core-site.xml到bigdata02和bigdata03

scp -rq /data/soft/hadoop-3.2.0/etc/hadoop/core-site.xml bigdata02:/data/soft/hadoop-3.2.0/etc/hadoop/

scp -rq /data/soft/hadoop-3.2.0/etc/hadoop/core-site.xml bigdata03:/data/soft/hadoop-3.2.0/etc/hadoop/

ps:bigdata04节点不需要修改此配置

8.重启Hadoop集群

stop-all.sh

start-all.sh

网络异常,图片无法展示
|

重启完成

9.初始化Hive的Metastore

  • 拷贝jdbc驱动包到hive  lib目录下
  • 打开hive-site.xml
  • 删除hive.txn.xlock.iow对应的description标签
  • 这个位置原始配置有问题
  • 在MySQL下创建hive数据库
  • 初始化:

bin/schematool -dbType mysql -initSchema

初始化成功标志

网络异常,图片无法展示
|

网络异常,图片无法展示
|

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
82 2
|
4月前
|
分布式计算 资源调度 大数据
【决战大数据之巅】:Spark Standalone VS YARN —— 揭秘两大部署模式的恩怨情仇与终极对决!
【8月更文挑战第7天】随着大数据需求的增长,Apache Spark 成为关键框架。本文对比了常见的 Spark Standalone 与 YARN 部署模式。Standalone 作为自带的轻量级集群管理服务,易于设置,适用于小规模或独立部署;而 YARN 作为 Hadoop 的资源管理系统,支持资源的统一管理和调度,更适合大规模生产环境及多框架集成。我们将通过示例代码展示如何在这两种模式下运行 Spark 应用程序。
275 3
|
2月前
|
SQL 分布式计算 大数据
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
大数据-168 Elasticsearch 单机云服务器部署运行 详细流程
64 2
|
2月前
|
资源调度 分布式计算 大数据
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
124 0
|
2月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
66 0
|
5月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。
|
6月前
|
分布式计算 运维 DataWorks
MaxCompute产品使用问题之数据如何导出到本地部署的CK
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
分布式计算 DataWorks 调度
MaxCompute产品使用合集之如何将数据迁移到CDH Hive
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
112 0
|
6月前
|
SQL 数据采集 数据可视化
基于Hive的招聘网站的大数据分析系统
基于Hive的招聘网站的大数据分析系统
150 2
|
5月前
|
运维 监控 大数据
部署-Linux01,后端开发,运维开发,大数据开发,测试开发,后端软件,大数据系统,运维监控,测试程序,网页服务都要在Linux中进行部署
部署-Linux01,后端开发,运维开发,大数据开发,测试开发,后端软件,大数据系统,运维监控,测试程序,网页服务都要在Linux中进行部署