ARM+麒麟大数据环境搭建:Hive

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: ARM+麒麟大数据环境搭建:Hive

第1章概述
1.1编写目的
暂无
1.2业务背景
暂无
第2章组件介绍
2.1组件介绍与架构说明
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive是整个中台的数据处理的重要组成部分。
2.2逻辑部署拓扑
hive一般部署在node1上,使用node4的mysql作为元数据。
2.3物理部署拓扑
在node1上安装
2.4依赖环境
硬件:Phytium ARM CPU,银河麒麟v10 内核版本4.19.90-17 arm64 桌面版
JDK依赖:JDK1.8
组件依赖:无

2.5界面效果
2.5.1安装完成后的运行效果
安装完成后运行的效果
image.png

2.5.2运行日志
运行日志
image.png

第3章部署步骤
3.1环境准备
3.1.1安装包准备
将apache-hive-3.1.2-bin.tar.gz文件上传至node1服务器的/opt/abd_env_soft目录,解压并重命名为apache-hive
解压
tar -zxvf apache-hive-3.1.2-bin.tar.gz
重命名
mv apache-hive-3.1.2-bin/ apache-hive
3.2安装配置
3.2.1配置hive-site.xml文件
进入/opt/abd_env_soft/apache-hive/conf目录,将hive-default.xml.template文件复制一份,重命名为hive-site.xml,并在文件末尾增加如下内容:。

<!-- hive元数据库连接用户名 -->
<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
</property>
 <!-- hive元数据库连接密码 -->
<property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>Abc_123_</value>
</property>
<!-- hive元数据库连接字符串 -->

    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://node4:3306/hive</value>
</property>
<!-- hive元数据库连接驱动类 -->
<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.cj.jdbc.Driver</value>
</property>
<property>
     <name>hive.metastore.schema.verification</name>
     <value>false</value>
</property>

image.png

将文件里3215行的“& 8;”删除,如下图
image.png

3.2.2按照配置文件内容创建数据数据库
按照配置文件在mysql中创建hive数据库
image.png

3.2.3初始化数据
将mysql-connector-java-8.0.15.jar上传至/opt/abd_env_soft/apache-hive/lib目录,
然后使用如下命令初始化数据库:
/opt/abd_env_soft/apache-hive/bin/schematool -dbType mysql -initSchema

查看mysql数据中,已经增加了74张表

3.2.4验证是否启动成功
将hive的bin目录加入/etc/profile环境变量

export HIVE_HOME=/opt/abd_env_soft/apache-hive
export PATH=$PATH:$HIVE_HOME/bin
image.png

执行hive命令,看是否正常,正常则说明安装成功,可使用hiveSQL创建表

image.png

如启动报如下错误,将hive-site.xml文件中的“system:”替换为空,如${system:java.io.tmpdir}替换为${java.io.tmpdir}

JDBC连接hive
使用命令hiveserver2 可启动hiveserver2服务器,后续可使用JDBC进行连接,URL如下:
jdbc:hive2://[host]:10000

1第4章常见操作
4.1启动命令
在node1执行命令hive即可启动

4.2关闭命令
crtl+c 即可关闭hive
4.3健康检查方法
如可使用hive命令,则正常

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
3月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
71 0
|
4月前
|
Ubuntu KVM 虚拟化
基于ARM64的Qemu/KVM学习环境搭建
基于ARM64的Qemu/KVM学习环境搭建
|
4月前
|
NoSQL Ubuntu Linux
基于ARM64的Qemu/KVM学习环境搭建2
基于ARM64的Qemu/KVM学习环境搭建2
|
6月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。
|
6月前
|
分布式计算 DataWorks 调度
MaxCompute产品使用合集之如何将数据迁移到CDH Hive
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
115 0
|
7月前
|
SQL 数据采集 数据可视化
基于Hive的招聘网站的大数据分析系统
基于Hive的招聘网站的大数据分析系统
152 2
|
7月前
|
SQL 关系型数据库 MySQL
基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)
基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)
287 0
|
7月前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之启用hive兼容的时候,某个字段是null,是否会把这个字段当成空白连起来
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8月前
|
SQL 分布式计算 大数据
[AIGC 大数据基础]hive浅谈
[AIGC 大数据基础]hive浅谈
|
8月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
212 1