云计算与大数据实验八 Hive的安装与基本操作

本文涉及的产品
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
简介: 云计算与大数据实验八 Hive的安装与基本操作

一、实验目的

  1. 回顾Hadoop安装与配置
  2. 掌握Hive安装与配置
  3. 理解Hive工作原理
  4. 掌握Hive表的基本操作(启动、退出、create、show等)

二、实验内容

  1. 完成Hive安装与配置
  2. 掌握Hive基本操作(启动、退出、create、show等)
  3. 使用Hive shell指令创建表

三、实验步骤

(一)完成Hive安装与配置

介绍MySQLHive做的设置

1.使用root用户登录MySQL数据库;

mysql -uroot -p123123 -h127.0.0.1

2.创建数据库实例hiveDB

create database hiveDB;

3.创建用户bee,密码为123123

create user 'bee'@'%' identified by '123123';

4.授权用户bee拥有数据库实例hiveDB的所有权限;

grant all privileges on hiveDB.* to 'bee'@'%' identified by '123123';

5.刷新系统权限表。

flush privileges;

hive-env.sh

由于Hive是一个基于Hadoop分布式文件系统的数据仓库架构,主要运行在 Hadoop分布式环境下,因此,需要在文件hive-env.sh中指定Hadoop相关配置文件的路径,用于Hive访问HDFS(读取fs.defaultFS属性值)和 MapReduce(读取mapreduce.jobhistory.address属性值)等Hadoop 相关组件。

  • 如果目录下没有该文件,我们就以模板复制一个cp hive-env.sh.template hive-env.shvi hive-env.sh打开文件,在文件末尾添加变量指向 Hadoop 的安装路径:HADOOP_HOME=/usr/local/hadoop  #在本地环境安装,要根据自己hadoop的路径来确定

至此Hive配置完成。 第一次启动Hive前还需要执行初始化命令:

schematool -dbType mysql -initSchema。

(二)使用Hive shell指令创建表

Hive Shell 常用命令

注意:Hive命令必须以分号;结束。

  • 启动 Hive Shell:hive

出现hive>说明启动成功。

  • 查询数据库:show databases;

  • 查询表:show tables;

因为该数据库下没有创建表,所以输出结果为0行。

  • 创建数据库mydbcreate database mydb;

  • 删除数据库mydbdrop database mydb;
  • 创建表mytable,有id字段,数据类型为intcreate table mytable(id int);

  • 删除表mytabledrop table mytable;
  • 退出 Hive Shell:exit;

Hive Shell 非交互式运行

我们也可以不启动Hive Shell,直接在Linux的命令行操作Hive

  • hive -e 'show databases;'

Hive的交互式模式和非交互式模式下,执行HiveQL操作都会输出执行过程信息,如执行查询操作所用时间,通过指定-S选项可以禁止输出此类信息。

  • hive -S -e 'show databases;' 

编程要求

Hive Shell下创建一个表student,表结构如下:

col_name

data_type

id

int

name

string

age

int

相关代码:

1. 1. create table student(id int,
2. 2. name string,
3. 3. age int);

四、实验心得

掌握了Hive基本操作

会使用Hive shell指令创建表

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
10月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
存储 弹性计算 分布式计算
云端智链:挖掘云计算中的大数据潜能
云端智链:挖掘云计算中的大数据潜能
281 21
|
安全 大数据 虚拟化
随着云计算和大数据技术的发展,Hyper-V在虚拟化领域的地位日益凸显
随着云计算和大数据技术的发展,Hyper-V在虚拟化领域的地位日益凸显。作为Windows Server的核心组件,Hyper-V具备卓越的技术性能,支持高可用性、动态迁移等功能,确保虚拟机稳定高效运行。它与Windows深度集成,管理便捷,支持远程管理和自动化部署,降低管理成本。内置防火墙、RBAC等安全功能,提供全方位安全保障。作为内置组件,Hyper-V无需额外购买软件,降低成本。其广泛的生态系统支持和持续增长的市场需求,使其成为企业虚拟化解决方案的首选。
|
人工智能 大数据
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
|
存储 分布式计算 大数据
大数据与云计算:无缝结合,开启数据新纪元
大数据与云计算:无缝结合,开启数据新纪元
816 11
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
存储 弹性计算 分布式计算
云计算在大数据处理中的优势与挑战
云计算在大数据处理中的优势与挑战
|
存储 人工智能 大数据
物联网、大数据、云计算、人工智能之间的关系
物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征,又能在不同层面上相互融合,共同推动信息技术的发展和应用。
3986 0
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
502 3
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
373 0