云计算与大数据实验八 Hive的安装与基本操作

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 云计算与大数据实验八 Hive的安装与基本操作

一、实验目的

  1. 回顾Hadoop安装与配置
  2. 掌握Hive安装与配置
  3. 理解Hive工作原理
  4. 掌握Hive表的基本操作(启动、退出、create、show等)

二、实验内容

  1. 完成Hive安装与配置
  2. 掌握Hive基本操作(启动、退出、create、show等)
  3. 使用Hive shell指令创建表

三、实验步骤

(一)完成Hive安装与配置

介绍MySQLHive做的设置

1.使用root用户登录MySQL数据库;

mysql -uroot -p123123 -h127.0.0.1

2.创建数据库实例hiveDB

create database hiveDB;

3.创建用户bee,密码为123123

create user 'bee'@'%' identified by '123123';

4.授权用户bee拥有数据库实例hiveDB的所有权限;

grant all privileges on hiveDB.* to 'bee'@'%' identified by '123123';

5.刷新系统权限表。

flush privileges;

hive-env.sh

由于Hive是一个基于Hadoop分布式文件系统的数据仓库架构,主要运行在 Hadoop分布式环境下,因此,需要在文件hive-env.sh中指定Hadoop相关配置文件的路径,用于Hive访问HDFS(读取fs.defaultFS属性值)和 MapReduce(读取mapreduce.jobhistory.address属性值)等Hadoop 相关组件。

  • 如果目录下没有该文件,我们就以模板复制一个cp hive-env.sh.template hive-env.shvi hive-env.sh打开文件,在文件末尾添加变量指向 Hadoop 的安装路径:HADOOP_HOME=/usr/local/hadoop  #在本地环境安装,要根据自己hadoop的路径来确定

至此Hive配置完成。 第一次启动Hive前还需要执行初始化命令:

schematool -dbType mysql -initSchema。

(二)使用Hive shell指令创建表

Hive Shell 常用命令

注意:Hive命令必须以分号;结束。

  • 启动 Hive Shell:hive

出现hive>说明启动成功。

  • 查询数据库:show databases;

  • 查询表:show tables;

因为该数据库下没有创建表,所以输出结果为0行。

  • 创建数据库mydbcreate database mydb;

  • 删除数据库mydbdrop database mydb;
  • 创建表mytable,有id字段,数据类型为intcreate table mytable(id int);

  • 删除表mytabledrop table mytable;
  • 退出 Hive Shell:exit;

Hive Shell 非交互式运行

我们也可以不启动Hive Shell,直接在Linux的命令行操作Hive

  • hive -e 'show databases;'

Hive的交互式模式和非交互式模式下,执行HiveQL操作都会输出执行过程信息,如执行查询操作所用时间,通过指定-S选项可以禁止输出此类信息。

  • hive -S -e 'show databases;' 

编程要求

Hive Shell下创建一个表student,表结构如下:

col_name

data_type

id

int

name

string

age

int

相关代码:

1. 1. create table student(id int,
2. 2. name string,
3. 3. age int);

四、实验心得

掌握了Hive基本操作

会使用Hive shell指令创建表

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
存储 大数据 云计算
大数据与云计算
大数据与云计算
70 2
|
1月前
|
SQL HIVE
Hive的安装
Hive的安装
27 1
|
5天前
|
SQL 分布式计算 关系型数据库
分布式系统详解 -- Hive1.2.1 安装
分布式系统详解 -- Hive1.2.1 安装
9 1
|
21天前
|
机器学习/深度学习 存储 算法
云计算和大数据处理
云计算和大数据处理
22 1
|
8天前
|
存储 资源调度 大数据
云计算在大数据分析中的弹性资源调度策略
云计算在大数据分析中的弹性资源调度策略
|
1月前
|
SQL 分布式计算 关系型数据库
Ubuntu上安装MySQL以及hive
Ubuntu上安装MySQL以及hive
31 1
|
1月前
|
存储 机器学习/深度学习 大数据
云计算与大数据:合作与创新
本文探讨了大数据技术与云计算的背景和发展,大数据的5V特征(量、速度、多样、复杂、不确定)及云计算的3S特点(服务、共享、可扩展)。两者相互依赖,云计算为大数据提供计算与存储资源。核心算法涉及分布式计算、数据挖掘和机器学习,如线性回归、逻辑回归等。通过代码示例展示了Hadoop的MapReduce、Scikit-learn的KNN和TensorFlow的线性回归应用。未来趋势包括数据量增长、实时处理、AI与ML集成及数据安全挑战。附录解答了大数据、云计算等相关问题。
380 3
|
1月前
|
Linux 云计算 Windows
|
1月前
|
存储 大数据 数据挖掘
python数据分析——大数据和云计算
大数据和云计算作为当代信息技术的两大核心驱动力,正在以前所未有的速度改变着我们的生活、工作和思维方式。它们不仅为各行各业的创新提供了强大的技术支持,更是推动了整个社会的数字化转型。 从大数据的角度来看,它的核心价值在于通过对海量数据的收集、存储、分析和挖掘,发现其中的关联性和趋势,从而为决策提供更为科学、精准的依据。无论是商业领域的市场预测、消费者行为分析,还是公共服务领域的城市规划、交通管理,大数据都发挥着不可或缺的作用。同时,随着物联网、传感器等技术的普及,大数据的来源和种类也在不断扩展,这使得我们能够更全面地认识世界,把握规律。
64 1
|
3天前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看数据离线同步每天从MySQL抽取的数据量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章