Hive的基本知识与操作-阿里云开发者社区

为什么使用Hive?
如果直接使用hadoop的话，人员学习成本太高，项目要求周期太短，MapReduce实现复杂查询逻辑开发难度太大。如果使用hive的话，可以操作接口采用类SQL语法，提高开发能力，免去了写MapReduce，减少开发人员学习成本，功能扩展很方便（比如：开窗函数）。

Hive的特点：
1、可扩展性
Hive可以自由的扩展集群的规模，一般情况下不需要重启服务

2、延申性

   Hive支持自定义函数，用户可以根据自己的需求来实现自己的函数

        
          
        
        
        
          
          AI 代码解读

3、容错
即使节点出现错误，SQL仍然可以完成执行

Hive的优缺点：
优点：

   1、操作接口采用类sql语法，提供快速开发的能力（简单、容易上手）
        
          
        
        
        
          
          AI 代码解读

2、避免了去写MapReduce,减少开发人员的学习成本

    3、Hive的延迟性比较高，因此Hive常用于数据分析，适用于对实时性要求不高的场合
        
          
        
        
        
          
          AI 代码解读

4、Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较高。（不断地开关JVM虚拟机）
5、Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
6、集群可自由扩展并且具有良好的容错性，节点出现问题SQL仍可以完成执行

缺点：
 1、Hive的HQL表达能力有限

        
          
        
        
        
          
          AI 代码解读

（1）迭代式算法无法表达（反复调用，mr之间独立，只有一个map一个reduce，反复开关）

（2）数据挖掘方面不擅长

2、Hive 的效率比较低

（1）Hive 自动生成的 MapReduce 作业，通常情况下不够智能化

（2）Hive 调优比较困难，粒度较粗（hql根据模板转成mapreduce，不能像自己编写mapreduce一样精细，无法控制在map处理数据还是在reduce处理数据）

日志分析：大部分互联网公司使用hive进行日志分析，如百度、淘宝等。

统计一个网站一个时间段内的PV（页面浏览量）UV（统计一天内某站点的用户数）SKU ，SPU

 Metastore（元数据）
        
          
        
        
        
          
          AI 代码解读

元数据包括表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等。

一般需要借助于其他的数据载体（数据库）

主要用于存放数据库的建表语句等信息

推荐使用Mysql数据库存放数据

连接数据库需要提供：uri username password driver

 sql语句是如何转化成MR任务的？
        
          
        
        
        
          
          AI 代码解读

元数据存储在数据库中，默认存在自带的derby数据库（单用户局限性）中，推荐使用Mysql进行存储。

1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如ANTLR；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。

2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。

3）优化器（Query Optimizer）：对逻辑执行计划进行优化。

4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是 MR/Spark。

Hive的数据存储在HDFS中，计算由MapReduce完成。HDFS和MapReduce是源码级别上的整合，两者结合最佳。解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。

 Hive的三种交互方式
        
          
        
        
        
          
          AI 代码解读

第一种交互方式
shell交互Hive，用命令hive启动一个hive的shell命令行，在命令行中输入sql或者命令来和Hive交互。

服务端启动metastore服务（后台启动）：nohup hive --service metastore >/dev/null &
进入命令:hive
退出命令行：quit;
第二种交互方式
Hive启动为一个服务器，对外提供服务，其他机器可以通过客户端通过协议连接到服务器，来完成访问操作，这是生产环境用法最多的

服务端启动hiveserver2服务：
nohup hive --service metastore >/dev/null &
nohup hiveserver2 >/dev/null &

需要稍等一下，启动服务需要时间：
进入命令:1)先执行： beeline ，再执行： !connect jdbc:hive2://master:10000

    2)或者直接执行：  beeline -u jdbc:hive2://master:10000 -n root
        
          
        
        
        
          
          AI 代码解读

退出命令行：！exit

使用 –e 参数来直接执行hql的语句

bin/hive -e "show databases;"
使用 –f 参数通过指定文本文件来执行hql的语句

特点：执行完sql后，回到linux命令行。

创建一个sql文件：vim hive.sql
里面写入要执行的sql命令
use myhive;
select * from test;
hive -f hive.sql

Hive元数据库中一些重要的表结构及用途，方便Impala、SparkSQL、Hive等组件访问元数据库的理解。

1、存储Hive版本的元数据表(VERSION)，该表比较简单，但很重要,如果这个表出现问题，根本进不来Hive-Cli。比如该表不存在，当启动Hive-Cli的时候，就会报错“Table 'hive.version' doesn't exist”

2、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)

DBS：该表存储Hive中所有数据库的基本信息。

DATABASE_PARAMS：该表存储数据库的相关参数。

3、Hive表和视图相关的元数据表

主要有TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联。
TBLS:该表中存储Hive表，视图，索引表的基本信息。
TABLE_PARAMS:该表存储表/视图的属性信息。
TBL_PRIVS：该表存储表/视图的授权信息。
4、Hive文件存储信息相关的元数据表

主要涉及SDS、SD_PARAMS、SERDES、SERDE_PARAMS，由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。
SDS：该表保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。TBLS表中的SD_ID与该表关联，可以获取Hive表的存储信息。
SD_PARAMS: 该表存储Hive存储的属性信息。
SERDES:该表存储序列化使用的类信息。
SERDE_PARAMS:该表存储序列化的一些属性、格式信息，比如:行、列分隔符。
5、Hive表字段相关的元数据表

主要涉及COLUMNS_V2：该表存储表对应的字段信息。

创建数据库
数据库在hdfs上的默认路径是/hive/warehouse/*.db

create database testdb;
避免要创建的数据库已经存在错误，增加if not exists判断。（标准写法）

create database if not exists testdb;
创建数据库并指定位置

create database if not exists testdb location '/testdb.db';
修改数据库
数据库的其他元数据信息都是不可更改的，包括数据库名和数据库所在的目录位置。

alter database dept set dbproperties('createtime'='20220531');为数据库的DBPROPERTIES设置键值对属性值
显示数据库

show databases;
通过like过滤显示数据库

show datebases like 't';(这里是*，sql里是%)
查看数据库详情

desc database testdb;
切换数据库

use testdb;
删除数据库
最简写法

drop database testdb;
如果删除的数据库不存在，最好使用if exists判断数据库是否存在。否则会报错：FAILED: SemanticException [Error 10072]: Database does not exist: db_hive

drop database if exists testdb;
如果数据库不为空，使用cascade命令进行强制删除。报错信息如下FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. InvalidOperationException(message:Database db_hive is not empty. One or more tables exist.)

drop database if exists testdb cascade;

Hive没有专门的数据文件格式,常见的有以下几种:

TEXTFILE：Hive默认文件存储格式
SEQUENCEFILE
AVRO
RCFILE：列文件格式，能够很好的压缩和快速查询性能
ORCFILE：很高的压缩比，能很大程度的节省存储和计算资源，但它在读写时候需要消耗额外的CPU资源来压缩和解压缩
PARQUET

Hive的表操作
创建表
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]

字段解释说明:

CREATE TABLE
创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。
EXTERNAL
关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）
创建内部表时，会将数据移动到数据仓库指向的路径（默认位置）；
创建外部表时，仅记录数据所在的路径，不对数据的位置做任何改变。在
删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
COMMENT：
为表和列添加注释。
PARTITIONED BY
创建分区表
CLUSTERED BY
创建分桶表
SORTED BY
不常用
ROW FORMAT
DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
用户在建表的时候可以自定义SerDe或者使用自带的SerDe。
如果没有指定ROW FORMAT 或者ROW FORMAT DELIMITED，将会使用自带的SerDe。
在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe，Hive通过SerDe确定表的具体的列的数据。
SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。
STORED AS指定存储文件类型
常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）
如果文件数据是纯文本，可以使用STORED AS TEXTFILE。
如果数据需要压缩，使用 STORED AS SEQUENCEFILE。
LOCATION ：
指定表在HDFS上的存储位置。
LIKE
允许用户复制现有的表结构，但是不复制数据。

默认建表方式
create table students
(

id bigint,
name string,
age int,
gender string,
clazz string
        
          
        
        
        
          
          AI 代码解读

)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; // 必选，指定列分隔符
指定location
create table students2
(

id bigint,
name string,
age int,
gender string,
clazz string
        
          
        
        
        
          
          AI 代码解读

)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/input1'; // 指定Hive表的数据的存储位置，一般在数据已经上传到HDFS，想要直接使用，会指定Location，通常Locaion会跟外部表一起使用，内部表一般使用默认的location
指定存储格式
create table students3
(

id bigint,
name string,
age int,
gender string,
clazz string
        
          
        
        
        
          
          AI 代码解读

)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS rcfile; // 指定储存格式为rcfile
如果不指定，默认为textfile，注意：除textfile以外，其他的存储格式的数据都不能直接加载，需要使用从表加载的方式。
创建表并加载另一张表的所有信息
create table students4 as select * from students2;
只建表，不需要加载数据，相当于建表语句一样
create table students5 like students;
复杂人员信息表创建
create table IF NOT EXISTS t_person(
name string,
friends array,
children map<string,int>,
address struct<street:string ,city:string>
)
row format delimited fields terminated by ','
collection items terminated by '_'
map keys terminated by ':'
lines terminated by '\n';

songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,beng bu_anhui
yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,he fei_anhui
显示表
show tables;
show tables like 'u';
desc t_person;
desc formatted t_person;
加载数据
1、使用 Hadoop fs -put '本地数据地址' 'hive表对应的HDFS目录下'
load data inpath '/input1/students.txt' into table students;
将HDFS上的/input1目录下面的数据移动至 students表对应的HDFS目录下，注意是移动、移动、移动
2、将Linux本地目录下的文件上传到 hive表对应HDFS 目录下原文件不会被删除
load data local inpath '/usr/local/soft/data/students.txt' into table students;
3、覆盖加载overwrite
load data local inpath '/usr/local/soft/data/students.txt' overwrite into table students;
清空表
truncate table students;
插入表数据insert into table xxxx SQL语句（没有as）
将 students表的数据插入到students2 这是复制不是移动 students表中的表中的数据不会丢失
insert into table students2 select * from students;
覆盖插入
覆盖插入把into 换成 overwrite
insert overwrite table students2 select * from students;
修改列
查询表结构

desc students2;
添加列

alter table students2 add columns (education string);
查询表结构

desc students2;
更新列

alter table stduents2 change education educationnew string;
删除表
drop table students2;
Hive内部表
创建好表的时候，HDFS会在当前表所属的库中创建一个文件夹

当load数据的时候，就会将数据文件存放到表对应的文件夹中

数据一旦被load，就不能被修改

删除表的时候，表对应的文件夹会被删除，同时数据也会被删除

默认建表的类型就是内部表

Hive外部表
外部表因为是指定其他的hdfs路径的数据加载到表中来，所以hive会认为自己不完全独占这份数据

删除hive表的时候，数据仍然保存在hdfs中，不会删除。

外部表关键字external

一般在公司中，使用外部表多一点，因为数据可以需要被多个程序使用，避免误删，通常外部表会结合location一起使用

外部表还可以将其他数据源中的数据映射到 hive中，比如说：hbase，ElasticSearch......

设计外部表的初衷就是让表的元数据与数据解耦

Hive导出数据
将表中的数据备份

将查询结果存放到本地
//创建存放数据的目录
mkdir -p /usr/local/soft/shujia

//导出查询结果的数据(导出到Node01上)
insert overwrite local directory '/usr/local/soft/shujia/person_data' select * from t_person;
按照指定的方式将数据输出到本地
-- 创建存放数据的目录
mkdir -p /usr/local/soft/shujia

-- 导出查询结果的数据
insert overwrite local directory '/usr/local/soft/shujia/person'
ROW FORMAT DELIMITED fields terminated by ','
collection items terminated by '-'
map keys terminated by ':'
lines terminated by '\n'
select * from t_person;
将查询结果输出到HDFS
-- 创建存放数据的目录
hdfs dfs -mkdir -p /shujia/bigdata17/copy

-- 导出查询结果的数据
insert overwrite local directory '/usr/local/soft/shujia/students_data2' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select * from students
直接使用HDFS命令保存表对应的文件夹
// 创建存放数据的目录
hdfs dfs -mkdir -p /shujia/bigdata17/person

// 使用HDFS命令拷贝文件到其他目录
hdfs dfs -cp /hive/warehouse/t_person/* /shujia/bigdata17/person
将表结构和数据同时备份

将数据导出到HDFS

//创建存放数据的目录
hdfs dfs -mkdir -p /shujia/bigdata17/copy

//导出查询结果的数据
export table t_person to '/shujia/bigdata17/copy';
删除表结构

drop table t_person;
恢复表结构和数据

import from '/shujia/bigdata17';
注意：时间不同步，会导致导入导出失败

Hive的基本知识与操作

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站