《离线和实时大数据开发实战》（四）Hive 原理实践1

2022-06-14 256

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 《离线和实时大数据开发实战》（四）Hive 原理实践1

文章目录

前言

一、Hive 基本架构

二、Hive SQL

Hive 关键概念

1. Hive 数据库

2. Hive 表

3. 分区和桶

( 1 ）分区

( 2 ）分桶

Hive DDL

1. 创建表

2. 修改表

3. 删除表

4. 插入表

( 1 ）向表中加载数据

( 2 ）将查询结果插入 Hive

Hive DML

1. 基本的 select 操作

2. join 表

三、Hive SQL 执行原理图解

四、小结

前言

我们都知道，Hive SQL 实际上是翻译为 MapReduce 执行的，那么它具体过程如何呢？今天我们就来探寻 Hive SQL 背后的执行机制和原理。

进一步理解和掌握 Hive SQL 的执行原理对于平时离线任务的开发和优化非常重要，直接关系到 Hive SQL 的执行效率和时间。

一、Hive 基本架构

作为基于 Hadoop 主要数据仓库解决方案， Hive SQL 是主要的交互接口，实际的数据保存在 HDFS 文件中，真正的计算和执行则由 MapReduce 完成，它们之间的桥梁是 Hive 引擎。

Hive 主要组件包括 UI 组件、 Driver 组件（ Complier Optimizer Executor ）、 Metastore组件、 CLI ( Command Line Interface ，命令行接口）、 JDBC/ODBC 、Thrift Server 和 Hive Web Interface (HWI ）等。

Hive 就是通过 CLI 、JDBC / ODBC 或者 HWI 接收相关的 Hive SQL 查询，并通过 Driver 组件进行编译，分析优化，最后变成可执行的 MapReduce。

二、Hive SQL

Hive SQL 是类似于 ANSI SQL 标准的SQL 语言，但两者又不完全相同。 Hive SQL 和 MySQL 的 SQL 语言最为接近，但两者之间也存在显著差异，比如 Hive 不支持行级数据插人、更新和删除，也不支持事务等。

Hive 关键概念

1. Hive 数据库

Hive 中的数据库从本质上来说仅仅是一个目录或者命名空间，但是对于具有很多用户和组的集群来说，这个概念非常有用。

首先，这样可以避免表命名冲突；其次，它等同于关系型数据库中的数据库概念，是一组表或者表的逻辑组，非常容易理解。

2. Hive 表

Hive 中的表（ Table ）和关系数据库中的 table 在概念上是类似的，每个 table 在 Hive 中都有一个相应的目录存储数据，如果没有指定表的数据库，那么 Hive 会通过｛HIVE_HOME} /conf/hive-site.xml 配置文件中的 hive.metastore.warehouse.dir 属性来使用默认值（一般是 /user/hive/warehouse ，也可以根据实际的情况来修改这个配置），所有的 table 数据（不包括外部表) 都保存在这个目录中。

Hive 表分为两类，即内部表和外部表。所谓内部表（managed table) 即 Hive 管理的表，Hive 内部表的管理既包含逻辑以及语法上的，也包含实际物理意义上的，即创建 Hive 内部表时，数据将真实存在于表所在的目录内，删除内部表时，物理数据和文件也一并删除。

那么到底是选择内部表还是外部表呢？

大多数情况下，这两者的区别不是很明显。如果数据的所有处理都在 Hive 中进行，那么更倾向于选择内部表。但是如果 Hive 和其他工具针对相同的数据集做处理，那么外部表更合适。

一种常见的模式是使用外部表访问存储的 HDFS （通常由其他工具创建）中的初始数据，然后使用 Hive 转换数据并将其结果放在内部表中。相反，外部表也可以用于将 Hive 的处理结果导出供其他应用使用。

使用外部表的另一种场景是针对一个数据集，关联多个 Schema。

3. 分区和桶

Hive 将表划分为分区（partition)，partition 根据分区字段进行。分区可以让数据的部分查询变得更快。表或者分区可以进一步被划分为桶（ bucket）。桶通常在原始数据中加入一些额外的结构，这些结构可以用于高效查询。

例如，基于用户 ID 的分桶可以使基于用户的查询非常快。

( 1 ）分区

假设日志数据中，每条记录都带有时间戳。如果根据时间来分区，那么同一天的数据将被划分到同一个分区中。

分区可以通过多个维度来进行。例如，通过日期划分之后，还可以根据国家进一步划分。

分区在创建表的时候使用 PARTITIONED BY 从句定义，该从句接收一个字段列表：

CREATE TABLE logs (ts BIGINT , line STRING)
PARTITIONED BY (dt STRING,country STRING);

当导入数据到分区表时，分区的值被显式指定：

LOAD DATA INPATH ’/user/root/path’ 
INTO TABLE logs 
PARTITION (dt='2001-01-01',country='GB’);

实际 SQL 中，灵活指定分区将大大提高其效率，如下代码将仅会扫描 2001-01-01下的 GB 目录。

SELECT ts , dt , line FROM logs WHERE dt=‘2001-01-01' and country='GB'

( 2 ）分桶

在表或者分区中使用桶通常有两个原因：

一是为了高效查询。桶在表中加入了特殊的结果， Hive 在查询的时候可以利用这些结构提高效率。例如，如果两个表根据相同的字段进行分桶，则在对这两个表进行关联的时候，可以使用 map-side 关联高效实现，前提是关联的字段在分桶字段中出现。

二是可以高效地进行抽样。在分析大数据集时，经常需要对部分抽样数据进行观察和分析，分桶有利于高效实现抽样。

为了让 Hive 对表进行分桶，通过 CLUSTERED BY 从句在创建表的时候指定：

CREATE TABLE bucketed users(id INT, name STRING) 
CLUSTERED BY (id) INTO 4 BUCKETS;

指定表根据 id 字段进行分桶，并且分为 4 个桶。分桶时， Hive 根据字段哈希后取余数来决定数据应该放在哪个桶，因此每个桶都是整体数据的随机抽样。

在 map-side 的关联中，两个表根据相同的宇段进行分桶，因此处理左边表的 bucket 时，可以直接从外表对应的 bucket 中提取数据进行关联操作。 map-side 关联的两个表不一定需要完全相同 bucket 数量，只要成倍数即可。

需要注意的是， Hive 并不会对数据是否满足表定义中的分桶进行校验，只有在查询时出现异常才会报错。因此，一种更好的方式是将分桶的工作交给 Hive 来完成（设 hive.enforce.bucketing 属性为 true 即可）。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《离线和实时大数据开发实战》（四）Hive 原理实践1

文章目录

前言

一、Hive 基本架构

二、Hive SQL

Hive 关键概念

1. Hive 数据库

2. Hive 表

3. 分区和桶

( 1 ）分区

( 2 ）分桶

热门文章

最新文章

相关课程

相关电子书

相关实验场景