数据库必知词汇：Hive-阿里云开发者社区

数据库必知词汇：Hive

2020-02-23 1095

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Apache Hive数据仓库软件有助于使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已经存储的数据上。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Apache Hive数据仓库软件有助于使用SQL读取，写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已经存储的数据上。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。

Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。

Hive提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉MapReduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。而MapReduce开发人员可以把自己写的Mapper和Reducer作为插件来支持Hive做更复杂的数据分析。

Hive SQL与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询。它还提供了一系列工具进行数据提取转化加载，用来存储、查询和分析存储在Hadoop中的大规模数据集，并支持UDF（User-Defined Function）、UDAF(User-Defnes AggregateFunction)和USTF（User-Defined Table-Generating Function），也可以实现对Map和Reduce函数的定制，为数据操作提供了良好的伸缩性和可扩展性。

Hive并不适合那些需要低延迟的应用，例如，联机事务处理（OLTP）。Hive查询操作过程严格遵守Hadoop MapReduce 的作业执行模型，Hive将用户的Hive SQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上，Hadoop监控作业执行过程，然后返回作业执行结果给用户。Hive并非为联机事务处理而设计，Hive并不提供实时的查询和基于行级的数据更新操作。Hive的最佳使用场合是大数据集的批处理作业，

Hive中包含以下四类数据模型：表(Table)、外部表(External Tablc)、分区(Partition)、桶(Bucket)，具体解释如下：

Hive中的Table和数据库中的Table在概念上是类似的。在Hive中每一个Table都有一个相应的目录存储数据。
外部表是一个已经存储在HDFS中，并具有一定格式的数据。使用外部表意味着Hive表内的数据不在Hive的数据仓库内，它会到仓库目录以外的位置访问数据。
分区对应于数据库中的分区列的密集索引，但是Hive中分区的组织方式和数据库中的很不相同。在Hive中，表中的一个分区对应于表下的一个目录，所有的分区的数据都存储在对应的目录中。
桶对指定列进行哈希计算，会根据哈希值切分数据，目的是为了并行，每一个桶对应一个文件。

资料来源：
Apache Hive https://hive.apache.org/
万川梅，谢正兰编著．HADOOP应用开发实战祥解（修订版）：中国铁道出版社，2014.08
鲍亮，陈荣编著. 深入浅出云计算[M]. 北京：清华大学出版社, 2012.10
陶皖主编．云计算与大数据：西安电子科技大学出版社，2017.01
刘永增, 张晓景, 李先毅. 基于Hadoop/Hive的web日志分析系统的设计[C]// 中国教育和科研计算机网cernet学术年会. 2011.
高金标, 何利力, 邹云阳. 基于分布式存储系统的Hive与Hbase的研究[J]. 工业控制计算机, 2015, v.28(12).

数据库必知词汇：Hive

阿里云术语库

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据库必知词汇：Hive

阿里云术语库

热门文章

最新文章

相关课程

相关电子书