一篇文章彻底明白Hive数据存储的各种模式-阿里云开发者社区

一篇文章彻底明白Hive数据存储的各种模式

2017-08-02 2309

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

Hive的数据分为表数据和元数据，表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。下面分别来介绍。

一、Hive的数据存储

在让你真正明白什么是hive 博文中我们提到Hive是基于Hadoop分布式文件系统的，它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式，也没有为数据建立索引，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中(如果数据是在HDFS上;但如果数据是在本地文件系统中，那么是将数据复制到表所在的目录中)。

Hive中主要包含以下几种数据模型：Table(表)，External Table(外部表)，Partition(分区)，Bucket(桶)(本博客会专门写几篇博文来介绍分区和桶)。

1、表：Hive中的表和关系型数据库中的表在概念上很类似，每个表在HDFS中都有相应的目录用来存储表的数据，这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的 hive.metastore.warehouse.dir属性来配置，这个属性默认的值是/user/hive/warehouse(这个目录在 HDFS上)，我们可以根据实际的情况来修改这个配置。如果我有一个表wyp，那么在HDFS中会创建/user/hive/warehouse/wyp 目录(这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse);wyp表所有的数据都存放在这个目录中。这个例外是外部表。

2、外部表：Hive中的外部表和表很类似，但是其数据不是放在自己表所属的目录中，而是存放到别处，这样的好处是如果你要删除这个外部表，该外部表所指向的数据是不会被删除的，它只会删除外部表对应的元数据;而如果你要删除表，该表对应的所有数据包括元数据都会被删除。

3、分区：在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如wyp 表有dt和city两个分区，则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse /dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。

4、桶：对指定的列计算其hash，根据hash值切分数据，目的是为了并行，每一个桶对应一个文件(注意和分区的区别)。比如将wyp表id列分散至16个桶中，首先对id列的值计算hash，对应hash值为0和16的数据存储的HDFS目录为：/user /hive/warehouse/wyp/part-00000;而hash值为2的数据存储的HDFS 目录为：/user/hive/warehouse/wyp/part-00002。

来看下Hive数据抽象结构图

从上图可以看出，表是在数据库下面，而表里面又要分区、桶、倾斜的数据和正常的数据等;分区下面也是可以建立桶的。

二、Hive的元数据

Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性(是否为外部表等)，表的数据所在目录等。由于Hive的元数据需要不断的更新、修改，而HDFS系统中的文件是多读少改的，这显然不能将Hive的元数据存储在HDFS中。目前Hive将元数据存储在数据库中，如Mysql、Derby中。我们可以通过以下的配置来修改Hive元数据的存储方式


 
 

  
  <property> 

  
    <name>javax.jdo.option.ConnectionURL</name> 

  
    <value>jdbc:mysql://localhost:3306/hive_hdp?characterEncoding=UTF-8 

  
                      &createDatabaseIfNotExist=true</value> 

  
    <description>JDBC connect string for a JDBC metastore</description> 

  
  </property> 

  
    

  
  <property> 

  
    <name>javax.jdo.option.ConnectionDriverName</name> 

  
    <value>com.mysql.jdbc.Driver</value> 

  
    <description>Driver class name for a JDBC metastore</description> 

  
  </property> 

  
    

  
  <property> 

  
    <name>javax.jdo.option.ConnectionUserName</name> 

  
    <value>root</value> 

  
    <description>username to use against metastore database</description> 

  
  </property> 

  
    

  
  <property> 

  
    <name>javax.jdo.option.ConnectionPassword</name> 

  
    <value>123456</value> 

  
    <description>password to use against metastore database</description> 

  
  </property>

当然，你还需要将相应数据库的启动复制到${HIVE_HOME}/lib目录中，这样才能将元数据存储在对应的数据库中。

本文作者：佚名

来源：51CTO

一篇文章彻底明白Hive数据存储的各种模式

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

一篇文章彻底明白Hive数据存储的各种模式

热门文章

最新文章

相关课程

相关电子书