hive元数据表结构-阿里云开发者社区

hive元数据表结构

2017-11-21 2096

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

在debug hive的问题的时候，经常需要分析hive元数据的表结构。
这里简单地说下常用的几个表的结构：

dbs 存储了database的一些信息，id,描述，hdfs中的路径和名称。
tbls 存储了table的一些信息，id，表名等。。其中常用的两个字段是SD_ID和TBL_TYPE，SD_ID后面再说。TBL_TYPE字段定义了表是外部表（EXTERNAL_TABLE）还是托管表（MANAGED_TABLE）

hive目前的版本是支持view的，view的定义是在tbls表中，TBL_TYPE字段是VIRTUAL_VIEW。

 
        select 
        distinct 
        TBL_TYPE 
        from 
        tbls;                           
       
        +
        ----------------+ 
       
        | TBL_TYPE       |
       
        +
        ----------------+ 
       
        | MANAGED_TABLE  |
       
        | EXTERNAL_TABLE |
       
        | VIRTUAL_VIEW   |
       
        +
        ----------------+

tbls中有另外的两个字段标识了view的sql:

VIEW_EXPANDED_TEXT,VIEW_ORIGINAL_TEXT

其中VIEW_ORIGINAL_TEXT 是创建view时输入的sql，而VIEW_EXPANDED_TEXT是对sql进行规范化之后的结果。

table_params 定义了表的statistics信息和一些表的特性，statistics比如文件数量，分区数量，数据量大小等等，不过目前看来不是很准确，特性比如是否可以drop（'PROTECT_MODE'='NO_DROP'）等。。

sds 表存储了table到hdfs路径和format,serial等信息，常用的字段是CD_ID和LOCATION，通过tbls的tbl_id字段和sds关联，可以得出表在hdfs中的路径信息和CD_ID

 
        select 
        b.tbl_id,b.tbl_name,c.CD_ID,c.location 
        from 
        dbs a,tbls b,sds c 
        where 
        a.DB_ID=b.DB_ID 
        and 
        b.TBL_NAME=
        'partition_test' 
        and 
        b.SD_ID=c.SD_ID\G; 
       
        *************************** 1. row ***************************
       
        tbl_id: 430381 
       
        tbl_name: partition_test
       
        CD_ID: 431456 
       
        location: hdfs://bipcluster/bip/hive_warehouse/cdnlog.db/partition_test

cds表只存储了cd_id字段
columns_v2 表存储了表的column信息，比如字段名称（COLUMN_NAME），字段类型（TYPE_NAME），字段位置（INTEGER_IDX）等
通过tbls和sds的join可以得出表的cd_id，然后再和columns_v2表进行join即可得出表的字段信息，比如上面的表：

 
        select 
        * 
        from 
        columns_v2 
        where 
        cd_id=
        '431456'
        \G; 
       
        *************************** 1. row ***************************
       
        CD_ID: 431456 
       
        COMMENT: 
        NULL 
       
        COLUMN_NAME: ip
       
        TYPE_NAME: string 
       
        INTEGER_IDX: 0
       
        *************************** 2. row ***************************
       
        CD_ID: 431456 
       
        COMMENT: 
        NULL 
       
        COLUMN_NAME: 
        size 
       
        TYPE_NAME: string 
       
        INTEGER_IDX: 2
       
        *************************** 3. row ***************************
       
        CD_ID: 431456 
       
        COMMENT: 
        NULL 
       
        COLUMN_NAME: status
       
        TYPE_NAME: string 
       
        INTEGER_IDX: 1

与partition相关的常用表：
partitions 表分区相关信息，和tbl_id关联，可以获取分区的SD_ID，然后可以获取分区的hdfs路径和column信息。

 
        select  
        a.PART_NAME,b.LOCATION,b.cd_id 
        from 
        partitions  a,sds b 
        where 
        a.tbl_id=
        '430381' 
        and 
        a.sd_id=b.sd_id\G; 
       
        PART_NAME: dt=20140121
       
        LOCATION: hdfs://bipcluster/bip/hive_warehouse/cdnlog.db/partition_test/dt=20140121 
       
        cd_id: 431456

partition_params 和table_params信息一样，存储一些statistics相关的信息
partition_key_vals 分区信息，和 partitions的part_id关联
partition_keys 分区键信息，和tbls的tbl_id关联

权限相关的表：
tbl_privs，tbl_col_privs，db_privs，global_privs，roles，role_map 等。

还有剩下的一些表，用得比较少，以后有机会再来看。。

本文转自菜菜光 51CTO博客，原文链接：http://blog.51cto.com/caiguangguang/1353872，如需转载请自行联系原作者

hive元数据表结构

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

hive元数据表结构

热门文章

最新文章

相关课程

相关电子书