hive元数据表结构

简介:

在debug hive的问题的时候,经常需要分析hive元数据的表结构。
这里简单地说下常用的几个表的结构:

dbs 存储了database的一些信息,id,描述,hdfs中的路径和名称。
tbls 存储了table的一些信息,id,表名等。。其中常用的两个字段是SD_ID和TBL_TYPE,SD_ID后面再说。TBL_TYPE字段 定义了表是外部表(EXTERNAL_TABLE)还是托管表(MANAGED_TABLE)

hive目前的版本是支持view的,view的定义是在tbls表中,TBL_TYPE字段是VIRTUAL_VIEW。

1
2
3
4
5
6
7
8
select  distinct  TBL_TYPE  from  tbls;                          
+ ----------------+
| TBL_TYPE       |
+ ----------------+
| MANAGED_TABLE  |
| EXTERNAL_TABLE |
| VIRTUAL_VIEW   |
+ ----------------+

tbls中有另外的两个字段标识了view的sql:

VIEW_EXPANDED_TEXT,VIEW_ORIGINAL_TEXT

其中VIEW_ORIGINAL_TEXT 是创建view时输入的sql,而VIEW_EXPANDED_TEXT是对sql进行规范化之后的结果。

table_params 定义了表的statistics信息和一些表的特性,statistics比如文件数量,分区数量,数据量大小等等,不过目前看来不是很准确,特性比如是否可以drop('PROTECT_MODE'='NO_DROP')等。。

sds 表存储了table到hdfs路径和format,serial等信息,常用的字段是CD_ID和LOCATION,通过tbls的tbl_id字段和sds关联,可以得出表在hdfs中的路径信息和CD_ID

1
2
3
4
5
6
select  b.tbl_id,b.tbl_name,c.CD_ID,c.location  from  dbs a,tbls b,sds c  where  a.DB_ID=b.DB_ID  and  b.TBL_NAME= 'partition_test'  and  b.SD_ID=c.SD_ID\G;
*************************** 1. row ***************************
   tbl_id: 430381
tbl_name: partition_test
    CD_ID: 431456
location: hdfs://bipcluster/bip/hive_warehouse/cdnlog.db/partition_test

cds表只存储了cd_id字段
columns_v2 表存储了表的column信息,比如字段名称(COLUMN_NAME),字段类型(TYPE_NAME),字段位置(INTEGER_IDX)等
通过tbls和sds的join可以得出表的cd_id,然后再和columns_v2表进行join即可得出表的字段信息,比如上面的表:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
select  from  columns_v2  where  cd_id= '431456' \G;
*************************** 1. row ***************************
       CD_ID: 431456
     COMMENT:  NULL
COLUMN_NAME: ip
   TYPE_NAME: string
INTEGER_IDX: 0
*************************** 2. row ***************************
       CD_ID: 431456
     COMMENT:  NULL
COLUMN_NAME:  size
   TYPE_NAME: string
INTEGER_IDX: 2
*************************** 3. row ***************************
       CD_ID: 431456
     COMMENT:  NULL
COLUMN_NAME: status
   TYPE_NAME: string
INTEGER_IDX: 1


与partition相关的常用表:
partitions 表分区相关信息,和tbl_id关联,可以获取分区的SD_ID,然后可以获取分区的hdfs路径和column信息。


1
2
3
4
select   a.PART_NAME,b.LOCATION,b.cd_id  from  partitions  a,sds b  where  a.tbl_id= '430381'  and  a.sd_id=b.sd_id\G;
PART_NAME: dt=20140121
  LOCATION: hdfs://bipcluster/bip/hive_warehouse/cdnlog.db/partition_test/dt=20140121
     cd_id: 431456

partition_params 和table_params信息一样,存储一些statistics相关的信息
partition_key_vals  分区信息,和 partitions的part_id关联
partition_keys 分区键信息,和tbls的tbl_id关联

权限相关的表:
tbl_privs,tbl_col_privs,db_privs,global_privs,roles,role_map 等。


还有剩下的一些表,用得比较少,以后有机会再来看。。



本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/1353872,如需转载请自行联系原作者

相关文章
|
SQL 存储 HIVE
Hive中的表是如何定义的?请解释表的结构和数据类型。
Hive中的表是如何定义的?请解释表的结构和数据类型。
184 0
|
11月前
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
159 2
|
SQL 存储 关系型数据库
Hive 元数据更新
【8月更文挑战第12天】
297 1
|
SQL 存储 关系型数据库
【Hive】Hive有哪些方式保存元数据,各有哪些特点?
【4月更文挑战第17天】【Hive】Hive有哪些方式保存元数据,各有哪些特点?
|
SQL 存储 大数据
关于数据仓库的Hive的Hive架构的MetaStore元数据服务
随着大数据技术的不断发展,数据仓库成为了企业中不可或缺的一部分。而Hive作为一种开源的数据仓库系统,因其易于使用和高效处理等特点,成为了许多企业的首选。然而,对于普通用户来说,直接使用Hive的命令行工具进行操作并不方便。因此,开发者社区中涌现出了大量的Hive GUI工具,其中最为流行的就是Web GUI工具。
450 2
|
SQL 分布式计算 大数据
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复
|
SQL Oracle 关系型数据库
Hive数据表删除数据操作
Hive数据表删除数据操作
Hive数据表删除数据操作
|
SQL 存储 关系型数据库
Hive 的数据存储单元结构
Hive 的数据存储单元结构
|
SQL 存储 分布式计算
大数据组件-Hive部署基于derby作为元数据存储
大数据组件-Hive部署基于derby作为元数据存储
大数据组件-Hive部署基于derby作为元数据存储
|
SQL 存储 分布式计算
大数据组件-Hive部署基于MySQL作为元数据存储
大数据组件-Hive部署基于MySQL作为元数据存储
大数据组件-Hive部署基于MySQL作为元数据存储