Hive的表的创建(转载)

简介: 创建表的三种方式第一种创建方式:普通方式(最常用)创建格式# 指定标的类型和表的名称CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.

创建表的三种方式

第一种创建方式:普通方式(最常用)

创建格式

# 指定标的类型和表的名称

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name

# 指定每列的名称和类型

[(col_name data_type [COMMENT col_comment], ...)]

# 对表的说明

[COMMENT table_comment]

# 指定分区表的列名称,列类型

[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

# 指定每列的分隔符、数据类型的类型

[

[ROW FORMAT row_format]

[STORED AS file_format]

| STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]

]

# 指定数据文件存储在HDFS的什么位置

[LOCATION hdfs_path]

# 表的属性设置

[TBLPROPERTIES (property_name=property_value, ...)]

# 子查询

示例(创建员工表和部门表)

img_99c98a0472a7f83d88a4b238f217a7ac.png
img_09ea57380094824d0d682eed1602aeb4.png
img_744c3dac537f490c6a36b8c88488183f.png

加载数据

格式:load data [local] inpath 'filepath' [overwrite] into table table_name [partition(partcol=val1,partcol2=val2...)]

参数解释:local表示是否从本地文件系统寻找文件,默认的是从hdfs上寻找文件;overwrite表示是否覆盖表中已有的数据。

hive (test_db)> load data local inpath '/opt/datas/emp.txt' overwrite into table emp;

hive (test_db)> load data local inpath '/opt/datas/dept.txt' overwrite into table dept;

img_d4d21e91681ea48ab03522a0bc094137.png
img_af2536726e96af8f296be1cb6f0e452e.png

第二种创健方式:把子查询的结果作为一张新表。适用于需要保存查询的中间结果。

创建格式

与第一种格式相同,需要注意 子查询要放在最后。

示例

img_3cd5e58030639b0d1d7b3a52255af33e.png

第三种创建方式:复制另外一个表的结构。

创建格式

create table tablename1 like tablename2;创建表1而且和表2 的表结构和属性完全一样,但是不复制表2中的数据,所以表1的数据为空。

示例

img_b9a2e20e893a5aa329a6b474571257c7.png
img_fc5ce781e13d67bba338c56d3c6ddbc7.png

Hive两种表类型

如果在创建表时不指定external关键字,则默认的是创建管理表(内部表),内部表对应的目录必须存储在hive的数据仓库中。

img_ee48aac57e51f697e17c85bf20996dca.png

还有一种表是指定external关键字的表,即外部表,外部表的数据文件可以自己指定目录(不在局限于hive数据仓库中),指定对的目录下面的数据文件及为这个表的数据文件。

如何创建外部表。location指定的是hdfs上的目录,该目录表示的是这个外部表目录,这个目录下的文件即为这个表的数据文件。

img_fe6af9644e29010ff88eff687be68909.png

内部表和外部表的区别

执行删除表命令操作时,对于内部表,会删除元数据和存储的数据,而对于外部表只会删除元数据库里的元数据信息,而不会删除存储的数据。这样可以防止多个部门同时使用一个表时,一个部门删除数据文件导致其他部门不能使用的情况。方便共享数据。

内部表默认存储在数据仓库中,而外部表一般通过location自己指定目录,便于存放在仓库外。

Hive分区表

为什么有分区表?

如果把一年或者一个月的日志文件存放在一个表下,那么数据量会非常的大,当查询这个表中某一天的日志文件的时候,查询速度还非常的慢,这时候可以采用分区表的方式,把这个表根据时间点再划分为小表。这样划分后,查询某一个时间点的日志文件就会快很多,因为这是不需要进行全表扫描。

hive中的分区表

hive中的分区是根据“分区列”的值对表的数据进行粗略的划分,hive中一个表对应一个目录,再根据分区列在这个表目录下创建子目录,每个子目录名就是分区列的名字。分区列定义与表中字段相似,但是与表中的字段无关,是独立的列。这样就加快了数据查询的速度,因为不会对这个表中进行全盘扫描了。

示例

创建分区表

img_72ace6daa4350745b8b00772372cacdb.png

向分区表加载数据

img_deaf5203a28bbfd8cdc1aec286c3f006.png
img_a8424fc1c6707ff2342adeaee076c395.png

查看分区表

img_c783ce16a69ef5ac4fc67358145bad7b.png
img_2e4cb40321d93c29e9b5653693fb1880.png

查询分区表中数据

img_087f5c0cfdb261fee5d74248494050ca.png

作者:心_的方向

链接:http://www.jianshu.com/p/265456b606dc

來源:简书

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

目录
相关文章
|
3月前
|
SQL 存储 HIVE
Hive中的表是如何定义的?请解释表的结构和数据类型。
Hive中的表是如何定义的?请解释表的结构和数据类型。
31 0
|
4月前
|
SQL 消息中间件 数据处理
DataX读取Hive Orc格式表丢失数据处理记录
DataX读取Hive Orc格式表丢失数据处理记录
127 0
|
5月前
|
SQL HIVE
49 Hive修改表
49 Hive修改表
19 0
49 Hive修改表
|
7月前
|
SQL 存储 分布式计算
Hive性能优化之表设计优化1
Hive性能优化之表设计优化1
36 1
|
2月前
|
SQL 消息中间件 Kafka
Flink部署问题之hive表没有数据如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
|
3月前
|
SQL 分布式计算 关系型数据库
Sqoop数据导入到Hive表的最佳实践
Sqoop数据导入到Hive表的最佳实践
|
8月前
|
SQL 存储 分布式计算
Hive学习---5、分区表和分桶表
Hive学习---5、分区表和分桶表
|
4月前
|
SQL 存储 HIVE
❤️Hive的基本知识(二)Hive中的各种表❤️
❤️Hive的基本知识(二)Hive中的各种表❤️
29 0
|
4月前
|
SQL 存储 关系型数据库
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
Presto【实践 01】Presto查询性能优化(数据存储+SQL优化+无缝替换Hive表+注意事项)及9个实践问题分享
86 0
|
4月前
|
SQL 存储 分布式计算
Hive 基本操作(创建数据库与创建数据库表)
Hive 基本操作(创建数据库与创建数据库表)
96 0