【Hive】(五)Hive 中动态分区与静态分区详解

简介: 【Hive】(五)Hive 中动态分区与静态分区详解

文章目录


一、静态分区

二、动态分区


Hive中的分区有两种:动态分区和静态分区


一、静态分区


静态分区


1、创建分区表

hive> create table stu2(
    > id int,
    > name string,
    > likes array<string>,
    > adress map<string,string>
    > )
    > partitioned by (age int,sex string)
    > row format delimited
    > fields terminated by ','
    > collection items terminated by '-'
    > map keys terminated by ':'
    > lines terminated by '\n';


2、加载数据到分区表

hive> load data local inpath '/opt/soft/stu.txt' into table stu2
    > partition (age=20,sex="male");
alter table stu2 add partition(age=10,sex='female'); 
// 
show partitions stu2;   // 查看分区
alter table stu2 drop partition(age=10,sex='female');


3、这种手动指定分区加载数据,就是常说的静态分区的使用。但是在日常工作中用的比较多的是动态分区。


静态分区是在创建表的时候就指定分区或者将表已经创建之后再指定分区(使用alter关键字)


二、动态分区


1、创建目标表

hive> create table stuo1(
    > id int,
    > name string,
    > age int,
    > gender string,
    > likes array<string>,
    > address map<string,string>
    > )
    > row format delimited
    > fields terminated by ','
    > collection items terminated by '-'
    > map keys terminated by ':'
    > lines terminated by '\n';


hive> create table stuo2(
    > id int,
    > name string,
    > likes array<string>,
    > address map<string,string>
    > )
    > partitioned by (age int,gender string)
    > row format delimited
    > fields terminated by ','
    > collection items terminated by '-'
    > map keys terminated by ':'
    > lines terminated by '\n';


2、采用动态方式加载数据到目标表


加载之前先设置一下下面的参数

hive> set hive.exec.dynamic.partition=true;
hive> set hive.exec.dynamic.partition.mode=nonstrict;


开始加载

hive> insert into table stuo2 partition(age,gender)
    > select id,name,likes,address,age,gender from stuo1;


上面加载数据方式并没有指定具体的分区,只是指出了分区字段。在select最后一个字段必须跟你的分区字段,这样就会自行根据(age,gender)的value来分区。


3、验证一下


创建动态分区表:


image.png


首先是要创建静态分区表;然后将表设置为非严格模式;再次创建动态分区表,并加载数据。


加载数据的时候,是按照静态分区的模式,将数据加载到动态分区中去。


目录
相关文章
|
SQL HIVE
Hive分区+根据分区查询
Hive分区+根据分区查询
|
4月前
|
SQL 存储 HIVE
hive分区与分桶
hive分区与分桶
56 1
|
5月前
|
SQL DataWorks 监控
DataWorks产品使用合集之同步数据到Hive时,如何使用业务字段作为分区键
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在进行Hive分区truncate操作时遇到权限不足,怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
79 0
|
7月前
|
SQL 存储 HIVE
Hive中的动态分区是什么?请解释其作用和使用场景。
Hive中的动态分区是什么?请解释其作用和使用场景。
135 0
|
SQL 分布式计算 大数据
Hive动态分区
Hive动态分区
131 0
|
SQL 存储 分布式计算
大数据技术基础实验十一:Hive实验——Hive分区
大数据基础实验十一,学习有关Hive分区的相关知识。
302 0
大数据技术基础实验十一:Hive实验——Hive分区
|
SQL 存储 数据库
hive 删除某个分区中部分数据
hive 删除某个分区中部分数据
|
SQL HIVE
hive清空表删除分区
hive清空表删除分区
|
SQL HIVE
hive插入分区报错SemanticException Partition spec contains non-partition columns
hive插入分区报错SemanticException Partition spec contains non-partition columns