问题背景
假如我们有一个分区表名为partition_table,对该表执行如下添加字段new_c的sql语句:
alter table partition_table add columns(new_c STRING);
在查询partition_table通过insert overwrite覆写的历史分区数据时,发现新增字段new_c为null数据!
问题原因
修改Hive分区表结构以后,元数据库中的SDS中该表对应的CD_ID会改变,但是该表历史分区下面对应的CD_ID还是原来表的CD_ID,导致无法获取新增加字段的值数据。SDS表主要保存文件存储的基本信息,如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。
注意:如果是增加字段之后新创建分区,并写入数据,那么是不存在上述问题的。但是,如果是历史分区,在增加字段之后重新insert overwrite分区数据,那么会出现上述问题。
解决方法
方法1:删除历史分区,然后重写
# 删除历史分区 alter table partition_table drop partition(p_dt<='分区'); # 重写(开启动态分区) set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; insert overwrite table partition_table partition(p_dt) select *,p_dt from 源表 where p_dt<='分区';
方法2:使用cascade关键字
使用方式如下:
alter table partition_table add columns(new_c STRING) cascade;
使用cascade关键字之后,历史分区使用的元数据CD_ID也会统一修改,所以不存在通过insert overwrite覆写历史分区数据时出现新增字段为NULL的问题。
注意:这种方法是预防insert overwrite覆写历史分区数据时出现新增字段为NULL的问题,等问题出现的时候就需要使用方法1来解决。