hive 删除某个分区中部分数据
目录
一、需求
删除 hive 表中某个分区中的部分数据(不是删除该分区)
二、思路
1、数据库删除数据的本质其实是用新的数据去覆盖原有的表,只要新的数据中不含有你想删除的数据,就达到了删除的目的。
所以删除的语法是:
insert overwrite
2、删除分区表更复杂的一点是,要带上分区的限制:
insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18') select ...
3、此外,写 select * 不对,要写明除分区字段的所有字段。比如,下面的写法会报错:
(假设我的需求是删除 2020.12.18 日分区中 count 字段超过 200 的数据)
insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18') select * from sanmei_db.sanmei_example where dt = '2020-12-18' and count < 200;
上述代码报错:
SQL 错误 [10044] [42000]: Error while compiling statement: FAILED: SemanticException [Error 10044]: Line 1:23 Cannot insert into target table because column number/types are different ''2020-12-18'': Table insclause-0 has 2 columns, but query has 3 columns.
因此,代码应该写成如下:
insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18') select hour, count from sanmei_db.sanmei_example where dt = '2020-12-18' and count < 200;
三、补充
Hive 1.x 版本中没有 delete 操作。
2.x 版本更新后支持,如果一个表要实现 update 和 delete 功能,该表就必须支持 ACID,而支持 ACID,就必须满足以下条件: 1、表的存储格式必须是 ORC(STORED AS ORC);
以上,问题解决~