hive中删除操作及HDFS回收站管理腾出空间的实操-阿里云开发者社区

hive中删除操作及HDFS回收站管理腾出空间的实操

2023-02-26 1650

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 删除hive数据时，首先明确你使用删除数据还是连同表结构也要删除，如果只是要删除数据可以选择truncate来清空表中的数据，如果要对表进行删除，首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用，如果不需要使用了可以直接使用HDFS命令对目录进行删除。

一、删除

删除hive数据时，首先明确你使用删除数据还是连同表结构也要删除，如果只是要删除数据可以选择truncate来清空表中的数据，如果要对表进行删除，首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用，如果不需要使用了可以直接使用HDFS命令对目录进行删除。

查询内、外部表有两个方法：
方法一：
hive shell中执行

describe extended tablename;

查看表的详细信息，外部表 tableType 字段会显示 EXTERNAL_TABLE，内部表 tableType字段会显示MANAGD_TABLE。

方法二：
在hive shell中执行

desc formatted tablename;

可以查看表的格式和详细信息，这里可以得到Table Type ，也可以根据Table Type知道表是内部表还是外部表。MANAGED_TABLE内部表，EXTERNAL_TABLE是外部表。

同时可以查看表的location ，直接指定的是hdfs的路径，则是外部表，如果指定的是Hive表数据存放的路径,则是内部表，hive表数据存放的路径在Hive的${HIVE_HOME}/conf/hive-site.xml配置文件中，hive.metastore.warehouse.dir属性指定的路径。

二、Hadoop回收站

Hadoop回收站trash，默认是关闭的。可以对如下配置进行修改，回收站保留时间可以根据你的hadoop集群的存储空间、删除数据的频率、每天回收站回收的占用来决定。

1.修改conf/core-site.xml,增加

<property>  
      <name>fs.trash.interval</name>  
      <value>1440</value>  
      <description>Number of minutes between trash checkpoints.  
      If zero, the trash feature is disabled.  
      </description>  
    </property>

默认单位是分钟。这里我设置的是1小时（60*24=1440）
在hdfs的shell中删除数据后、hive删除表后都会将数据移动到该用户目录下的.Trash目录。

如果要手动清空垃圾回收站有两种方式

1、清空回收站命令：

hdfs dfs -expunge

执行完之后会打一个checkpoint，并不会立即执行，稍后会执行清空回收站操作

2、删除.Trash目录（清理垃圾）

hadoop fs -rmr -skipTrash /user/$USER/.Trash

注意：需要添加参数： -skipTrash 才会完全删除，如果不添加，会放到另外一个.Trash

恢复回收站数据,就是将HDFS中垃圾回收站的数据移回对应表的目录中

例如：

hadoop dfs -mv /user/$USER/.Trash/Current/user/$USER/in /user/hive/warehouse

hive中删除操作及HDFS回收站管理腾出空间的实操

一、删除

二、Hadoop回收站

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

hive中删除操作及HDFS回收站管理腾出空间的实操

一、删除

二、Hadoop回收站

热门文章

最新文章

相关课程

相关电子书