hive中删除操作及HDFS回收站管理腾出空间的实操-阿里云开发者社区

hive中删除操作及HDFS回收站管理腾出空间的实操

2023-02-26 1049

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 删除hive数据时，首先明确你使用删除数据还是连同表结构也要删除，如果只是要删除数据可以选择truncate来清空表中的数据，如果要对表进行删除，首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用，如果不需要使用了可以直接使用HDFS命令对目录进行删除。

一、删除

删除hive数据时，首先明确你使用删除数据还是连同表结构也要删除，如果只是要删除数据可以选择truncate来清空表中的数据，如果要对表进行删除，首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用，如果不需要使用了可以直接使用HDFS命令对目录进行删除。

查询内、外部表有两个方法：
方法一：
hive shell中执行

describe extended tablename;

查看表的详细信息，外部表 tableType 字段会显示 EXTERNAL_TABLE，内部表 tableType字段会显示MANAGD_TABLE。

方法二：
在hive shell中执行

desc formatted tablename;

可以查看表的格式和详细信息，这里可以得到Table Type ，也可以根据Table Type知道表是内部表还是外部表。MANAGED_TABLE内部表，EXTERNAL_TABLE是外部表。

同时可以查看表的location ，直接指定的是hdfs的路径，则是外部表，如果指定的是Hive表数据存放的路径,则是内部表，hive表数据存放的路径在Hive的${HIVE_HOME}/conf/hive-site.xml配置文件中，hive.metastore.warehouse.dir属性指定的路径。

二、Hadoop回收站

Hadoop回收站trash，默认是关闭的。可以对如下配置进行修改，回收站保留时间可以根据你的hadoop集群的存储空间、删除数据的频率、每天回收站回收的占用来决定。

1.修改conf/core-site.xml,增加

<property>  
      <name>fs.trash.interval</name>  
      <value>1440</value>  
      <description>Number of minutes between trash checkpoints.  
      If zero, the trash feature is disabled.  
      </description>  
    </property>

默认单位是分钟。这里我设置的是1小时（60*24=1440）
在hdfs的shell中删除数据后、hive删除表后都会将数据移动到该用户目录下的.Trash目录。

如果要手动清空垃圾回收站有两种方式

1、清空回收站命令：

hdfs dfs -expunge

执行完之后会打一个checkpoint，并不会立即执行，稍后会执行清空回收站操作

2、删除.Trash目录（清理垃圾）

hadoop fs -rmr -skipTrash /user/$USER/.Trash

注意：需要添加参数： -skipTrash 才会完全删除，如果不添加，会放到另外一个.Trash

恢复回收站数据,就是将HDFS中垃圾回收站的数据移回对应表的目录中

例如：

hadoop dfs -mv /user/$USER/.Trash/Current/user/$USER/in /user/hive/warehouse

hive中删除操作及HDFS回收站管理腾出空间的实操

一、删除

二、Hadoop回收站

热门文章

最新文章

相关课程

相关电子书