一、删除
删除hive数据时,首先明确你使用删除数据还是连同表结构也要删除,如果只是要删除数据可以选择truncate来清空表中的数据,如果要对表进行删除,首先要考虑该表是内部表还是外部表。如果是外部表要确认数据是否还需要使用,如果不需要使用了可以直接使用HDFS命令对目录进行删除。
查询内、外部表有两个方法:
方法一:
hive shell中执行
describe extended tablename;
查看表的详细信息,外部表 tableType 字段会显示 EXTERNAL_TABLE,内部表 tableType字段会显示MANAGD_TABLE。
方法二:
在hive shell中执行
desc formatted tablename;
可以查看表的格式和详细信息,这里可以得到Table Type ,也可以根据Table Type知道表是内部表还是外部表。MANAGED_TABLE内部表,EXTERNAL_TABLE是外部表。
同时可以查看表的location ,直接指定的是hdfs的路径,则是外部表,如果指定的是Hive表数据存放的路径,则是内部表,hive表数据存放的路径在Hive的${HIVE_HOME}/conf/hive-site.xml配置文件中,hive.metastore.warehouse.dir属性指定的路径。
二、Hadoop回收站
Hadoop回收站trash,默认是关闭的。 可以对如下配置进行修改,回收站保留时间可以根据你的hadoop集群的存储空间、删除数据的频率、每天回收站回收的占用来决定。
1.修改conf/core-site.xml,增加
<property>
<name>fs.trash.interval</name>
<value>1440</value>
<description>Number of minutes between trash checkpoints.
If zero, the trash feature is disabled.
</description>
</property>
默认单位是分钟。这里我设置的是1小时(60*24=1440)
在hdfs的shell中删除数据后、hive删除表后都会将数据移动到该用户目录下的.Trash目录。
如果要手动清空垃圾回收站有两种方式
1、清空回收站命令:
hdfs dfs -expunge
执行完之后会打一个checkpoint,并不会立即执行,稍后会执行清空回收站操作
2、删除.Trash目录(清理垃圾)
hadoop fs -rmr -skipTrash /user/$USER/.Trash
注意:需要添加参数: -skipTrash 才会完全删除,如果不添加,会放到另外一个.Trash
恢复回收站数据,就是将HDFS中垃圾回收站的数据移回对应表的目录中
例如:
hadoop dfs -mv /user/$USER/.Trash/Current/user/$USER/in /user/hive/warehouse