hdfs数据误删分析与恢复

简介:

一、相关参数:

1、core-site.xml  文件修改以下配置项:

1
2
3
4
5
<property>
      <name>fs.trash.interval< /name >
      <value>2880< /value >
      <description>HDFS垃圾箱设置,可以恢复误删除,配置的值为分钟数,0为禁用< /description >
< /property >




2、hdfs-default.xml 文件注意以下配置项:

1
2
3
4
5
<property>          
       <name>dfs.ha.log-roll.period< /name >
       <value>120< /value >
       <description>EditLog 日志滚动频率,单位为秒,默认是两分钟< /description >
< /property >



二、分析过程

1、找到editlog日志所在目录

查看hdfs-site.xml文件,找到fs.namenode.name.dir配置项的值,如:file:/home/hadoop-2.6.0-cdh5.5.0/dfs/name

/home/hadoop-2.6.0-cdh5.5.0/dfs/name目录下的current文件里,就是editlog文件,如下图

wKioL1bii1yBcIyCAABDtJZIgG0257.png

spacer.gif

2、使用命令查看edits_inprogress文件

1
  #hdfs oev -i edits_inprogress_0000000000000000023 -o edits_inprogress_0000000000000000023.xml

其中 -i 是输入文件名,-o是需要把解析的文件输出到该文件中

解析完成后,查看edits_inprogress_0000000000000000023.xml文件即可

3、打开文件分析

找到被删除的文件或文件夹,在edits_inprogress_0000000000000000023.xml文件中搜索相关项,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
<RECORD>
     <OPCODE>OP_RENAME_OLD< /OPCODE >
     <DATA>
       <TXID>15< /TXID >
       <LENGTH>0< /LENGTH >
       <SRC> /dat < /SRC >
       <DST> /user/root/ .Trash /Current/dat < /DST >
       <TIMESTAMP>1454315297010< /TIMESTAMP >
       <RPC_CLIENTID>6832d4f9-4fa6-4dbb-89aa-ffaa26109078< /RPC_CLIENTID >
       <RPC_CALLID>6< /RPC_CALLID >
     < /DATA >
   < /RECORD >

可以看出,HDFS中 /dat 文件是在  1454315297  时间点被移入回收站的

4、恢复文件

执行以下命令:

1
2
  
#fs -mv   /user/root/.Trash/Current/dat    /dat


进行恢复










本文转自 zouqingyun 51CTO博客,原文链接:http://blog.51cto.com/zouqingyun/1750012,如需转载请自行联系原作者
目录
相关文章
|
3月前
|
存储 分布式计算 Java
HDFS的数据读取流程是怎样的?请描述数据读取的过程。
HDFS的数据读取流程是怎样的?请描述数据读取的过程。
27 0
|
3月前
|
Java API
HDFS的数据写入流程是怎样的?请描述数据写入的过程。
HDFS的数据写入流程是怎样的?请描述数据写入的过程。
20 0
|
4月前
|
存储 Linux
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
110 1
|
5月前
|
算法 数据中心
HDFS数据的读写流程
HDFS数据的读写流程
42 0
|
6月前
|
SQL 分布式计算 大数据
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复
大数据问题排查系列 - 因HIVE 中元数据与HDFS中实际的数据不一致引起的问题的修复
|
7月前
|
存储 分布式计算 Hadoop
HDFS Namenode挂掉后分析解决
HDFS Namenode挂掉后分析解决
169 1
|
7月前
|
存储 分布式计算 负载均衡
HDFS服役新数据节点和退役旧节点步骤
HDFS服役新数据节点和退役旧节点步骤
183 1
|
7月前
|
缓存 分布式计算 负载均衡
HDFS 的写数据流程分析
HDFS的写数据流程是一道比较常见的面试题,同时梳理了写流程也可以帮助我们更加深入一点的了解 HDFS 的主要原理和各个组件的交互过程
|
8月前
|
JSON 缓存 关系型数据库
5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)(二)
5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)(二)
|
8月前
|
存储 SQL JSON
5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)(一)
5、DataX(DataX简介、DataX架构原理、DataX部署、使用、同步MySQL数据到HDFS、同步HDFS数据到MySQL)(一)