NN 故障处理_案例| 学习笔记

简介: 快速学习 NN 故障处理_案例

开发者学堂课程【Hadoop 分布式文件系统 HDFSNN故障处理_案例】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/93/detail/1459


NN故障处理_案例


内容介绍

一、NN 故障处理_案例


一、NN故障处理_案例

NameNode 故障后,可以采用如下两种方法恢复数据。

方法一:

SecondaryNameNode 中数据拷贝到 NameNode 存储数据的目录

1. kill -9 NameNode 进程.

2.删除 NameNode 存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name).

[atguigu@hadoop102 hadoop-2.7.2]$ rm-rf /opt/module/hadoop-

2.7.2/data/tmp/dfs/name/*

3.拷贝SecondaryNameNode中数据到原 NameNode 存储数据目录。

[atquiqu@hadoop102       dfs]  $    scp     -r

atguigu@hadoop104:/opt/module/hadoop-

2.7.2/data/tmp/dfs/namesecondary/./name/.

4.重新启动NameNode.

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode.

方法二:

使用-importCheckpoint 选项启动 NameNode 守护进程,从而将SecondaryNameNode 中数据拷贝到 NameNode 目录中。

1.修改hdfs-site.xml中的。

dfs.namenode.checkpoint.period.

120

.dfs.namenode.name.dir

/opt/module/hadoop-2.7.2/data/tmp/dfs/name.

2. kill -9 NameNode 进程

3.删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)

[atguigu@hadoop102 hadoop-2.7.2]$ rm-rf/opt/module/hadoop-

2.7.2/data/tmp/dfs/name/

4.如果 SecondaryNameNode 不和 NameNode在一个主机节点上,需要将SecondaryNameNode 存储数据的目录拷贝到 NameNode 存储数据的平级目录,并删除in_use.lock文件。

[atguigu@hadoop102        dfs]$           Scp      -r

atquigu@hadoop104:/opt/module/hadoop-

2.7.2/data/tmp/dfs/namesecondary ./.

[atguigu@hadoop102 namesecondary]$ rm -rf in use.lock.

[atquigu@hadoop102 dfs]$ pwd.

/opt/module/hadoop-2.7.2/data/tmp/dfs.

[atguigu@hadoop102 dfs]$ 1s

data name namesecondary.

5.导入检查点数据(等待一会ctrl+c 结束掉)

[atguigu@hadoop102 hadoop-2.7.2]$ bin/hdfs namenode

importCheckpoint.

6.启动 NameNode

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start

namenode.

相关文章
|
6月前
|
机器学习/深度学习 算法 PyTorch
【PyTorch实战演练】自调整学习率实例应用(附代码)
【PyTorch实战演练】自调整学习率实例应用(附代码)
237 0
|
3月前
|
数据采集 机器学习/深度学习 存储
性能调优指南:针对 DataLoader 的高级配置与优化
【8月更文第29天】在深度学习项目中,数据加载和预处理通常是瓶颈之一,特别是在处理大规模数据集时。PyTorch 的 `DataLoader` 提供了丰富的功能来加速这一过程,但默认设置往往不能满足所有场景下的最优性能。本文将介绍如何对 `DataLoader` 进行高级配置和优化,以提高数据加载速度,从而加快整体训练流程。
403 0
|
机器学习/深度学习 存储 编解码
强化学习从基础到进阶-常见问题和面试必知必答[4]::深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN
强化学习从基础到进阶-常见问题和面试必知必答[4]::深度Q网络-DQN、double DQN、经验回放、rainbow、分布式DQN
|
PyTorch 算法框架/工具
Pytorch疑难小实验:理解torch.cat()在不同维度下的连接方式
Pytorch疑难小实验:理解torch.cat()在不同维度下的连接方式
259 0
|
SQL 关系型数据库 MySQL
案例5:参数优化 | 学习笔记
简介:快速学习案例5:参数优化
118 0
案例5:参数优化 | 学习笔记
|
搜索推荐 大数据 PyTorch
推荐模型复现(一):熟悉Torch-RecHub框架与使用
Torch-RecHub是一个轻量级的pytorch推荐模型框架
781 0
推荐模型复现(一):熟悉Torch-RecHub框架与使用
|
测试技术
LR性能测试常见问题及处理方法(三)
LR性能测试常见问题及处理方法(三)
104 0
|
测试技术 Windows
LR性能测试常见问题及处理方法(六)
LR性能测试常见问题及处理方法(六)
121 0
|
XML 安全 JavaScript
LR性能测试常见问题及处理方法(五)
LR性能测试常见问题及处理方法(五)
99 0
|
Oracle 网络协议 关系型数据库
LR性能测试常见问题及处理方法(二)
LR性能测试常见问题及处理方法(二)
122 0