NN 故障处理_案例| 学习笔记

简介: 快速学习 NN 故障处理_案例

开发者学堂课程【Hadoop 分布式文件系统 HDFSNN故障处理_案例】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/93/detail/1459


NN故障处理_案例


内容介绍

一、NN 故障处理_案例


一、NN故障处理_案例

NameNode 故障后,可以采用如下两种方法恢复数据。

方法一:

SecondaryNameNode 中数据拷贝到 NameNode 存储数据的目录

1. kill -9 NameNode 进程.

2.删除 NameNode 存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name).

[atguigu@hadoop102 hadoop-2.7.2]$ rm-rf /opt/module/hadoop-

2.7.2/data/tmp/dfs/name/*

3.拷贝SecondaryNameNode中数据到原 NameNode 存储数据目录。

[atquiqu@hadoop102       dfs]  $    scp     -r

atguigu@hadoop104:/opt/module/hadoop-

2.7.2/data/tmp/dfs/namesecondary/./name/.

4.重新启动NameNode.

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode.

方法二:

使用-importCheckpoint 选项启动 NameNode 守护进程,从而将SecondaryNameNode 中数据拷贝到 NameNode 目录中。

1.修改hdfs-site.xml中的。

dfs.namenode.checkpoint.period.

120

.dfs.namenode.name.dir

/opt/module/hadoop-2.7.2/data/tmp/dfs/name.

2. kill -9 NameNode 进程

3.删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)

[atguigu@hadoop102 hadoop-2.7.2]$ rm-rf/opt/module/hadoop-

2.7.2/data/tmp/dfs/name/

4.如果 SecondaryNameNode 不和 NameNode在一个主机节点上,需要将SecondaryNameNode 存储数据的目录拷贝到 NameNode 存储数据的平级目录,并删除in_use.lock文件。

[atguigu@hadoop102        dfs]$           Scp      -r

atquigu@hadoop104:/opt/module/hadoop-

2.7.2/data/tmp/dfs/namesecondary ./.

[atguigu@hadoop102 namesecondary]$ rm -rf in use.lock.

[atquigu@hadoop102 dfs]$ pwd.

/opt/module/hadoop-2.7.2/data/tmp/dfs.

[atguigu@hadoop102 dfs]$ 1s

data name namesecondary.

5.导入检查点数据(等待一会ctrl+c 结束掉)

[atguigu@hadoop102 hadoop-2.7.2]$ bin/hdfs namenode

importCheckpoint.

6.启动 NameNode

[atguigu@hadoop102 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start

namenode.

相关文章
|
6月前
|
机器学习/深度学习 算法 PyTorch
【PyTorch实战演练】自调整学习率实例应用(附代码)
【PyTorch实战演练】自调整学习率实例应用(附代码)
224 0
|
6月前
|
机器学习/深度学习 分布式计算 算法
机器学习PAI常见问题之跑predict时报错如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
4月前
|
机器学习/深度学习 存储 算法
持续学习中避免灾难性遗忘的Elastic Weight Consolidation Loss数学原理及代码实现
在本文中,我们将探讨一种方法来解决这个问题,称为Elastic Weight Consolidation。EWC提供了一种很有前途的方法来减轻灾难性遗忘,使神经网络在获得新技能的同时保留先前学习任务的知识。
184 1
|
3月前
|
数据采集 机器学习/深度学习 存储
性能调优指南:针对 DataLoader 的高级配置与优化
【8月更文第29天】在深度学习项目中,数据加载和预处理通常是瓶颈之一,特别是在处理大规模数据集时。PyTorch 的 `DataLoader` 提供了丰富的功能来加速这一过程,但默认设置往往不能满足所有场景下的最优性能。本文将介绍如何对 `DataLoader` 进行高级配置和优化,以提高数据加载速度,从而加快整体训练流程。
272 0
|
PyTorch 算法框架/工具
Pytorch疑难小实验:理解torch.cat()在不同维度下的连接方式
Pytorch疑难小实验:理解torch.cat()在不同维度下的连接方式
254 0
|
缓存 监控 网络协议
MSE 风险分布管理功能发布(二)| 学习笔记
快速学习 MSE 风险分布管理功能发布。
MSE 风险分布管理功能发布(二)| 学习笔记
|
应用服务中间件 测试技术 数据库
LR性能测试常见问题及处理方法(一)
LR性能测试常见问题及处理方法(一)
152 0
|
Oracle 网络协议 关系型数据库
LR性能测试常见问题及处理方法(二)
LR性能测试常见问题及处理方法(二)
119 0
|
XML 安全 JavaScript
LR性能测试常见问题及处理方法(五)
LR性能测试常见问题及处理方法(五)
98 0
|
测试技术 Windows
LR性能测试常见问题及处理方法(六)
LR性能测试常见问题及处理方法(六)
119 0