hadoop cluster decommission node (下线节点,超级实用)

简介:

一、描述

为了节约成本,避免资源浪费,下线集群中的一个节点,也就是把一台云主机回收喽。

centos 6.6_64bit

hadoop 2.6.0


二、操作步骤(动态下线)

下线节点主机名如下,在hadoop用户下操作,配置文件都在conf目录下  

host-10-10-10-10   ##一看就在云上是不是


1.在conf目录下创建文件

touch excludes 

echo "host-10-10-10-10" > exclude 

less exclude     ##要有验证



2.修改配置文件hdfs-site.conf

 vi hdfs-site.xml

 添加如下内容,路径根据自己的实际情况

        <property>

                <name>dfs.hosts.exclude</name>

                <value>/usr/local/RoilandGroup/hadoop-2.6.0/etc/hadoop/excludes</value>

       </property>


3.修改配置文件 yarn-site.conf

 添加如下内容,路径根据自己的实际情况

        <property>                     

                <name>yarn.resourcemanager.nodes.exclude-path</name>

                <value>/usr/local/RoilandGroup/hadoop-2.6.0/etc/hadoop/excludes</value>

        </property>


4.刷新hdfs节点(namenode active操作)

hdfs dfsadmin -refreshNodes 

hdfs dfsadmin -report   ##观察节点是否decommission


5.刷新nodemanager节点(resourcemanager active操作)

yarn rmadmin -refreshNodes


6.修改slave文件

注释掉主机名

#host-10-10-10-10


7.同步exclude文件和slave文件

scp exclude 到namenode/resourcemanager 的 standby节点


8.再次验证,确保是我们想要的结果,通知运维同事可以回收云主机。



三、注意事项


1.生产环境操作之前一定要做好测试

2.查看官方文档,要知道自己修改的文件对系统有多大影响,做到心里有数。










本文转自 roidba 51CTO博客,原文链接:http://blog.51cto.com/roidba/1922803,如需转载请自行联系原作者
目录
相关文章
|
5月前
|
运维 Kubernetes API
解决Kubernetes集群中master节点无法与node节点通信的策略。
这些策略不仅需要执行命令来获取信息,更要深入理解集群组件如何交互,以便进行准确的故障定位与修复。一条一条地排查,并适时回顾配置文件,证书有效性等,通常可以找到问题所在。给出的命令需要根据具体环境的配置进行适当的修改。故障排除往往是一个细致且需求反复验证的过程,但遵循上述策略可以高效定位大部分通信故障的原因。
361 12
|
5月前
|
Kubernetes 网络协议 API
在k8s集群中解决master节点与node通信问题
整个排查和解决流程需要综合应用以上方法,以及根据具体情况调整排查顺序或应用其他技术细节。为保证解决方案的实用性和有效性,还需紧跟Kubernetes社区的最新动态和最佳实践。在实际操作过程中,应记录所采取的步骤和观察到的系统响应,以便在遇到类似问题时能够快速定位和解决。
407 8
|
6月前
|
机器学习/深度学习 Kubernetes 监控
Kubernetes 节点故障自愈方案:结合 Node Problem Detector 与自动化脚本
本文深入探讨了Kubernetes节点故障自愈方案,结合Node Problem Detector(NPD)与自动化脚本,提供技术细节、完整代码示例及实战验证。文章分析了硬件、系统和内核层面的典型故障场景,指出现有监控体系的局限性,并提出基于NPD的实时事件捕获与自动化诊断树的改进方案。通过深度集成NPD、设计自动化修复引擎以及展示内核死锁恢复的实战案例,文章详细说明了自愈流程的实现步骤与性能优势。此外,还提供了生产环境部署指南、高可用架构设计及安全防护措施,并展望了机器学习增强故障预测和混沌工程验证的进阶优化方向。全文约1.2万字,适合希望提升Kubernetes集群稳定性的技术人员阅读。
308 1
|
JavaScript
DOM 节点列表长度(Node List Length)
DOM 节点列表长度(Node List Length)
|
9月前
|
Kubernetes API 网络安全
当node节点kubectl 命令无法连接到 Kubernetes API 服务器
当Node节点上的 `kubectl`无法连接到Kubernetes API服务器时,可以通过以上步骤逐步排查和解决问题。首先确保网络连接正常,验证 `kubeconfig`文件配置正确,检查API服务器和Node节点的状态,最后排除防火墙或网络策略的干扰,并通过重启服务恢复正常连接。通过这些措施,可以有效解决与Kubernetes API服务器通信的常见问题,从而保障集群的正常运行。
645 17
|
JavaScript
DOM 节点列表长度(Node List Length)
DOM 节点列表长度(Node List Length)
|
JavaScript
DOM 节点列表长度(Node List Length)
DOM 节点列表长度(Node List Length)
|
XML 大数据 网络安全
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(一)
255 5
|
大数据 网络安全 数据安全/隐私保护
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
大数据-03-Hadoop集群 免密登录 超详细 3节点云 分发脚本 踩坑笔记 SSH免密 集群搭建(二)
442 5
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
468 5

相关实验场景

更多