阿里云E-MapReduce节点优雅下线-基于Yarn Node Labels特性

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 背景:阿里云E-MapReduce集群(简称EMR集群)部分节点需要下线迁移,但集群资源常年跑满,诉求是节点下线迁移过程中不影响任一任务执行。本次方案基于Yarn Node Labels的特性进行资源隔离后下线。下期对官网Graceful Decommission of YARN Nodes的方案进行验证,参考:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/GracefulDecommission.html。

1. 整体思路

YARN Node Labels特性支持将YARN NodeManager节点进行分区管理,通过创建新的exclusive分区,将每次要下线的节点剥离出DEFAULT分区,添加到exclusive分区,不再调度任务上去,待存量任务运行结束后,执行nodemanager和datanode的下线,ecs宿主机迁移,nodemanager和datanode上线,移出exclusive分区作为集群计算资源使用。

参考文档:https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/node-labels?spm=a2c4g.11186623.0.0.2c3047baKuHtea

2. 操作及验证过程

2.1. 集群环境

EMR版本:EMR-3.44.1(不适用控制台管理yarn分区,详见:https://help.aliyun.com/zh/emr/emr-on-ecs/user-guide/manage-yarn-partitions-in-the-emr-console?spm=a2c4g.11186623.0.0.5b551bc8FQTfVZ

调度器:yarn.resourcemanager.scheduler.class=org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler

数据存储位置:oss or hdfs

数据副本数量:dfs.replication=2(如果数据都存在oss,由oss负责数据的高可用,可以忽略这个限制,不然每次最多下线dfs.replication-1台节点,防止点儿背导致某一个block的数据一次性被下掉)

2.2. yarn参数配置

新增配置项:

yarn.node-labels.enabled=true

yarn.node-labels.fs-store.root-dir=/tmp/node-labels

yarn.node-labels.configuration-type=centralized(默认就是这个)

添加后滚动重启yarn resourcemanager适配新的参数

2.3. 创建分区-映射节点

# 登录master节点
ssh root@master-1-1的ip
# 切换yarn默认管理员hadoop账户执行
sudo su hadoop
# 添加DEMO分区 默认为exclusive(见下图)
yarn rmadmin -addToClusterNodeLabels "DEMO"

image.png

yarn ui上验证Node Labels是否添加成功(见下图)

image.png

# 列出所有节点
yarn node -list -all
# 根据要下线节点的ecs id 匹配到节点名称core-x-x 添加到该分区中
# 样例命令如下
# 注意如果复制上面list中的node名不要加端口号 会报找unknown nodes
yarn rmadmin -replaceLabelsOnNode "core-1-1.集群id.cn-beijing.emr.aliyuncs.com=DEMO" -failOnUnknownNodes

yarn ui上可以验证Nodes及其Node Labels(见下图1)

在Node Labels页签下可以看到“DEMO”的Label下active的 NMs数量已经从0变为1

image.pngimage.png

配置分区容量及默认分区:

  1. 根据文档需要在EMR管控台上配置capacity-scheduler.xml,主要是用来配置队列在label分区的容量,默认提交分区等配置。
  2. 因为我们配置DEMO分区主要是分配要下线的节点,且分区为exclusive的模式,不会让任务调度上去,验证了下不做配置也可以。配置的话 yarn.scheduler.capacity.root.default.default-node-label-expression 千万不能配置到DEMO,不然会有任务发上去。

image.png

2.4. 下线节点

EMR控制台:

  1. Yarn nodamanager 下线
  2. HDFS datanode 停止

2.5. ECS迁移

ECS迁移

2.6. 添加节点

EMR控制台:

  1. HDFS datanode启动
  2. Yarn nodemanager recommission

2.7. 节点移出分区

# ssh登录master节点
yarn rmadmin -replaceLabelsOnNode "core-1-1.c-75d9260b2816cfbe.cn-beijing.emr.aliyuncs.com=" -failOnUnknownNodes
# 观察该节点在yarn ui上的label是否为空(DEFAULT)
# 观察一段时间后yarn ui上该节点是否有container 运行(有任务发到该节点)

3. 验证运行中的任务

验证1:节点手动切换到DEMO分区上面的任务是否会failed

将某个节点从DEFAULT分区修改为DEMO分区时,如果该节点上在DEFAULT分区中还有正在RUNNING的任务,切换节点到DEMO分区:

  1. 窗口1执行(提交到default分区)
# 在map=100 reduce=0时候  (大约使用16核资源)
hadoop jar hadoop-mapreduce-examples-2.8.5.jar wordcount /tmp/input /tmp/output18
  1. 窗口2 执行
# (将节点core-1-2剥离default分区)
yarn rmadmin -replaceLabelsOnNode "core-1-2.集群id.cn-beijing.emr.aliyuncs.com=DEMO" -failOnUnknownNodes
  1. yarn队列上可以观察到 default分区 over capacity 。demo分区有使用
  2. wordcount任务执行成功

image.png

验证2:wordcount运行时间整体较小,约10分钟,所以用mr的sleep进行了2次验证,看节点被移动到DEMO分区任务是否会failed

  1. 执行sleep mr任务
hadoop jar hadoop-mapreduce-client-jobclient-2.8.5-tests.jar sleep -m 10 -r 10 -mt 1000 -rt 15000000
  1. 任务跑满(93%)DEFAULT队列时进行节点分区切换
yarn rmadmin -replaceLabelsOnNode "core-1-2.c-75d9260b2816cfbe.cn-beijing.emr.aliyuncs.com=DEMO" -failOnUnknownNodes 
# (将节点core-1-2剥离default分区),也出现over capacity的情况
  1. 第二天观察任务没有failed,还在running,DEMO分区没有资源占用,执行了约12小时,可以验证执行的任务不会短时间内(1小时)被驱逐致使任务failed

image.png

相关文章
|
3月前
|
运维 Kubernetes API
解决Kubernetes集群中master节点无法与node节点通信的策略。
这些策略不仅需要执行命令来获取信息,更要深入理解集群组件如何交互,以便进行准确的故障定位与修复。一条一条地排查,并适时回顾配置文件,证书有效性等,通常可以找到问题所在。给出的命令需要根据具体环境的配置进行适当的修改。故障排除往往是一个细致且需求反复验证的过程,但遵循上述策略可以高效定位大部分通信故障的原因。
273 12
|
3月前
|
Kubernetes 网络协议 API
在k8s集群中解决master节点与node通信问题
整个排查和解决流程需要综合应用以上方法,以及根据具体情况调整排查顺序或应用其他技术细节。为保证解决方案的实用性和有效性,还需紧跟Kubernetes社区的最新动态和最佳实践。在实际操作过程中,应记录所采取的步骤和观察到的系统响应,以便在遇到类似问题时能够快速定位和解决。
325 8
|
4月前
|
机器学习/深度学习 Kubernetes 监控
Kubernetes 节点故障自愈方案:结合 Node Problem Detector 与自动化脚本
本文深入探讨了Kubernetes节点故障自愈方案,结合Node Problem Detector(NPD)与自动化脚本,提供技术细节、完整代码示例及实战验证。文章分析了硬件、系统和内核层面的典型故障场景,指出现有监控体系的局限性,并提出基于NPD的实时事件捕获与自动化诊断树的改进方案。通过深度集成NPD、设计自动化修复引擎以及展示内核死锁恢复的实战案例,文章详细说明了自愈流程的实现步骤与性能优势。此外,还提供了生产环境部署指南、高可用架构设计及安全防护措施,并展望了机器学习增强故障预测和混沌工程验证的进阶优化方向。全文约1.2万字,适合希望提升Kubernetes集群稳定性的技术人员阅读。
180 1
|
8月前
|
弹性计算 JavaScript 前端开发
一键安装!阿里云新功能部署Nodejs环境到ECS竟然如此简单!
Node.js 是一种高效的 JavaScript 运行环境,基于 Chrome V8 引擎,支持在服务器端运行 JavaScript 代码。本文介绍如何在阿里云上一键部署 Node.js 环境,无需繁琐配置,轻松上手。前提条件包括 ECS 实例运行中且操作系统为 CentOS、Ubuntu 等。功能特点为一键安装和稳定性好,支持常用 LTS 版本。安装步骤简单:登录阿里云控制台,选择扩展程序管理页面,安装 Node.js 扩展,选择实例和版本,等待创建完成并验证安装成功。通过阿里云的公共扩展,初学者和经验丰富的开发者都能快速进入开发状态,开启高效开发之旅。
|
7月前
|
Kubernetes API 网络安全
当node节点kubectl 命令无法连接到 Kubernetes API 服务器
当Node节点上的 `kubectl`无法连接到Kubernetes API服务器时,可以通过以上步骤逐步排查和解决问题。首先确保网络连接正常,验证 `kubeconfig`文件配置正确,检查API服务器和Node节点的状态,最后排除防火墙或网络策略的干扰,并通过重启服务恢复正常连接。通过这些措施,可以有效解决与Kubernetes API服务器通信的常见问题,从而保障集群的正常运行。
494 17
|
7月前
|
JavaScript Ubuntu Linux
如何在阿里云的linux上搭建Node.js编程环境?
本指南介绍如何在阿里云Linux服务器(Ubuntu/CentOS)上搭建Node.js环境,包含两种安装方式:包管理器快速安装和NVM多版本管理。同时覆盖全局npm工具配置、应用部署示例(如Express服务)、PM2持久化运行、阿里云安全组设置及外部访问验证等步骤,助你完成开发与生产环境的搭建。
|
8月前
|
弹性计算 JavaScript 前端开发
一键安装!阿里云新功能部署Nodejs环境到ECS竟然如此简单!
一键安装!阿里云新功能部署Nodejs环境到ECS竟然如此简单!
一键安装!阿里云新功能部署Nodejs环境到ECS竟然如此简单!
|
JavaScript
DOM 节点列表长度(Node List Length)
DOM 节点列表长度(Node List Length)
|
JavaScript
DOM 节点列表长度(Node List Length)
DOM 节点列表长度(Node List Length)
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
277 3

相关产品

  • 开源大数据平台 E-MapReduce