slurm分区,节点,作业信息说明

简介: slurm分区,节点,作业信息说明

1. 节点状态查看

命令:

sinfo

微信截图_20230606160959.png

PARRITION:节点所在分区
AVAIL:分区状态,up 标识可用,down 标识不可用
TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds
NODES:节点数
NODELIST:节点名列表
STATE:节点状态,可能的状态包括:
allocated、alloc :已分配
completing、comp:完成中
down:宕机
drained、drain:已失去活力
fail:失效
idle:空闲
mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业
reserved、resv:资源预留
unknown、unk:未知原因
如果状态带有后缀 *,表示节点没有响应


2.分区信息查看

命令

show partition

微信截图_20230606161033.png

说明:
DisableRootJobs: 不允许 root 提交作业
Maxtime:最大运行时间
LLN:是否按最小负载节点调度
Maxnodes:最大节点数
Hidden:是否为隐藏分区
Default:是否为默认分区
OverSubscribe:是否允许超时
ExclusiveUser:排除的用户


3. 节点信息查看

命令

scontrol show node

微信截图_20230606161107.png

说明:

NodeName    节点名称
Arch    系统架构
CoresPerSocket   
CPUAlloc    分配给的 CPU 核数
CPUErr  出错的 CPU 核数
CPUTot  总的 CPU 核数
CPULoad CPU 负载
AvailableFeatures   可用特性
ActiveFeatures  激活的特性
Gres    通用资源
NodeAddr    节点 IP 地址
NodeHostName    节点名
Version SLURM 版本
OS  操作系统
RealMemory  实际的物理内存,单位 GB
AllocMem    已分配的内存,单位 GB
FreeMem 可用内存,单位 GB
Sockets  
Boards  主板数
State   节点状态
ThreadsPerCore  CPU 线程数
TmpDisk 临时硬盘存储大小
Weight  权重
Owner    
MCS_label    
Partitions   
BootTime    开机实际
SlurmdStartTime SLURM 守护进程启动时间
CfgTRES  
AllocTRES    
CapWatts     
CurrentWatts     
LowestJoules     
ConsumedJoules   
ExtSensorsJoules     
ExtSensorsWatts  
ExtSensorsTemp   
Reason


4. 作业信息查看

squene

微信截图_20230606161157.png

JOBID:作业号
PARITION:分区名
NAME:作业名
USER:用户名
ST:状态,常见的状态包括:
PD、Q:排队中 ,PENDING
R:运行中 ,RUNNING
CA:已取消,CANCELLED
CG:完成中,COMPLETIONG
F:已失败,FAILED
TO:超时,TIMEOUT
NF:节点失效,NODE FAILURE
CD:已完成,COMPLETED


相关文章
|
3月前
|
存储 Kubernetes 调度
Flink 批作业如何在 Master 节点出错重启后恢复执行进度?
本文由阿里云研发工程师李俊睿撰写,介绍了Flink 1.20版中新引入的批作业进度恢复功能。文章涵盖背景、解决思路、使用效果及启用方法。此前,若JobMaster故障,批作业需重头开始,造成进度丢失。新功能通过将JM状态持久化至外部存储并在故障后利用这些状态恢复作业进度,避免了这一问题。使用该功能需启用集群高可用并配置相关参数。
222 7
Flink 批作业如何在 Master 节点出错重启后恢复执行进度?
|
5月前
|
分布式计算 并行计算 数据处理
|
5月前
|
存储 分布式计算 负载均衡
|
7月前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之为什么新建的节点只依赖了空间根节点,但是到了调度时间节点并没有调度起来
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
8月前
|
分布式计算 资源调度 监控
Hadoop节点扩容检查物理连接
【4月更文挑战第20天】
64 2
|
8月前
|
DataWorks 关系型数据库 分布式数据库
在DataWorks中,如果节点成环,即某个节点既是上游节点又依赖了自己的下游节点
【2月更文挑战第31天】在DataWorks中,如果节点成环,即某个节点既是上游节点又依赖了自己的下游节点
76 6
|
8月前
|
分布式计算 DataWorks MaxCompute
,问题可能出在分区创建和写入过程中
,问题可能出在分区创建和写入过程中
37 2
|
JSON 分布式计算 调度
MC节点调度配置可以批量导出
MC节点调度配置可以批量导出
80 2
多个 服务器 节点同步 时间 chronyc
多个 服务器 节点同步 时间 chronyc
149 0
|
存储 分布式计算 负载均衡
HDFS服役新数据节点和退役旧节点步骤
HDFS服役新数据节点和退役旧节点步骤
296 1