1. 节点状态查看
命令:
sinfo
PARRITION:节点所在分区 AVAIL:分区状态,up 标识可用,down 标识不可用 TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds NODES:节点数 NODELIST:节点名列表 STATE:节点状态,可能的状态包括: allocated、alloc :已分配 completing、comp:完成中 down:宕机 drained、drain:已失去活力 fail:失效 idle:空闲 mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业 reserved、resv:资源预留 unknown、unk:未知原因 如果状态带有后缀 *,表示节点没有响应
2.分区信息查看
命令
show partition
说明: DisableRootJobs: 不允许 root 提交作业 Maxtime:最大运行时间 LLN:是否按最小负载节点调度 Maxnodes:最大节点数 Hidden:是否为隐藏分区 Default:是否为默认分区 OverSubscribe:是否允许超时 ExclusiveUser:排除的用户
3. 节点信息查看
命令
scontrol show node
说明:
NodeName 节点名称 Arch 系统架构 CoresPerSocket CPUAlloc 分配给的 CPU 核数 CPUErr 出错的 CPU 核数 CPUTot 总的 CPU 核数 CPULoad CPU 负载 AvailableFeatures 可用特性 ActiveFeatures 激活的特性 Gres 通用资源 NodeAddr 节点 IP 地址 NodeHostName 节点名 Version SLURM 版本 OS 操作系统 RealMemory 实际的物理内存,单位 GB AllocMem 已分配的内存,单位 GB FreeMem 可用内存,单位 GB Sockets Boards 主板数 State 节点状态 ThreadsPerCore CPU 线程数 TmpDisk 临时硬盘存储大小 Weight 权重 Owner MCS_label Partitions BootTime 开机实际 SlurmdStartTime SLURM 守护进程启动时间 CfgTRES AllocTRES CapWatts CurrentWatts LowestJoules ConsumedJoules ExtSensorsJoules ExtSensorsWatts ExtSensorsTemp Reason
4. 作业信息查看
squene
JOBID:作业号 PARITION:分区名 NAME:作业名 USER:用户名 ST:状态,常见的状态包括: PD、Q:排队中 ,PENDING R:运行中 ,RUNNING CA:已取消,CANCELLED CG:完成中,COMPLETIONG F:已失败,FAILED TO:超时,TIMEOUT NF:节点失效,NODE FAILURE CD:已完成,COMPLETED