slurm分区,节点,作业信息说明

简介: slurm分区,节点,作业信息说明

1. 节点状态查看

命令:

sinfo

微信截图_20230606160959.png

PARRITION:节点所在分区
AVAIL:分区状态,up 标识可用,down 标识不可用
TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds
NODES:节点数
NODELIST:节点名列表
STATE:节点状态,可能的状态包括:
allocated、alloc :已分配
completing、comp:完成中
down:宕机
drained、drain:已失去活力
fail:失效
idle:空闲
mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业
reserved、resv:资源预留
unknown、unk:未知原因
如果状态带有后缀 *,表示节点没有响应


2.分区信息查看

命令

show partition

微信截图_20230606161033.png

说明:
DisableRootJobs: 不允许 root 提交作业
Maxtime:最大运行时间
LLN:是否按最小负载节点调度
Maxnodes:最大节点数
Hidden:是否为隐藏分区
Default:是否为默认分区
OverSubscribe:是否允许超时
ExclusiveUser:排除的用户


3. 节点信息查看

命令

scontrol show node

微信截图_20230606161107.png

说明:

NodeName    节点名称
Arch    系统架构
CoresPerSocket   
CPUAlloc    分配给的 CPU 核数
CPUErr  出错的 CPU 核数
CPUTot  总的 CPU 核数
CPULoad CPU 负载
AvailableFeatures   可用特性
ActiveFeatures  激活的特性
Gres    通用资源
NodeAddr    节点 IP 地址
NodeHostName    节点名
Version SLURM 版本
OS  操作系统
RealMemory  实际的物理内存,单位 GB
AllocMem    已分配的内存,单位 GB
FreeMem 可用内存,单位 GB
Sockets  
Boards  主板数
State   节点状态
ThreadsPerCore  CPU 线程数
TmpDisk 临时硬盘存储大小
Weight  权重
Owner    
MCS_label    
Partitions   
BootTime    开机实际
SlurmdStartTime SLURM 守护进程启动时间
CfgTRES  
AllocTRES    
CapWatts     
CurrentWatts     
LowestJoules     
ConsumedJoules   
ExtSensorsJoules     
ExtSensorsWatts  
ExtSensorsTemp   
Reason


4. 作业信息查看

squene

微信截图_20230606161157.png

JOBID:作业号
PARITION:分区名
NAME:作业名
USER:用户名
ST:状态,常见的状态包括:
PD、Q:排队中 ,PENDING
R:运行中 ,RUNNING
CA:已取消,CANCELLED
CG:完成中,COMPLETIONG
F:已失败,FAILED
TO:超时,TIMEOUT
NF:节点失效,NODE FAILURE
CD:已完成,COMPLETED


相关文章
|
9月前
|
存储 监控 API
Flink的每个key状态 和每个并行度的状态 怎么测试区分?
Flink的每个key状态 和每个并行度的状态 怎么测试区分?
73 0
|
20天前
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
4月前
|
存储 Kubernetes 调度
Flink 批作业如何在 Master 节点出错重启后恢复执行进度?
本文由阿里云研发工程师李俊睿撰写,介绍了Flink 1.20版中新引入的批作业进度恢复功能。文章涵盖背景、解决思路、使用效果及启用方法。此前,若JobMaster故障,批作业需重头开始,造成进度丢失。新功能通过将JM状态持久化至外部存储并在故障后利用这些状态恢复作业进度,避免了这一问题。使用该功能需启用集群高可用并配置相关参数。
242 7
Flink 批作业如何在 Master 节点出错重启后恢复执行进度?
|
4月前
|
调度
Doris给动态分区添加历史分区问题汇总
Doris动态分区表添加历史分区
|
6月前
|
分布式计算 并行计算 数据处理
|
6月前
|
存储 分布式计算 负载均衡
|
8月前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之动态分区写入如何指定目标分区
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
174 2
|
消息中间件 JSON 负载均衡
kafka 动态扩容现有 topic 的分区数和副本数
kafka 动态扩容现有 topic 的分区数和副本数
2086 0
|
9月前
|
分布式计算 资源调度 监控
Hadoop节点扩容检查物理连接
【4月更文挑战第20天】
66 2
|
9月前
|
存储 API 流计算
要测试和区分Flink的每个key状态和每个并行度的状态
【2月更文挑战第23天】要测试和区分Flink的每个key状态和每个并行度的状态
59 1