slurm分区,节点,作业信息说明

简介: slurm分区,节点,作业信息说明

1. 节点状态查看

命令:

sinfo

微信截图_20230606160959.png

PARRITION:节点所在分区
AVAIL:分区状态,up 标识可用,down 标识不可用
TIMELIMIT:程序运行最大时长,infinite 表示不限制,如果限制格式为 days-houres:minutes:seconds
NODES:节点数
NODELIST:节点名列表
STATE:节点状态,可能的状态包括:
allocated、alloc :已分配
completing、comp:完成中
down:宕机
drained、drain:已失去活力
fail:失效
idle:空闲
mixed:混合,节点在运行作业,但有些空闲 CPU 核,可接受新作业
reserved、resv:资源预留
unknown、unk:未知原因
如果状态带有后缀 *,表示节点没有响应


2.分区信息查看

命令

show partition

微信截图_20230606161033.png

说明:
DisableRootJobs: 不允许 root 提交作业
Maxtime:最大运行时间
LLN:是否按最小负载节点调度
Maxnodes:最大节点数
Hidden:是否为隐藏分区
Default:是否为默认分区
OverSubscribe:是否允许超时
ExclusiveUser:排除的用户


3. 节点信息查看

命令

scontrol show node

微信截图_20230606161107.png

说明:

NodeName    节点名称
Arch    系统架构
CoresPerSocket   
CPUAlloc    分配给的 CPU 核数
CPUErr  出错的 CPU 核数
CPUTot  总的 CPU 核数
CPULoad CPU 负载
AvailableFeatures   可用特性
ActiveFeatures  激活的特性
Gres    通用资源
NodeAddr    节点 IP 地址
NodeHostName    节点名
Version SLURM 版本
OS  操作系统
RealMemory  实际的物理内存,单位 GB
AllocMem    已分配的内存,单位 GB
FreeMem 可用内存,单位 GB
Sockets  
Boards  主板数
State   节点状态
ThreadsPerCore  CPU 线程数
TmpDisk 临时硬盘存储大小
Weight  权重
Owner    
MCS_label    
Partitions   
BootTime    开机实际
SlurmdStartTime SLURM 守护进程启动时间
CfgTRES  
AllocTRES    
CapWatts     
CurrentWatts     
LowestJoules     
ConsumedJoules   
ExtSensorsJoules     
ExtSensorsWatts  
ExtSensorsTemp   
Reason


4. 作业信息查看

squene

微信截图_20230606161157.png

JOBID:作业号
PARITION:分区名
NAME:作业名
USER:用户名
ST:状态,常见的状态包括:
PD、Q:排队中 ,PENDING
R:运行中 ,RUNNING
CA:已取消,CANCELLED
CG:完成中,COMPLETIONG
F:已失败,FAILED
TO:超时,TIMEOUT
NF:节点失效,NODE FAILURE
CD:已完成,COMPLETED


相关文章
|
流计算 Java SQL
Flink落HDFS数据按事件时间分区解决方案
0x1 摘要 Hive离线数仓中为了查询分析方便,几乎所有表都会划分分区,最为常见的是按天分区,Flink通过以下配置把数据写入HDFS, BucketingSink<Object> sink = new BucketingSink<>(path); //通过这样的方式来实现数据跨天分区 sink.
4314 0
|
20天前
|
分布式计算 资源调度 监控
Hadoop节点扩容检查物理连接
【4月更文挑战第20天】
25 2
|
20天前
|
流计算
Flink CDC里关于doris的动态分区问题,对以及建好的动态分区表,可以再次修改历史分区的保留时间嘛?
【1月更文挑战第24天】【1月更文挑战第117篇】Flink CDC里关于doris的动态分区问题,对以及建好的动态分区表,可以再次修改历史分区的保留时间嘛?
48 6
|
20天前
|
分布式计算 DataWorks MaxCompute
,问题可能出在分区创建和写入过程中
,问题可能出在分区创建和写入过程中
19 2
|
9月前
|
存储 分布式计算 负载均衡
HDFS服役新数据节点和退役旧节点步骤
HDFS服役新数据节点和退役旧节点步骤
204 1
|
12月前
|
安全 算法
分享一种集群生成日志唯一编号的方法
分享一种集群生成日志唯一编号的方法
|
弹性计算 大数据 数据处理
集群类型之信息共享节点集群
集群类型之信息共享节点集群
115 0
|
Shell 分布式数据库 Hbase
hbase Normalizer解决预分区错误,在不动数据的情况下完美解决热点问题
hbase Normalizer解决预分区错误,在不动数据的情况下完美解决热点问题
167 0
hbase Normalizer解决预分区错误,在不动数据的情况下完美解决热点问题
|
分布式计算 DataWorks 大数据
离线同步ODPS中多个分区数据
离线同步ODPS中多个分区数据
离线同步ODPS中多个分区数据
|
消息中间件 域名解析 数据采集
数据采集-分区编号的计算|学习笔记
快速学习数据采集-分区编号的计算
77 0

热门文章

最新文章