Slurm
slurm是高性能平台常用的资源管理软件, 使用ubuntu底层的cgroup权限分割为用户分配资源
Login
使用SSH Login登陆到登陆节点. 在登陆节点中, 使用不同的方法(SBatch, SAlloc, SRun)去申请节点.
提交申请之后, 可以使用[[#Info#SQueue|squeue]]命令查看申请队列, 如果申请到的节点
Info
SQueue
使用下面的指令展示申请队列的信息:
squeue要展示更多信息, 使用-o配合format:
squeue -o"%.7i %.9P %.8j %.8u %.2t %.10M %.6D %.3C %.8m %N"Node Info
Sinfo
使用下面的指令展示所有的公共的节点:
sinfo展示指定节点信息:
sinfo -p <partition> -n <node_name>展示更多信息(可以配合上面的-p, -n指令):
sinfo -o "%.13n %.3c %.6m %.4a %.28G %.10T"SControl
查看节点服务器信息:
scontrol show node <node_name>查看显卡:
scontrol show node <node_name> | grep -e "NodeName" -e "CfgTRES" -e "AllocTRES"后面两个参数表示总显卡数量和已申请显卡数量
Skills
check usage
检查node节点都有哪些人使用, 占用的资源是什么:
sacct -N <node_name> -s RUNNING --format="JobID,Account,Partition,State,ReqGRES,AllocCPUS"