【遇到的问题】集群上查看gpu的使用情况

流程:

  1. 查看bme_cpu所有节点的详细情况scontrol show node bme_gpu[12-23]
    下面这个看起来分配出去较少
    在这里插入图片描述
  2. 查看bme_cpu空闲节点sinfo -p bme_gpu -o "%n %G %C %m %e NVIDIAA10080GBPCIe 卡 gpu 13看起来最少
    在这里插入图片描述
  3. 在命令中选择这个节点
#!/bin/bash
#SBATCH -J ratio25
#SBATCH -N 1
#SBATCH -p bme_gpu
#SBATCH -n 8
#SBATCH --time=04:10:00
#SBATCH --gres=gpu:NVIDIAA10080GBPCIe:1
#SBATCH --nodelist=bme_gpu13
#SBATCH -o %j.out
#SBATCH -e %j.out
echo ${SLURM_JOB_NODELIST}
echo start on $(date)
source activate py38
python train_withXYZ_remote.py
echo end on $(date)

# 查看bme_gpu12到bme_gpu23节点的详细信息
scontrol show node bme_gpu[12-23]

# 或者查看所有包含 NVIDIAA10080GBPCIe GPU 的节点
scontrol show node | grep -A 10 "NodeName=bme_gpu1[2-9]\|NodeName=bme_gpu2[0-3]"

# 查看bme_gpu分区中所有作业的信息
squeue -p bme_gpu -o "%.18i %.9P %.8j %.8u %.2t %.10M %.6D %R"

# 查看bme_gpu分区的节点使用情况
sinfo -p bme_gpu -o "%n %f %G %C %m"

# 查看所有节点的GPU使用情况
scontrol show node | grep -E "NodeName|Gres=|AllocTRES"

查看空闲节点

(base) [yuanhy2023@bme-login03 dmri_fmri2PET]$ sinfo -p bme_gpu -o "%n %G %C %m %e"
HOSTNAMES GRES CPUS(A/I/O/T) MEMORY FREE_MEM
bme_gpu01 gpu:TeslaV100S-PCIE-32GB:4 32/8/0/40 385422 340886
bme_gpu02 gpu:TeslaV100S-PCIE-32GB:4 24/16/0/40 385422 190333
bme_gpu03 gpu:NVIDIAA100-PCIE-40GB:4 24/16/0/40 385421 356811
bme_gpu04 gpu:NVIDIAA100-PCIE-40GB:4 18/22/0/40 385421 308029
bme_gpu05 gpu:NVIDIAA100-PCIE-40GB:4 21/19/0/40 385421 221302
bme_gpu06 gpu:NVIDIAA100-PCIE-40GB:4 22/18/0/40 385421 329626
bme_gpu07 gpu:NVIDIAA100-PCIE-40GB:4 20/20/0/40 385421 272223
bme_gpu08 gpu:NVIDIAA100-PCIE-40GB:4 24/16/0/40 385421 334960
bme_gpu10 gpu:NVIDIAA100-PCIE-40GB:8 33/7/0/40 385421 222243
bme_gpu12 gpu:NVIDIAA10080GBPCIe:4 32/16/0/48 515470 356842
bme_gpu13 gpu:NVIDIAA10080GBPCIe:4 16/32/0/48 515470 458384
bme_gpu14 gpu:NVIDIAA10080GBPCIe:4 32/16/0/48 515470 398798
bme_gpu15 gpu:NVIDIAA10080GBPCIe:4 25/23/0/48 515470 347636
bme_gpu16 gpu:NVIDIAA10080GBPCIe:4 28/20/0/48 515470 312912
bme_gpu17 gpu:NVIDIAA10080GBPCIe:4 32/16/0/48 515470 361716
bme_gpu18 gpu:NVIDIAA10080GBPCIe:4 32/16/0/48 515470 469081
bme_gpu19 gpu:NVIDIAA10080GBPCIe:4 36/12/0/48 515470 387393
bme_gpu20 gpu:NVIDIAA10080GBPCIe:4 32/16/0/48 515470 241189
bme_gpu21 gpu:NVIDIAA10080GBPCIe:4 25/23/0/48 515470 121542
bme_gpu22 gpu:NVIDIAA10080GBPCIe:4 29/19/0/48 515470 440023
bme_gpu23 gpu:NVIDIAA10080GBPCIe:4 32/16/0/48 515470 439940
bme_gpu24 gpu:NVIDIAA10080GBPCIe:6 36/12/0/48 515470 141288

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/743043.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

山洪灾害无线预警广播系统解决方案

一、国家政策 2021年水利部印发了《全国山洪灾害防治项目实施方案(2021-2023年)》,提出“到2023年,山洪灾害防治体系进一步健全,监测预警能力进一步提升,努力补齐山洪灾害防治当前存在的明显短板”的建设目…

思科交换机基本配置命令

01进入特权模式enable switch>enable switch# 02进入全局配置模式configure terminal switch>enable switch#configure terminal switch(conf)# 03交换机命名hostname aptech2950以aptech2950为例 switch>enable switch#configure terminal switch(conf)#hostname apt…

创建App

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Django项目中,推荐使用App来完成不同模块的任务,通过执行如下命令可以启用一个应用程序。 python manage.py startapp app…

allegro 如何替换过孔?

操作步骤如下 1.选择操作对象(需要替换的过孔),右键–>Repace……–>Selected…… 2.在弹出的窗口中选择最终需要的过孔既可以

怎么用表单二维码来收集信息?二维码收集信息的制作教程

现在通过二维码来收集用户信息的方式在很多场景中都有应用,随着毕业季的到来学校也开始用这种方式来收集学生的个人信息,学生只需要扫描生成二维码,根据问题填写对应的内容,将数据统计到专门的后台中存储,实现数据的快…

k8s设置pod资源请求和限制

设置资源请求和限制 实验目标: 学习如何为 Pod 设置资源请求和限制,以优化集群资源分配。 实验步骤: 创建一个 Deployment,并设置 CPU 和内存的资源请求和限制。使用 kubectl describe 命令查看资源分配情况。观察资源限制对 P…

IMU应用于颈部健康监测

随着电脑成为日常工作的必备工具,长时间使用电脑导致的颈部疼痛问题日益受到关注。近日,一项创新研究利用IMU开发了一种新型监测系统,用来监测电脑使用者的颈部姿势和疼痛情况。 在为期两天的实验中,8名办公室工作者分别在静态和…

详细介绍iutils.dll丢失的多个解决方法,一键快速修复丢失的iutils.dll文件

当用户遭遇“iutils.dll缺失”的提示时,这通常预示着依赖该库文件的程序将面临启动失败或功能受限的风险。DLL(Dynamic Link Library,动态链接库)文件无疑占据了核心地位。这些文件就如同建筑师手中的蓝图,为软件的构建…

Linux内核测试技术

Linux 内核是Linux操作系统的核心部分,负责管理硬件资源和提供系统调用接口。随着 Linux 内核的不断发展和更新,其复杂性和代码规模也在不断增加。因此,确保内核的稳定性和可靠性变得尤为重要。内核测试技术是实现这一目标的关键手段。本文将…

数据库管理工具Navicat v17全新发布——释放全新的建模能力

Navicat是一个可连接多种数据库的管理工具,它可以让你以单一程序同时连接到MySQL、Oracle及PostgreSQL数据库,让管理不同类型的数据库更加的方便。 接下来我们将为大家介绍Navicat v17中的一些主要亮点,其释放的全新建模能力、最大化数据可见…

厄瓜多尔海外媒体发稿:大舍传媒-媒体宣发投放需要什么条件?

一、厄瓜多尔媒体 厄瓜多尔媒体有: EcuapaginasEcuapuntoViviendaya 这些媒体都是厄瓜多尔当地颇具影响力的新闻**和社交媒体平台,为广告主和品牌提供了一个广阔的宣传空间。 二、大舍传媒介绍 大舍传媒是一家专业的海外媒体宣发投放,致…

Linux的免交互

交互:我们发出指令控制程序的运行,程序在接收到指令之后按照指令的效果做出对应的反应。 免交互:间接的通过第三方的方式把指令传送给程序,不用直接的下达指令。 1、here document免交互 ere document免交互:是命令…

如何绘制网络安全运营的“谷歌地图”?

正如Google Maps(谷歌地图)彻底改变了驾车出行时的导航模式一样,通过流程映射绘制一张指导网络安全运营的“电子地图”,可以彻底改变组织理解和管理网络安全运营工作的方式。 现代企业网络安全运营的核心并不是部署防火墙和杀毒软…

浅析MySQL-基础02

目录 MySQL一行记录是怎么存储的? MySQL的数据存放在哪? 表空间文件的结构是怎么样的? InnoDB行格式有哪些? Compact行格式是啥样的? 记录的额外信息 1、变长字段长度列表 2、NULL值列表 3、记录头信息 记录…

【AI大模型】ChatTTS——颠覆传统,赋能未来的文本到语音技术

文章目录 一、项目介绍二、代码解释三、从技术角度进行分析四、技术细节与实现五、优缺点分析六、应用场景分析七、未来展望八、结论 一、项目介绍 随着人工智能技术的不断进步,语音合成(TTS)技术得到了飞速发展。ChatTTS项目作为一个开源的…

分享一个好用的图幅号计算器

如果在你的工作中会分幅处理地图数据,也许这个好用的图幅号计算器能对你有所帮助。 你只需要在该工具中输入经纬度坐标,就可以为你计算出各个比例尺下的图幅号,你可以在文末查看该工具的领取方法。 一个好用的图幅号计算器 该图幅计算器工…

关于无人机——你知道有哪些种类?

随着无人机相关技术的飞速发展,无人机的种类也越来越多。也正由于无人机的多样性,从不同的角度考量会有不同的分类方法: 按照飞行平台构型分类,无人机可分为固定翼无人机、旋翼无人机、无人飞艇、伞翼无人机、扑翼无人机等。 按…

linux用户使用资源限制

linux用户使用资源限制 1. 概述2. 特殊权限(SUID,SGID,SBIT)3. 访问控制列表(ACL)4. 磁盘空间限制(quota)5. 进程资源限制5.1 ulimit5.2 cgroup 前言:linux是一个遵循POSIX的多用户、多任务、支…

软考中级复习过程

中级软考复习过程 先上成绩截图 ~~~~ 总结一下自己的软考中级备考过程,个人备考的是软件设计师,首先对于软考中的大部分内容其实我都学过的,只是有些内容确实会忘记,我把整个备考的过程分为前后两个阶段。 ~~~~ 前期阶段&#…

CentOS编译安装OpenSSL 3.3.1

正文共:666 字 8 图,预估阅读时间:1 分钟 我们前面介绍了如何通过Windows Server生成证书(Windows Server配置生成认证证书),也介绍了如何通过easy-RSA生成证书文件(使用Easy-RSA配置生成SSL证书…