GPU集群使用Tip：查询端口号占用情况、进程由哪个用户创建、运行时指定某一张显卡

在GPU集群上运行代码，会面临一些问题：
（1）跑着跑着GPU memory分配失败 – 因为有其他人在使用
（2）运行时显示端口号已被占用，需要你换一个端口。
这个时候一般采取的方法有：
（1）找到是哪个用户占用GPU memory
（2）查看目前哪些端口号没被占用。
因此，这篇blog主要记录出现这两种情况的解决方案。

运行`nvidia-smi`，查看集群使用情况

在这里插入图片描述
上图展示了GPU memory的总体和各个进程的占用情况。

进程由哪个用户创建？

以PID=3050为例。

$ ps -o user= -p 3050

运行结果：
在这里插入图片描述

查询端口号占用情况

执行以下命令：

$ ss -tuln | grep [port]

运行结果示例：
在这里插入图片描述
返回信息解读：

tcp: 表示这是 TCP 协议的连接。

LISTEN: 状态为 LISTEN 表示端口正在监听或等待接收传入的连接。

0: 这是“接收队列”的大小。在这里，它表示没有正在等待处理的连接。

128: 这是“最大队列长度”，即可以排队等待接受的连接数。在这里，它被设置为 128，这是 TCP 连接请求的标准最大队列长度。

0.0.0.0:8888 和 [::]:8888: 这表示端口 8888 在所有 IPv4 地址（0.0.0.0）和所有 IPv6 地址（[::]）上都处于监听状态。换句话说，该端口正在接受来自任何 IP 地址的连接。

运行时指定某一张显卡

# codes to copy
# 1st
import torch
torch.cuda.set_device(1)

#2nd
CUDA_VISIBLE_DEVICES=1 python your_script.py

在这里插入图片描述

后记

bash和shell的区别：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/193443.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

GPU集群使用Tip：查询端口号占用情况、进程由哪个用户创建、运行时指定某一张显卡

运行`nvidia-smi`，查看集群使用情况

进程由哪个用户创建？

查询端口号占用情况

运行时指定某一张显卡

后记

相关文章

java springboot测试类Transactional解决测试过程中在数据库留下测试数据问题

帆软报表 channel 反序列化漏洞复现

E云管家微信群聊机器人开发

【html+css】表单元素

域名邮箱与企业邮箱的区别：功能、应用与优势

第二十五章解析cfg文件及读取获得网络结构

振南技术干货集：FFT 你知道？那数字相敏检波 DPSD 呢？（2）

数据结构（超详细讲解！！）第二十五节线索二叉树

python中的简单线性拟合

TUP通信——与多个客户端同时通信

从零开始学优惠券样式代码编写，让你的网站焕然一新！

FLV 文件格式分析

Kafka 如何保证消息消费的全局顺序性

redis笔记 -- 基础数据结构

数字IC芯片验证流程及验证工具推荐？收藏专用

python爬虫指南之请求模块urllib的详细教程

python+gurobi求解线性规划、整数规划、0-1规划

人力资源管理后台 === 角色管理

springboot实现验证码功能

【TinyALSA全解析（三）】tinyplay、tincap、pcm_open源码解析

GPU集群使用Tip：查询端口号占用情况、进程由哪个用户创建、运行时指定某一张显卡

运行nvidia-smi，查看集群使用情况

进程由哪个用户创建？

查询端口号占用情况

运行时指定某一张显卡

后记

相关文章

运行`nvidia-smi`，查看集群使用情况