【分布式训练(5)】无法 kill PID?如何 kill 休眠中的 GPU 占用进程

【分布式训练 debug】VS Code Debug 技巧:launch.json实用参数
【分布式训练(2)】深入理解 DeepSpeed 的 ZeRO 内存优化策略 (三阶段的区别)
【分布式训练(3)】accelerator + deepspeed debug 报错 “Timed out waiting for debuggee to spawn“ 解决方法✅
【分布式训练(4)】accelerator.sync_gradients 和 checkpointing 深入理解

问题描述
  • 发生原因:在通过 cursor(vs code)进行 launch.json debug 时,网络突然中断,重新连接后,无法接着进行 debug,但 GPU 仍然占用。
    在这里插入图片描述
  • 进一步的问题:通过 nvitop 可以看到 PID 号(如上图),但是无法 kill 掉通过 nvitop 显示的 PID(如下图)。
    在这里插入图片描述

解决方案

  1. 通过对 conda 环境中的 python 指令进行搜索,获得相应的 PID 号
ps -aux | grep '/path/miniconda/env/bin/python'
  1. 可以看到处于 S 状态的进程,应该就是休眠的进程。
root     3257498  0.0  0.0 83501464 701556 ?     S    07:09   0:02 /xxx/bin/python -u /root/.cursor-server/extensions/ms-python.debugpy-2024.6.0-linux-
root     3258629  9.7  0.0 260608 30484 pts/25   Sl+  07:16   4:32 /xxx/bin/python /tiamat-NAS/lisiyu/miniconda/llama-sd/wenda_flux/bin/nvitop
root     3269234  0.0  0.0   3596  2220 pts/21   S+   08:02   0:00 grep --color=auto /xxx/bin/python

进程状态的含义

  1. S (Sleeping):
    进程处于休眠状态,表示它正在等待某个事件(如 I/O 操作完成、信号等)。这是一种常见的状态,表示进程没有在使用 CPU。
  2. Sl (Sleeping + Multi-threaded):
    S 表示进程处于休眠状态。
    l 表示该进程是一个多线程进程。这意味着该进程可以有多个执行线程。
  3. S+ (Sleeping + Foreground):
    S 表示进程处于休眠状态。+ 表示该进程是一个前台进程,通常是与终端关联的进程。前台进程可以接收来自终端的输入。

所以对这些 .cursor-server 的 PID 号进行 kill 就可以解决该问题啦。🎉

# 可一次性 kill 多个 PID。
kill 325xxx4 32xxx5 32xxx39 ...

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/892179.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

华为OD机试 - 最大利润 - 贪心算法(Python/JS/C/C++ 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试真题(Python/JS/C/C)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加入华为OD刷题交流群,…

光伏仿真系统的好处

现在的做光伏电站的项目,很多任务都是后置的,这样的话问题的暴露就会在每个时间段,光伏仿真系统的好处,就是在做每一步工作前,系统已经把每一步的工作都分配好了,有任何问题都可以提前知道, 获…

awk工具的基本使用

awk的作用从整体上来说就是用来分隔文本的。 默认是根据空白字符,将一行文件内容分隔成多部份。 常用选项: 使用-F的选项来指定awk工具使用的分隔符, 在awk内部有类似于$1,$2,$3这样的变量,$1代表第一部分,$2代表第…

密码管理APP系统规格说明书(初版)

这里写目录标题 1 引言1.1 背景1.2 目的1.3 范围 2 系统需求2.1 功能需求2.2 性能需求2.3 安全需求2.4 兼容性需求 3 系统设计3.1 总体架构3.1.1 系统架构概述3.1.2 技术选型 3.2 功能模块设计3.2.1 密码生成模块3.2.2 安全存储模块3.2.3 自动填充模块3.2.4 多平台支持模块3.2.…

开源商城系统crmeb phpstudy安装配置

BOSS让我最快时间部署一套开源商场系统,今天就以crmeb为例。 快速部署在linux中我会首选docker,因为我要在windows中部署,本文就选用phpstudy集成环境做了。 什么是crmeb 我从官网摘点: CRMEB产品与服务 CRMEB通过将CRM&#x…

SPI通信时序

前言: 作为Motorola的又一伟大发明的SPI总线通信协议,在理解和应用上也是十分复杂且难以理解,博主想通过这篇文章想把SPI的原理和应用大概讲一下,同时也是记录自己对于I2C的学习和理解。 SPI概述: SPI 是英语Serial P…

【C语言复习专题】函数调用

【C语言复习专题】函数调用 1.递归是什么?1.1递归的思想:1.2递归的限制条件 2.递归举例2.1eg1:求n的阶乘2.1.1 分析和代码实现2.1.2作图演示过程 2.2 eg2:顺序打印一个整数的每一位2.2.1分析 3.递归与迭代 1.递归是什么&#xff1…

2-124 基于matlab得结构稀疏字典实现SAR图像低秩重建

基于matlab得结构稀疏字典实现SAR图像低秩重建,通过K-SVD和W-KSVD结合OMP进行重建。K-SVD算法是一种字典学习算法,能够对字典进行优化,使其能够更好地表示训练样本集。W-KSVD算法是K-SVD算法的扩展,它能够利用权重信息对字典进行优…

华为---Super VLAN简介及示例配置

目录 1. Super VLAN技术产生背景 2. Super VLAN概念 3. Super VLAN应用场景 4. Super VLAN工作原理 5. Super-VLAN主要配置命令 6. Super-VLAN主要配置步骤 7. 示例配置 7.1 示例场景 7.2 网络拓扑 7.3 配置代码 7.4 代码解析 7.5 测试验证 1. Super VLAN技术产生背…

【开源免费】基于SpringBoot+Vue.JS房屋租赁系统(JAVA毕业设计)

本文项目编号 T 020 ,文末自助获取源码 \color{red}{T020,文末自助获取源码} T020,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

ubuntu20.4环境下gcc-aarch64交叉编译器的安装

交叉编译器(Linux环境)arm gcc 8.3一共有5个版本,常用的有4个版本(另外一个为大端linux版本),分别是32bit裸机版本(arm-eabi)、64bit裸机版本(aarch64-elf)、…

2015年-2016年 软件工程程序设计题(算法题)实战_c语言程序设计数据结构程序设计分析

文章目录 2015年1.c语言程序设计部分2.数据结构程序设计部分 2016年1.c语言程序设计部分2.数据结构程序设计部分 2015年 1.c语言程序设计部分 1.从一组数据中选择最大的和最小的输出。 void print_maxandmin(double a[],int length) //在一组数据中选择最大的或者最小的输出…

EM算法学习

1.EM算法的介绍 可以发现:计算出θA和θB的值的前提是知道A、B币种的抛掷情况。 所以我们需要使用EM算法:求出每轮选择硬币种类的概率 2.EM算法执行过程: 第一步:首先初始化设置一组PA和PB证明的值。然后通过最大似然估计得到每…

2024软考网络工程师笔记 - 第3章.广域通信网

文章目录 广域网物理层特性1️⃣公共交换电话网 PSTN2️⃣本地回路3️⃣机械特性4️⃣电气特性 🕑流量与差错控制1️⃣流量与差错控制2️⃣流量控制——亭等协议3️⃣流控机制——滑动窗口协议4️⃣差错控制5️⃣差错控制——停等协议6️⃣差错控制——选择重发ARQ协…

MySQL【知识改变命运】08

数据库约束 1:约束的几个类型2:NOT NULL非空约束3:UNIQUE 唯⼀约束4:PRIMARY KEY 主键约束4.1:回顾 5:FOREIGN KEY 外键约束5.1:创建班级表(主表),并初始化数据5.2:重构学⽣表(从表)…

【Golang】Go语言http编程底层逻辑实现原理与实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

Docker 拉取镜像时配置可用镜像源(包含国内可用镜像源)

文章目录 写在前面一、Docker 官方源二、更换Docker 国内可用镜像源 (推荐使用)参考链接 写在前面 自己的测试环境: Ubuntu20.04,docker-27.3.1 一、Docker 官方源 打开 /etc/docker/daemon.json文件: sudo gedit …

STM32F4- SD卡和 FATFS文件系统

单片机系统常需大容量存储设备,如U盘、FLASH芯片、SD卡等。 其中,SD卡因容量大、支持SPI/SDIO驱动、尺寸多样,成为单片机系统的优选。 STM32F4开发板自带SD卡接口,使用SDIO接口驱动,支持高速数据传输。 1.1 SDIO 简介…

JavaWeb学习(1)

目录 一、什么是JavaWeb 二、静态web和动态web 三、Web服务器(Tomcat) 四、Http 4.1 是什么 4.2 两个时代 4.3 Http请求 4.4 Http响应 五、Maven 六、Servlet 七、HttpServletResponse 7.1 常见应用 7.1.1 向浏览器输出消息 7.1.2 下载文件 …

为您的人工智能数据提供类似 Git 的版本管理功能

您过去肯定有过版本控制代码。但是,您是否对数据进行了版本控制?您是否曾经想过与不同的团队协作处理大量数据,而无需提交大量数据?想象一下,使用类似 git 的命令来运行类似存储库的生态系统,在该生态系统中…