Training - Kubeflow 的 PyTorchJob 配置 DDP 分布式训练 (ncclInternalError)

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://blog.csdn.net/caroline_wendy/article/details/137569332

PyTorchJob

Kubeflow 的 PyTorchJob 是 Kubernetes 自定义资源,用于在 Kubernetes 上运行 PyTorch 训练任务,是 Kubeflow 组件中的一部分,具有稳定状态,并且,实现位于 training-operator 中。PyTorchJob 允许定义一个配置文件,来启动 PyTorch 模型的训练,可以是分布式的,也可以是单机的。

请注意,PyTorchJob 默认情况下不在用户命名空间中工作,因为 istio 自动侧车注入。为了使其运行,需要为 PyTorchJob pod 或命名空间添加注释 sidecar.istio.io/inject: "false" 以禁用它。

PyTorch Lightning 框架中,可以通过 strategy 配置多机多卡模式,例如 DDP(Distributed Data Parallel) 策略,即:

  • 多机多卡,需要设置固定的随机种子
  • 训练策略设置成 DDPStrategy
  • pl.Trainer() 设置 strategy(策略)、num_nodes(节点数)、devices(节点的卡数)

即:

from pytorch_lightning import seed_everything
from pytorch_lightning.strategies import DeepSpeedStrategy, DDPStrategy

# 多机多卡,需要设置固定的随机种子
seed_everything(args.seed)

# DeepSpeed 策略
# strategy = DeepSpeedStrategy(config=args.deepspeed_config_path)

# DDP 策略
strategy = DDPStrategy(find_unused_parameters=False)

# num_nodes 是节点数量,devices 是节点的 GPU 数量,可以设置成 auto
trainer = pl.Trainer(
    accelerator="gpu",
	# ...
    strategy=strategy,  # 多机多卡配置
    num_nodes=args.num_nodes,  # 节点数
    devices="auto",  # 每个节点 GPU 卡数
)

Kubeflow 配置 PyTorchJob,即:

  • Job的类型(kind),需要设置成 PyTorchJob,支持 DDP 模式。
  • 包括 Master 节点与 Worker 节点,两个节点的配置可以相同。
  • 运行命令 command 相同,可以存储不同的 nohup.out 中,例如 _master_worker
  • resources 配置资源,即单机卡数;tolerations 配置资源池。
  • 必须添加 sidecar.istio.io/inject: "false"
  • replicas 表示节点数量,Master 与 Worker 的总和,就是 num_nodes 的数量。

即:

apiVersion: "kubeflow.org/v1"
kind: PyTorchJob
metadata:
  name: [your project]-trainer-n8g1-20240409
spec:
  pytorchReplicaSpecs:
    Master:
      replicas: 1
      template:
        metadata:
          annotations:
            sidecar.istio.io/inject: "false"
          labels:
            file-mount: "true"
            user-mount: "true"
        spec:
          containers:
            - name: pytorch
              command:
                - /bin/sh
                - -cl
                - "bash run_train_n8g1.sh > nohup.run_train_n8g1_master.log 2>&1"
              image: "[docker image]"
              imagePullPolicy: Always
              securityContext: # New
                privileged: false
                capabilities:
                  add: ["IPC_LOCK"]
              resources:
                limits:
                  rdma/hca: 1
                  cpu: 12
                  memory: "100G"
                  nvidia.com/gpu: 1
              workingDir: "[project dir]"
              volumeMounts:
                - name: cache-volume  # change the name to your volume on k8s
                  mountPath: /dev/shm
          nodeSelector:
            gpu.device: "a100"  # support 'a10' or 'a100'
            group: "algo2"
          tolerations:
            - effect: NoSchedule
              key: role
              operator: Equal
              value: "algo2"
          volumes:
            - name: cache-volume  # change the name to your volume on k8s
              emptyDir:
                medium: Memory
                sizeLimit: "960G"
    Worker:
      replicas: 7
      template:
        metadata:
          annotations:
            sidecar.istio.io/inject: "false"
          labels:
            file-mount: "true"
            user-mount: "true"
        spec:
          containers:
            - name: pytorch
              command:
                - /bin/sh
                - -cl
                - "bash run_train_n8g1.sh > nohup.run_train_n8g1_worker.log 2>&1"
              image: "[docker image]"
              imagePullPolicy: Always
              securityContext:  # New
                privileged: false
                capabilities:
                  add: ["IPC_LOCK"]
              resources:
                limits:
                  rdma/hca : 1
                  cpu: 12
                  memory: "100G"
                  nvidia.com/gpu: 1
              workingDir: "[project dir]"
              volumeMounts:
                - name: cache-volume  # change the name to your volume on k8s
                  mountPath: /dev/shm
          nodeSelector:
            gpu.device: "a100"  # support 'a10' or 'a100'
            group: "algo2"
          tolerations:
            - effect: NoSchedule
              key: role
              operator: Equal
              value: "algo2"
          volumes:
            - name: cache-volume  # change the name to your volume on k8s
              emptyDir:
                medium: Memory
                sizeLimit: "960G"

设置运行脚本:

# 激活环境
source /opt/conda/etc/profile.d/conda.sh  # 必要步骤
conda activate alphaflow

# DDP 模式需要设置 MASTER_PORT,否则异常
export MASTER_PORT=9800

# 显示环境变量
export

注意:DDP 模式需要设置 MASTER_PORT,否则异常

运行日志,主要关注 RANKWORLD_SIZE 变量,如下:

RANK="0"
WORLD_SIZE="8"

RANK="6"
WORLD_SIZE="8"

遇到 Bug:ncclInternalError: Internal check failed. ,即:

RuntimeError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1269, internal error, NCCL version 2.14.3
ncclInternalError: Internal check failed.
Last error:
Net : Call to recv from [IP]<[Port]> failed : Connection refused

原因是 DDP 策略需要设置 MASTER_PORT 参数,例如:

export MASTER_PORT=9800

参考:GitHub - multi node training error:NCCL error

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/529750.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

谷歌浏览器快捷键, VScode 快捷键

谷歌浏览器快捷键 谷歌浏览器跳转标签页的方式&#xff1a; control Tab 跳转下一个标签页 control shift tab 上一个标签页 command 1-8 跳转对应的标签页&#xff0c;而command 9 则是跳转最后一个标签页 Previous Tab 插件实现谷歌浏览器两个tab页来回切换。快捷键为…

猫头虎分享已解决Error: 已解决“ModuleNotFoundError: No module named“

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 领域矩阵&#xff1a; &#x1f310; 猫头虎技术领域矩阵&#xff1a; 深入探索各技术领域&#xff0c;发现知识的交汇点。了解更多&#xff0c;请访问&#xff1a; 猫头虎技术矩阵…

Docker入门指南:从安装到基本操作和镜像构建的全面教程

文章目录 一、Docker简介二、Docker的安装三、Docker的基本概念四、Docker的基本操作五、Dockerfile和镜像构建六、总结 一、Docker简介 Docker是一个开源的应用容器引擎&#xff0c;它允许开发者将应用程序及其依赖项打包到一个可移植的容器中&#xff0c;然后在任何支持Dock…

24/04/09总结

异常: 1.异常是什么? 程序中可能出现的问题 2.异常体系的最上层父类是谁?异常分为几类? 父类:Exception。 异常分为两类:编译时异常、运行时异常 编译时异常和运行时异常的区别? 编译时异常:没有继承RuntimeException的异常&#xff0c;直接继承于Exception。 编译阶段就会…

阿里面试题二

实在是太长了 重新开一篇吧 dubbo 服务暴露 Dubbo——服务调用、服务暴露、服务引用过程 - 简书 这两篇文章写的是极好 我现在查得资源强的可怕朋友们 服务降级 MockClusterInvoker 负载均衡策略 容错机制在哪里实现的源码 通信 NIO、BIO区别&#xff0c;NIO解决了什么…

[C语言]——柔性数组

目录 一.柔性数组的特点 二.柔性数组的使用 三.柔性数组的优势 C99中&#xff0c;结构体中的最后⼀个元素允许是未知大小的数组&#xff0c;这就叫做『柔性数组』成员。 typedef struct st_type //typedef可以不写 { int i;int a[0];//柔性数组成员 }type_a; 有些编译器会…

jmeter压测websocket协议

一、jmeter 安装websocket插件 1、选项--插件管理 2、搜索WebSocket Samplers by Peter Doornbosch插件 进行安装 3、 重启 jmeter 二、jmeter压测websocket协议实战 2.1、以网站为例&#xff1a; websocket在线测试 1、断开连接 2、打开F12&#xff0c;查看WS数据 3、…

下班后开始更新进行做什么内容

今天没有完成的内容有哪些 作用插槽 没有完成 开始学习一下一个工具如何 学习一个kail 兼职挖漏洞的方式 先来安装一个windows镜像内容 安装成功了

蓝桥杯-阿坤老师的魔方挑战

图示: 代码: #include <iostream> using namespace std; int main() {int N,i,j,row,col,sum,max0;cin>>N;int ar[N][N];for(i0;i<N;i){for(j0;j<N;j){cin>>ar[i][j];}//输入矩阵 }for(i0;i<N;i){row0;coli;sum0;//重新初始化while(row<N){if(c…

基于Java+SpringBoot+vue3+uniapp口红销售/商城管理系统设计与实现

博主介绍&#xff1a;✌全网粉丝5W&#xff0c;全栈开发工程师&#xff0c;从事多年软件开发&#xff0c;在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战&#xff0c;博主也曾写过优秀论文&#xff0c;查重率极低&#xff0c;在这方面有丰富的经验…

C++11:function包装器

包装器&#xff0c;体现了C11中的封装性&#xff0c;包装器可以应用于&#xff1a;函数指针&#xff0c;仿函数&#xff0c;lambda 而包装器function的出现刚好也弥补了上述三种语法的不足之处 函数指针写起来较为复杂&#xff0c;而仿函数之间类型不同&#xff0c;lambda则在…

【粉丝福利社】区块链与金融科技(文末送书-完结)

&#x1f3c6; 作者简介&#xff0c;愚公搬代码 &#x1f3c6;《头衔》&#xff1a;华为云特约编辑&#xff0c;华为云云享专家&#xff0c;华为开发者专家&#xff0c;华为产品云测专家&#xff0c;CSDN博客专家&#xff0c;CSDN商业化专家&#xff0c;阿里云专家博主&#xf…

nexus设置s3存储

问题 因为我的nexus是安装在EC2上面&#xff0c;需要利用s3的存储能力&#xff0c;为nexus提供存储服务。 步骤 准备s3桶 输入桶名&#xff0c;创建s3桶&#xff0c;如下图&#xff1a; 创建桶读写策略 具体内容如下&#xff1a; {"Version": "2012-10-1…

施耐德 Quantum PLC 屏幕待机显示的信息

中文手册记录不全&#xff0c;中文手册只有非冗余型号的显示信息&#xff0c;没有冗余型号的显示信息&#xff0c;太&#xff01;坑&#xff01;爹&#xff01;了&#xff01; 得看英文的手册&#xff1a;https://www.mroelectric.com/static/app/product/pdfs/140CPU65260.pdf…

Ubuntu20.04安装和编译运行lidar_align来联合标定lidar与imu的外参

硬件&#xff1a;树霉派4b 1、下载并安装lidar_align mkdir -p lidar_align/src cd lidar_align/src git clone https://github.com/ethz-asl/lidar_align.git 将 lidar_align/src/lidar_align/NLOPTConfig.cmake 文件移动到 lidar_align/src/ 下(与lidar_align同级) NLOP…

业主看完当场签约的神仙地产大屏,搞物业的你不来get同款么

各行各业都有可视化大屏的应用场景&#xff0c;不少同志曾私戳我&#xff1a;能不能给我XX行业的大屏示例哇&#xff0c;我展示的指标领导怎么都不满意哇&#xff01; 于是俺在行业顾问大哥那苦苦哀求&#xff0c;终于给大家带来这个地产行业的“营销战图大屏”方案&#xff0…

靶机渗透Lampiao

寻找靶机 主机ip&#xff1a;192.168.87.134 扫描端口 靶机位置为&#xff1a;192.168.87.140 扫描端口 得到三个端口22,80,1898 信息搜集 访问网站 162.168.87.140:80 一点没用 162.168.87.140:1898 有文字框可以考虑sql注入等等 同时点击图片发现url 中有个node可以…

Linux网络名称空间之独立网络资源管理

Linux网络名称空间是一种强大的虚拟化技术&#x1f6e0;️&#xff0c;它允许用户创建隔离的网络环境&#x1f310;&#xff0c;每个环境拥有独立的网络资源和配置。这项技术对于云计算☁️、容器化应用&#x1f4e6;和网络安全&#x1f512;等领域至关重要。本文将详细介绍在L…

产品推荐 | 基于Intel(Altera)Arria 10 10AS027/048打造的水星Mercury+ AA1核心板

01 产品概述 水星Mercury AA1片上系统&#xff08;SoC&#xff09;核心板通过结合基于ARM处理器的SoC FPGA、快速DDR4 ECC SDRAM、eMMC flash、QSPI flash、Gigabit Ethernet PHY和RTC形成了一个高性能嵌入式处理方案&#xff0c;结合了CPU系统的灵活性和FPGA原始的、实时的并…

电销卡呼叫必须录音吗

在现代的销售策略中&#xff0c;电话销售&#xff08;电销&#xff09;扮演着至关重要的角色。为了提高电销效率和质量&#xff0c;许多企业采用了电销卡来进行日常的电话营销活动。电销卡通常指的是专为电话销售设计的电话号码或线路&#xff0c;它们通常具备一些特殊的功能&a…