错误:ERROR:torch.distributed.elastic.multiprocessing.api:failed

在多卡运行时,会出现错误(ERROR:torch.distributed.elastic.multiprocessing.api:failed),但是单卡运行并不会报错,通常在反向梯度传播时多卡梯度不同步。但我是在多卡处理数据进行tokenizer阶段报错,这竟然也会出错,还没涉及到训练,有点不明所以。

1. 错误

在这里插入图片描述

2. 解决方法

设置find_unused_parameters=True.

3. 参考

[1] https://blog.csdn.net/QLeelq/article/details/130404416
[2] https://zhuanlan.zhihu.com/p/592515484

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/150238.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ZYNQ实验--Petalinux 安装

一、Petalinux 简介 PetaLinux是一个由Xilinx公司提供的嵌入式Linux开发工具套件,专门用于在Xilinx器件上构建、定制和部署嵌入式Linux系统。这个工具套件旨在简化嵌入式系统的开发过程,特别是针对使用Xilinx的可编程逻辑器件的系统。PetaLinux是Xilinx …

《信息安全原理与实践》(第3版):全面引领信息安全领域新潮流

在当今信息化社会的快速发展中,信息安全问题无疑是最为人们所关注的焦点之一。而《信息安全原理与实践》(第3版)的出版,无疑为解决这一问题提供了强大的理论和实践支持。 首先,这本书经过全面修订和更新,以适应信息安全领域日新月…

资产跟踪影响利润的 7 种方式

几乎每个工人都被托付某种有形资产来完成他们的工作。根据您的工作领域,这可能是一套制服、徽章、一台电脑、一部工作电话、一套建筑钥匙、一个工具包,甚至是一台价值超过您年薪的机器。 无论如何,我们都熟悉丢失您所保管的物品所带来的压力…

vite => .env 文件配置和使用

.env.development .env.production VITE_API_BASE_URL /api # 开发环境代理地址 .env.development 是在开发环境中的代理地址 .env.production 是在线上的代理地址 ( 两个 .env 内部的变量都是一样的 vite 会在你开发环境和线上环境自动做切换 ) …

flutter开发web应用支持浏览器跨域设置

开发web应用难免会遇到跨域问题,所以flutter设置允许web跨域的设置是要在你的flutter安装路径下面 flutter\bin\cache 找到flutter_tools.stamp文件,然后删除掉:这个文件是临时缓存文件 然后找到 flutter\packages\flutter_tools\lib\src\web…

树和森林 查找

讨论3.1 黄金分割查找? 在二分查找中,我们是取mid等于left和right的中间值,即用等分的方法进行查找. 那为什么一定要等分呐?能不能进行“黄金分割”?也就是midleft0.618(right-left),当然mid要取整数。如果这样查找&…

【腾讯云 HAI域探秘】浅尝一番AI绘画

前言 腾讯云高性能应用服务 HAI 是为开发者量身打造的澎湃算力平台。无需复杂配置,便可享受即开即用的GPU云服务体验。 我之前也参与锅一个AI绘画的活动,是基于InsCode的,都可以在线训练大模型,开发自己的AI应用程序。 这次腾讯…

Supervisor管理器

如果宝塔版本是低于 7.9 可以选用supervisor 管理器,宝塔7.9及以上版本此工具可能出BUG,请选择 堡塔应用管理器跳过本页,看堡塔应用管理器 Supervisor 管理器 和 堡塔应用管理器 二选一使用 步骤总结: 一、切换PHP命令行版本和站…

天机学堂-1、项目搭建,微服务架构设计

1.学习背景 各位同学大家好,经过前面的学习我们已经掌握了《微服务架构》的核心技术栈。相信大家也体会到了微服务架构相对于项目一的单体架构要复杂很多,你的脑袋里也会有很多的问号: 微服务架构该如何拆分? 到了公司中我需要自…

hyper-v外部网络,ssh服务正常,可以ping通虚拟机,但是无法远程连接虚拟机。

问题: ssh服务正常,可以ping通虚拟机,虚拟机可上网,一切正常,但是无法远程连接虚拟机。 报错:Network error: Connection refused 解决: 在本机的网络设置中,这个东西不知道是什么…

立体库堆垛机控制程序故障输出功能块

故障输出块 A "提升变频器故障" // O "提升变频器通讯故障" // ON "提升变频器准备好" "提升变频故障" A "水平变频器故障" // O "水平变频器通讯故障" // ON…

4.以docker容器生成镜像推送到阿里云镜像仓库

1.开通阿里云镜像仓库 1.1 登录阿里云,访问容器镜像服务。地址如下: https://cr.console.aliyun.com/cn-shanghai/instances 1.2 个人学习为例,创建个人版实例 1.2.1 点击个人实例 1.2.2 .创建个人实例 1.2.3 创建完成后,设置…

3.4-初识Container

常用的docker container命令: 1、基于image创建docker container命令: docker run lvdapiaoliang/hello-docker 2、列举当前本地正在运行的container容器命令: docker container ls 3、列举当前本地所有的container容器命令(包括正在运行的和…

Ubuntu 搜狗输入法无法输入中文解决方案(不需要重装,不需要重启服务器)

Ubuntu 搜狗输入法突然无法输入中文,上午还好用,下午就不好用了,直接上解决方案 1.终端输入pidof fcitx找到搜狗的进程,如下图红框中的就是进程 2.直接杀掉这个进程 3.其实到第二步,如果搜狗输入法自动重启了&#xf…

【python】—— 内置类型、运算符、表达式、关键字

🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java基础:Java基础_IT闫的博客-CSDN博客 🐋c语言:c语言_IT闫的博客-CSDN博客 🐟MySQL&#xff1a…

Unity中Shader矩阵的行列式

文章目录 前言一、什么是矩阵的行列式?1、只有方阵才有行列式(即 n X n 的矩阵)2、数学上表示为 det(A) 或者 |A|3、行列式可以看做有向面积 或 体积 在空间中的变化影响 二、2 x 2矩阵的行列式三、3 x 3矩阵的行列式四、行列式计算总结五、使…

浙江大学数据结构陈越 第一讲 数据结构和算法

数据结构 数据结构是计算机科学中用来组织和存储数据的方式。它可以理解为一种组织数据的方式,能够有效地管理和操作数据,以及提供对数据进行存储、检索、更新和删除等操作的方法。常见的数据结构包括数组、链表、栈、队列、树和图等,它们各自…

神经网络常见评价指标AUROC(AUC-ROC)、AUPR(AUC-PR)

神经网络的性能可以通过多个评价指标进行衡量,具体选择哪些指标取决于任务的性质。以下是神经网络中常见的评价指标: 准确性(Accuracy): 准确性是最常见的分类任务评价指标,表示模型正确预测的样本数占总样…

【小黑送书—第六期】>>AI时代,程序员如何应对挑战——《AI时代系列书籍》

在AI时代,程序员面临着新的机遇和挑战。为了适应这个快速发展的时代,掌握新技能并采取相应的应对策略是至关重要的。 对于办公人员或程序员来说,利用AI可以提高工作效率。例如,使用AI助手可以帮助自动化日常的重复性工作&#xff…

【Mycat2实战】二、Mycat安装部署

1. Mycat下载 Mycat官网下载地址,点击直接前往:http://www.mycat.org.cn/ Mycat 有提供编译好的安装包,支持 windows、Linux、Mac、 Solaris 等系统上安装与运行。 本文及后续系列的文章都是使用Linux的系统进行操作。 这里我们选择使用文…