使用昇腾芯片进行多卡训推时使用hccl_tools.py为npu分配ip报错问题解决办法

目录

  • 问题描述
  • 问题产生原因
  • 解决办法
  • 最终执行并验证
  • 参考网站
  • 命令扩展

问题描述

昇腾芯片(910b/310p等)进行多卡训练或者推理时需要先获取并配置每张npuip信息,因此需要执行类似下面问题:

python mindformers/tools/hccl_tools.py --device_num "[0,8)"

执行后报错:
请添加图片描述
注意:有的报错显示Command execute failed!
有的报错显示/bin/sh: hccn_tool: command not found
Failed to call hccn_tool, try to read /etc/hccn.conf instead

问题产生原因

  1. 宿主机无hccn_tool执行命令,可使用下述命令查询(无输出则没有该命令)
whereis hccn_tool

在这里插入图片描述

  1. /etc/hccn.conf文件为空,可使用下述命令查询(无输出则没有该命令)
vi /etc/hccn.conf
  1. 下面指令需要在宿主机执行,且要确保有权限执行hccn_tool
python mindformers/tools/hccl_tools.py --device_num "[0,8)"

解决办法

注:hccn_tool命令无法识别则需要安装必要的工具组件,不在本文考虑范围

/etc/hccn.conf文件为空时,按照下面方法手动生成/etc/hccn.conf文件:
以下是定义每个NPUIP地址的一般步骤:

  1. 确定NPU设备数量:首先,您需要知道您的系统中有多少个NPU设备,以及它们在系统中的索引号(通常是从0开始的整数)。

  2. 规划IP地址范围:您需要规划一个IP地址范围,专门用于NPU设备。这些IP地址应该是您网络中未被使用的,并且最好在一个单独的子网中。

  3. 分配IP地址:为每个NPU设备分配一个唯一的IP地址。通常,这些地址会按照NPU设备的索引号顺序分配。

  4. 设置子网掩码:为NPU设备设置适当的子网掩码。子网掩码定义了网络的大小和可用的IP地址范围。常见的子网掩码如255.255.255.0表示网络中可以有256个IP地址。

  5. 使用hccn_tool配置IP:使用hccn_tool命令为每个NPU设备设置IP地址和子网掩码。

例如(8卡npu配置如下),可以先ping一下每个ip是否有被使用,没有被使用则可以执行下面命令:

hccn_tool -i 0 -ip -s address 192.168.100.100 netmask 255.255.255.0
hccn_tool -i 1 -ip -s address 192.168.100.101 netmask 255.255.255.0
hccn_tool -i 2 -ip -s address 192.168.100.102 netmask 255.255.255.0
hccn_tool -i 3 -ip -s address 192.168.100.103 netmask 255.255.255.0
hccn_tool -i 4 -ip -s address 192.168.100.104 netmask 255.255.255.0
hccn_tool -i 5 -ip -s address 192.168.100.105 netmask 255.255.255.0
hccn_tool -i 6 -ip -s address 192.168.100.106 netmask 255.255.255.0
hccn_tool -i 7 -ip -s address 192.168.100.107 netmask 255.255.255.0

最终执行并验证

终端执行以下命令:

python mindformers/tools/hccl_tools.py --device_num "[0,8)"

显示下面命令则表示执行成功
在这里插入图片描述

参考网站

  • mindformers生成hccl.json文件的时候报错
  • 基于昇腾的大模型部署
  • kimi

命令扩展

hccn_tool -i 1 -ip -g  # 获取索引为1的NPU设备的IP配置信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/789711.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

快手kolors模型测评和安装完整教程(支持中文提示词、文字绘制 )

在人工智能领域,文本到图像合成技术一直是研究的热点。Kolors项目以其卓越的性能和创新的技术,正在重新定义这一领域的可能性。本文将深入探讨Kolors项目的核心优势、技术细节以及如何快速开始使用这一强大的模型。 随着深度学习技术的飞速发展&#xf…

【1.4】动态规划-解目标和

一、题目 给你一个整数数组nums和一个整数target 。 向数组中的每个整数前添加或 - ,然后串联起所有整数,可以构造一个表达式: 例 如 , nums[2,1] , 可 以 在 2 之 前 添 加 , 在 1 之 前 添 加 - &…

常见WAF拦截页面总结

(1) D盾 (2) 云锁 (3) UPUPW安全防护 (4) 宝塔网站防火墙 (5) 网防G01 (6) 护卫神 (7) 网站安全狗 (8) 智创防火墙 (9) 360主机卫士或360webscan (10) 西数WTS-WAF (11) Naxsi WAF (12) 腾讯云 (13) 腾讯宙斯盾 (14) 百度云 图片 (15) 华为云 (16) 网宿云 (17) 创宇盾 图片 (…

(自用)gtest单元测试

gtest是Google的一套用于编写C测试的框架,可以运行在很多平台上(包括Linux、Mac OS X、Windows、Cygwin等等)。基于xUnit架构。支持很多好用的特性,包括自动识别测试、丰富的断言、断言自定义、死亡测试、非终止的失败、生成XML报…

《Programming from the Ground Up》阅读笔记:p19-p48

《Programming from the Ground Up》学习第2天,p19-p48总结,总计30页。 一、技术总结 1.object file p20, An object file is code that is in the machine’s language, but has not been completely put together。 之前在很多地方都看到object fi…

RAG的学习与实践——LangChain和LlamaIndex学习笔记

RAG RAG(Retrieval Augmented Generation)系统,代表“检索增强生成”。RAG由五个关键步骤组成: 加载:这是指将数据从其所在位置(无论是文本文件、PDF、其他网站、数据库还是 API)获取到您的管道中。LlamaHub提供数百…

【南京蓝领新材料】水力颗粒分离器工作原理

水力颗粒分离器工作原理 在装置内部设有一个具有一定空间的滤网,雨水从进水管流入,先进入滤网过滤,雨水中的悬浮物和漂浮物将被拦截在此滤网内。 在装置底部有三个腔室,当雨水中小的颗粒物流到每个腔室挡墙前时,颗粒物…

react学习——25redux实现求和案例(完整版)

1、目录结构 2、count/index.js import React, {Component} from "react"; //引入store,用于获取数据 import store from ../../redux/store //引入actionCreator 专门创建action对象 import {createDecrementAction,createIncrementAction} from ../../redux/coun…

机器学习与深度学习:区别与联系(含工作站硬件推荐)

一、机器学习与深度学习区别 机器学习(ML:Machine Learning)与深度学习(DL:Deep Learning)是人工智能(AI)领域内两个重要但不同的技术。它们在定义、数据依赖性以及硬件依赖性等方面…

数字人+展厅互动体验方案:多元化互动方式,拓宽文化文娱新体验

数字化创新已成为推动展厅可持续发展,创造全新消费体验,满足游客多元化需求的关键力量。 “数字人数字互动展厅”可以适应年轻一代的文化传播与多媒体互动新体验趋势,打造新生代潮玩聚集地,促进文化创意传播与互动体验场景创新&a…

storybook中剔除chakra-ui的影响,或者剔除其他ui包的影响

介绍 经过一系列初始化完成后,storybook项目启动出来发现多余了一个ui框架的内容。如下图 因为项目中仅仅使用chakraUI的一些功能,并没有使用整体组件功能,所以说完全没必要把它留着这里。经过排查可以使用storybook中的refs功能剔除掉不需要…

【数智化案例展】厦门市信息中心——爱数助力厦门政务云构建两地三中心多级数据灾备体系...

‍ 爱数案例 本项目案例由爱数投递并参与数据猿与上海大数据联盟联合推出的《2024中国数智化转型升级创新服务企业》榜单/奖项”评选。 大数据产业创新服务媒体 ——聚焦数据 改变商业 厦门市信息中心是厦门市电子政务专门机构,加挂厦门市电子政务中心、厦门市大数…

windows驱动开发基础-环境篇

前言 Windows上无论是用户模式下还是内核模式下,有关驱动的开发都有可能影响系统稳定性,所以我们首先要准备一个专用的测试环境,可以使用VM等虚拟机方便环境修复和还原 测试模式 开启测试模式:cmd 命令 bcdedit /set testsign…

视频共享交换平台LntonCVS视频监控平台智慧加油站安全管理方案

加油站作为危化品行业的一部分,日常的加油和卸油作业安全至关重要。目前国内加油站的管理主要依赖于人为管控、监控摄像头和人工巡检,这些方法存在效率低下和反应滞后的问题。为了有效应对安全风险,急需引入人工智能、物联网和大数据技术&…

视频版权音乐处理☞AI分离人声、音效、背景音乐的需求和进展-2024

随着互联网的普及和短视频的兴起,视频内容的全球各大平台分发越来越普遍。然而,不同国家和地区的音乐版权、不同社媒平台拥有的版权和处理政策都存在差异,因此同一个视频在多渠道分发的时候就会产生版权侵权风险。如何既能满足全球多渠道、多…

C++Windows环境搭建(CLion)

文章目录 CLion下载安装CLion下载CLion安装新建项目新建一个文件基础设置字体设置clion中单工程多main函数设置 参考 CLion下载安装 CLion下载 打开网址:https://www.jetbrains.com/clion/download/ 点击Download进行下载。 CLion安装 双击下载好的安装包&…

M3U8 视频是一种什么格式,M3U8 视频怎么转成 MP4

M3U8 文件格式在流媒体服务中非常常见,尤其是与 HTTP Live Streaming (HLS) 协议结合使用时。HLS 是苹果公司开发的一种流媒体传输协议,旨在为 iOS 设备和 Safari 浏览器提供高质量的流媒体播放体验。M3U8 文件在这种情况下充当了索引角色,指…

如何用Vue3和Plotly.js绘制交互式瀑布图

本文由ScriptEcho平台提供技术支持 项目地址:传送门 使用 Plotly.js 在 Vue 中创建瀑布图 应用场景 瀑布图广泛用于可视化财务报表和展示增量变化,例如利润表、现金流量表和收入分析。它们通过将正值和负值堆叠在垂直轴上,清晰地展示每个…

Win10屏幕录制,这3种方法分享给你

数字化时代里,电脑的屏幕录制功能已经不再是简单的工具,而是成为我们表达、学习和交流的重要媒介。Win10系统依然是大部分人使用的电脑系统,那么关于Win10屏幕录制,有哪些好用高效的录制软件,能够帮助我们更加深入地捕…

Qt:11.输入类控件(QLineEdit-单行文本输入控件、QTextEdit-多行文本输入控件、QComboBox-下拉列表的控件)

一、QLineEdit-单行文本输入控件: 1.1QLineEdit介绍: QLineEdit 是 Qt 库中的一个单行文本输入控件,不能换行。允许用户输入和编辑单行文本。 1.2属性介绍: inputMask 设置输入掩码,以限定输入格式。setInputMask(con…