注意事项:
1.如果PSID以SGN开头,说明该产品是曙光的OEM产品,可以向HPC高速网络部获取固件。如果PSID以MT开头,说明该产品是Mellanox或nvidia的标准产品,可以通过官网下载固件。
2.通过官网获取固件,一定要保证和查询出来的PSID一致。
3.有一些型号,使用的mutilhost卡,刷新固件的时候,只需要在主节点上刷新固件即可。另外重启节点的时候,一定要把同刀节点都关闭了,然后再开启。否则,hca卡不会掉电,进而导致新版本的固件无法加载。
4.集群内部的固件版本,尽可能的保持一致。否则可能会会出现降速,带宽不稳定等情况。如果是不同类型的卡,尽可能的保证后面的号码一致。
5.如果遇到刷新固件,重启不生效的情况,就断电重启。
6.对于fdr、edr和hdr兼容的项目,保证同一类型的卡的固件版本一致,尽可能的使用最新的固件。
前提条件:
安装ib网卡的服务器,必须预先安装驱动,驱动里面应该包含MFT工具,如果没有mft工具需要到官网下载
NVIDIA Firmware Tools (MFT)
MFT包是一套固件管理工具,用于:生成标准的或自定义的NVIDIA固件镜像查询固件信息,刻录固件映像,通过查询,此包包含以下工具及功能
MFT Tools | |||
工具 | 描述 | ||
mst | 该工具提供如下功能: *启动/停止寄存器访问驱动程序 *列出可用的mst设备 | ||
mlxburn | 该工具提供如下功能: 生成用于刻录的标准或自定义NVIDIA固件映像(二进制或。mlx格式) *将图像刻录到连接到NVIDIA HCA或开关设备的Flash/EEPROM *查询NVIDIA网卡上加载的固件版本 *显示NVIDIA网络适配器的VPD(重要产品数据) | ||
flint | 该工具将固件二进制映像或扩展ROM映像刻录到NVIDIA网卡/网关/交换设备的Flash设备上。它包括对烧录固件映像和二进制映像文件的查询功能。 | ||
Debug utilities | 一组调试工具(例如,itrace、fwtrace、mlxtrace、mlxdump、mstdump、mlxmcg、wqdump、mcra、mlxi2c、i2c、mget_temp和pckt_drop) |
最新版本为4.28,支持以下设备的管理
Device Type | Product Name | HW Access Method | ||
PCI | I2C | In-Band | ||
HCA (InfiniBand) | NVIDIA Connect-IB | V | V | V |
IB/ETH Network Adapter | NVIDIA ConnectX-3 Pro | V | V | V |
NVIDIA ConnectX-4 | V | V | V | |
NVIDIA ConnectX-5 | V | V | V | |
NVIDIA ConnectX-5 Ex | V | V | V | |
NVIDIA ConnectX-6 | V | V | V | |
NVIDIA ConnectX-6 Dx | V | V | V | |
NVIDIA ConnectX-7 | V | V | V | |
NVIDIA BlueField-2 | V | V | V | |
NVIDIA BlueField-3 | V | V | V | |
Ethernet Adapter (NIC) | NVIDIA ConnectX-4 Lx | V | V | |
NVIDIA ConnectX-6 Dx | V | V | ||
NVIDIA ConnectX-6 Lx | V | V | ||
NVIDIA ConnectX-7 | V | V | ||
NVIDIA BlueField-2 | V | V | ||
Switch | NVIDIA Switch-IB® | V1 | V | V |
NVIDIA Switch-IB 2 | V1 | V | V | |
NVIDIA Spectrum™ | V | V | ||
NVIDIA Spectrum-2 | V | V | ||
NVIDIA Spectrum-3 | V | V | ||
NVIDIA Quantum | V | V | V |
此包里每个工具更为详细的使用请看官网NVIDIA Firmware Tools (MFT) Documentation v4.28文档
User Manual - NVIDIA Docs
注意:此工具版本选择需要根据查询到的支持管理的设备清单来选择,并不是最新版的就合适,因此下载工具前应该清除交换机型号及网卡型号是哪一代产品
一、查看hca卡固件版本
说明:计算节点查看网卡的固件版本,方法有很多。最简单的方式是通过ibstat命令。也可以通过flint命令获取固件版本。
方法一:通过ibstat命令获取固件版本
方法二:通过flint命令获取固件版本。
第一步:启动mst服务。mst start
第二步:查看hca设备的固件版本。flint -d /dev/mst/mt4123_pciconf0 q
二、查看 hca卡 PSID
第一步:查看本机的hca设备的PSID。flint -d /dev/mst/mt4123_pciconf0 q
三、更新hca固件
第一步:准备好上面查到的PSID
第二步:登录https:Firmware for ConnectX®-6 VPI下载固件,根据PSID号下载对应的固件
第三步:启动mst服务:mst start;
第四步:烧写固件:flint -d /dev/mst/mt4123_pciconf0 -i ${hca固件地址} -y b;
第五步:重启节点:reboot
或使用
mlxfwreset -d /dev/mst/mt4119_pciconf0 -y r
mlxfwreset -d /dev/mst/mt4113_pciconf0 reset重置pci设备
第六步:验证固件版本。ibstat
更为详细的操作步骤请看官网NVIDIA Firmware Tools (MFT) Documentation v4.28文档