文章目录
- 一、前言
- 1、硬件配置
- 2、网卡信息
- 二、驱动安装
- 1、驱动介绍
- 2、软件架构
- 2.1、mlx4 VPI Driver
- 2.2、mlx5 Driver
- 3、驱动安装
- 3.1、常规安装
- 3.2、驱动编译
- 方法一
- 方法二
- 4、RDMA配置
- 三、交换机配置
- 四、mlnx-tools管理工具
- 1、软件安装
- 2、软件使用
- ibdev2netdev
- a、说明
- b、用法
一、前言
本文主要介绍Mellanox网络配置、部署管理及相关调优手段,用于后续部署实践参考使用
1、硬件配置
序号 | 配件名称 | 配件型号 |
---|---|---|
1 | 100GE 双口网卡 | Mellanox MCX456A-ECAT |
2 | 100GE 以太网DAC线缆 | Mellanox MCP1600-C003 |
3 | 100GE 以太网交换机 | Asterfusion CX532P-NT-AC |
2、网卡信息
NVIDIA ConnectX InfiniBand网卡介绍
NVIDIA ConnectX-4 InfiniBand/Ethernet Adapter Cards User Manual
- 网卡端口:双口(Dual-port QSFP28)
- 网卡速率:InfiniBand: SDR/DDR/QDR/FDR/EDREthernet: 10/25/40/50/100 Gb/s
- PCIe版本:8.0GT/s(PCIe 3.0)
- 插槽宽度:x16 lanes
- 网卡驱动:mlx5_core
[root@node154 ~]# lspci | grep Eth | grep Mellanox
3b:00.0 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4]
3b:00.1 Ethernet controller: Mellanox Technologies MT27700 Family [ConnectX-4]
[root@node154 ~]# lspci -vvv -s 3b:00.0 | grep -E '(LnkCap:|LnkSta:)'
LnkCap: Port #0, Speed 8GT/s, Width x16, ASPM not supported, Exit Latency L0s unlimited, L1 <4us
LnkSta: Speed 8GT/s, Width x16, TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-
二、驱动安装
1、驱动介绍
MLNX_OFED Introduction
Mellanox OFED是一个单一的虚拟协议互连(Virtual Protocol Interconnect,VPI)软件栈,可以在所有Mellanox网络适配器解决方案中运行,支持以下到服务器的上行链路:
网卡类别 | 网卡驱动 | 上行速率 |
---|---|---|
ConnectX®-3/ ConnectX®-3 Pro | mlx4 | InfiniBand: SDR, QDR, FDR10, FDR Ethernet: 10GigE, 40GigE and 56GigE |
ConnectX®-4 | mlx5 | InfiniBand: SDR, QDR, FDR, FDR10, EDR Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, 56GigE1, and 100GigE |
ConnectX®-4 Lx | mlx5 | Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, and 50GigE |
ConnectX®-5 | mlx5 | InfiniBand: SDR, QDR, FDR, FDR10, EDR Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE |
ConnectX®-5 Ex | mlx5 | InfiniBand: SDR, QDR, FDR, FDR10, EDR Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE |
ConnectX®-6 | mlx5 | InfiniBand: SDR, EDR, HDR Ethernet: 1GigE, 10GigE, 25GigE, 40GigE, 50GigE, and 100GigE |
Innova™ IPsec EN | mlx5 | Ethernet: 10GigE, 40GigE |
Connect-IB® | mlx5 | InfiniBand: SDR, QDR, FDR10, FDR |
2、软件架构
Mellanox OFED协议栈的示意参考如下,展示了上层协议如何与硬件、内核和用户空间通信
2.1、mlx4 VPI Driver
mlx4是Mellanox设计的ConnectX®系列适配器的低级驱动程序实现。ConnectX®-3适配器可以作为ib适配器或以太网网卡使用。OFED驱动支持Infiniband和Ethernet网卡配置。为了适应支持的配置,驱动程序被分成以下模块:
- mlx4_core
处理低级功能,如设备初始化和固件命令处理,控制资源分配,使ib和以太网功能可以共享设备而不相互干扰
- mlx4_ib
处理InfiniBand的专用功能
- mlx4_en
处理Ethernet的专用功能
2.2、mlx5 Driver
mlx5是Mellanox设计的Connect-IB®和ConnectX®-4适配器的低级驱动程序实现。Connect-IB®作为InfiniBand适配器运行,而ConnectX®-4作为VPI适配器(InfiniBand和Ethernet)运行。mlx5驱动程序由以下内核模块组成:
- mlx5_core
作为Connect-IB®和ConnectX®-4适配器卡所需的常用函数库(例如,复位后初始化设备),mlx5_core驱动程序还实现了ConnectX®-4的以太网接口。与mlx4_en/core不同,mlx5驱动程序不需要mlx5_en模块,因为以太网功能内置在mlx5_core模块中。
- mlx5_ib
处理InfiniBand的专用功能
- libmlx5
Libmlx5是实现特定于硬件的用户空间功能的提供程序库。如果固件和驱动程序之间不兼容,驱动程序将无法加载,并且将在dmesg中打印一条消息
3、驱动安装
驱动下载地址:NVIDIA MLNX_OFED
驱动安装说明:Installing MLNX_OFED
3.1、常规安装
用于Ethernet和Infiniband网络的Linux驱动程序在所有主流操作系统发行版本都可以使用,如kylin、openEuler、UOS、CentOS、Ubuntu等,可以根据操作系统、硬件架构选择不同驱动版本包下载
- 根据当前操作系统版本及硬件架构,选择下载对应驱动软件包(MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz)
- 对于主流发行系统版本,在不升级默认内核版本情况下,mlnx_ofed提供了预构建RPM包,直接执行驱动软件安装即可
注:
执行mlnxofedinstall
安装脚本,程序会自动检测当前安装的内核版本,卸载不匹配的软件包,安装MLNX-OFED二进制驱动程序包,标识当前Infiniband和Ethernet网络适配器,并自动升级固件(如需安装自定义固件版本,则使用./mlnxofedinstall --fw-image-dir /tmp/my_fw_bin_files
)
安装完成后,会在tmp目录生成对应安装日志文件(如/tmp/MLNX_OFED_LINUX.1713584.logs/general.log
)
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-rhel8.2-aarch64/
./mlnxofedinstall --all --force
3.2、驱动编译
#当前环境信息如下
[root@node88 ~]# cat /etc/.productinfo
Kylin Linux Advanced Server
release V10 (8.2) /(Sun)-aarch64-Build03/20210903
[root@node88 ~]# cat /etc/.kyinfo
[dist]
name=Kylin
milestone=Server-V10-SP3-2309a-Release-S5000C-20231025
arch=arm64
beta=False
time=2023-10-25 17:40:45
dist_id=Kylin-Server-V10-SP3-2309a-Release-S5000C-20231025-arm64-2023-10-25 17:40:45
[servicekey]
key=0320031
[os]
to=
term=2025-01-23
[root@node88 ~]# cat /etc/redhat-release
Red Hat Enterprise Linux Server release 8.2 (Ootpa)
[root@node88 ~]# uname -a
Linux node88 5.15.0-1.10.6.v2307.ky10h.aarch64 #1 SMP Sun Oct 15 14:14:45 CST 2023 aarch64 aarch64 aarch64 GNU/Linux
在执行上一步安装如出现Current operation system is not supported!
,则表明Mellanox预先编译的程序包无法在当前内核版本下运行,需要基于当前环境重新编译tgz软件包,再次执行软件安装即可
方法一
./mlnxofedinstall --all --force --add-kernel-support
dracut -f
方法二
How to install MLNX_OFED for customized OS
通常情况下,如果针对操作系统做了一些自定义修改,有可能导致安装脚本无法识别操作系统发行版本号,导致安装失败,提示Current operation system is not supported!
对于这类情况,需要手动编译MLNX-OFED驱动包,使用重新编译的驱动包进行安装
- 参照当前系统的基础操作系统版本,下载对应发行版本原始驱动包压缩包,解压缩进入对应目录
wget https://www.mellanox.com/page/mlnx_ofed_eula?mtag=linux_sw_drivers&mrequest=downloads&mtype=ofed&mver=MLNX_OFED-5.8-4.1.5.0&mname=MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
tar -zxvf MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64.tgz
cd MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/
- 基于当前系统重新编译驱动包
注:编译过程如出现Error: One or more required packages for installing OFED-internal are missing.
依赖错误,则按照提示信息安装对应依赖软件包即可 - -m 用于指定原始驱动包的目录
- –make-tgz 表示以tgz压缩包方式打包
- -t 用于指定存放重新编译驱动包的目录
- –distro 用于指定当前系统发行版本,示例为kylin10
./mlnx_add_kernel_support.sh -m /home/mlx5/MLNX_OFED_LINUX-5.8-4.1.5.0-kylin10-aarch64/ --make-tgz -t /tmp --distro kylin10
- 执行编译操作后,会在/tmp目录下生成当前内核的驱动包压缩包,解压缩进入目录,执行以下安装命令即可
- –skip-distro-check 表示不进行当前OS的发布版本号检查
./mlnxofedinstall --skip-distro-check --force
4、RDMA配置
所有节点执行RDMA相关配置优化,参考如下
[root@node154 ~]# cat RDMA.sh
#!/bin/bash
for mlx_dev in $(ibdev2netdev | awk '{print $1}')
do
if_dev=$(ibdev2netdev | grep $mlx_dev | awk '{print $5}')
ifconfig "${if_dev}" mtu 9000.
cma_roce_tos -d "${mlx_dev}" -t 120
mlnx_qos -i "${if_dev}" --trust dscp
mlnx_qos -i "${if_dev}" --pfc 0,0,0,1,0,0,0,0
mlnx_qos -i ${if_dev} --dscp2prio set,30,3
echo 48 >/sys/class/net/${if_dev}/ecn/roce_np/cnp_dscp
echo 1 >/sys/class/net/${if_dev}/ecn/roce_np/enable/3
echo 1 >/sys/class/net/${if_dev}/ecn/roce_rp/enable/3
cma_roce_mode -d ${mlx_dev} -p 1 -m 2
sysctl -w net.ipv4.tcp_ecn=1
echo 120 > /sys/class/infiniband/"${mlx_dev}"/tc/1/traffic_class
done
[root@node154 ~]# sh RDMA.sh
三、交换机配置
与10Gb交换机有所不同,服务器直接连接到交换机网络是没法通信的,100Gb交换机需要针对网络端口划分vlan,同一个网络环境不同网络端口划分到同一个vlan之后,服务器之间网络方可正常通信。
交换机出厂内置队列、拥塞等参数配置,故交换机端针对RDMA无需做任何特殊配置。
现有交换机vlan配置如下:
物理端口 | 逻辑网口 | vlan标签 |
---|---|---|
0~9 | 0/0~0/32 | vlan100 |
10~20 | 0/36~0/76 | vlan200 |
注:交换机逻辑网口以4的倍数递增,如物理端口0对应0/0,物理端口1对应0/4,以此类推
笔记本通过USB转RJ45串口线连接至交换机COM口,协议选择SERIAL,波特率选择115200,参考配置命令如下:
注:默认账号密码为admin/asteros
sonic@sonic:~$ sudo config cli-mode cli
sonic@sonic:~$ sudo sonic-cli
sonic# configure terminal
sonic(config)# vlan 100
sonic(config-vlan-100)# vlan 200
sonic(config-vlan-200)# interface ethernet 0/0
sonic(config-if-0/0)# switchport access vlan 100
sonic(config-if-0/0)# interface ethernet 0/4
sonic(config-if-0/4)# switchport access vlan 100
sonic(config-if-0/4)# interface ethernet 0/80
sonic(config-if-0/112)# switchport access vlan 200
sonic(config-if-0/112)# interface ethernet 0/84
sonic(config-if-0/116)# switchport access vlan 200
sonic(config-if-0/120)# end
sonic#write
save running-config...
Existing files will be overwritten, continue? [y/N]:y
四、mlnx-tools管理工具
1、软件安装
mlnx-tools
若当前操作系统未安装MLNX_OFED驱动,则需要安装mlnx-tools工具,否则无法使用cma_roce_tos、ibdev2netdev等命令行工具
mlnx-tools是Mellanox提供的一个用户界面工具和脚本,用于管理Mellanox网络配置
- 安装mlnx-tools的utils工具
wget https://github.com/Mellanox/mlnx-tools/archive/refs/tags/v5.1.3.tar.gz
tar -zxvf mlnx-tools-5.1.3.tar.gz
cd mlnx-tools-5.1.3/ofed_scripts/utils/
python3 setup.py install
- 安装mlnx-tools的script脚本
[root@node88 mlx5]# cd mlnx-tools-5.1.3/ofed_scripts/
[root@node88 ofed_scripts]# ll
total 92
-rwxrwxr-x 1 root root 2566 Oct 3 2020 cma_roce_mode
-rwxrwxr-x 1 root root 2483 Oct 3 2020 cma_roce_tos
-rwxrwxr-x 1 root root 3696 Oct 3 2020 common_irq_affinity.sh
-rwxrwxr-x 1 root root 7726 Oct 3 2020 ibdev2netdev
-rwxrwxr-x 1 root root 8321 Oct 3 2020 mlnx_affinity
-rwxrwxr-x 1 root root 453 Oct 3 2020 mlnx-post-hlk
-rwxrwxr-x 1 root root 1023 Oct 3 2020 mlnx-pre-hlk
-rwxrwxr-x 1 root root 2411 Oct 3 2020 odp_stat.sh
-rwxrwxr-x 1 root root 11065 Oct 3 2020 roce_config.sh
-rwxrwxr-x 1 root root 3015 Oct 3 2020 set_irq_affinity_bynode.sh
-rwxrwxr-x 1 root root 2493 Oct 3 2020 set_irq_affinity_cpulist.sh
-rwxrwxr-x 1 root root 2997 Oct 3 2020 set_irq_affinity.sh
-rw-rw-r-- 1 root root 2216 Oct 3 2020 setup_mr_cache.sh
-rw-rw-r-- 1 root root 1367 Oct 3 2020 show_counters
-rwxrwxr-x 1 root root 2939 Oct 3 2020 show_gids
-rwxrwxr-x 1 root root 1349 Oct 3 2020 show_irq_affinity_hints.sh
-rwxrwxr-x 1 root root 1369 Oct 3 2020 show_irq_affinity.sh
-rwxrwxr-x 1 root root 2489 Oct 3 2020 sysctl_perf_tuning
drwxrwxr-x 3 root root 276 Jan 10 09:48 utils
[root@node88 ofed_scripts]# cp * /usr/sbin/
2、软件使用
linux-driver-solutions
ibdev2netdev
a、说明
ibdev2netdev是MLNX-OFED提供的脚本,用于展示适配器端口和网卡的映射关系及当前状态信息
b、用法
- 查看适配器端口和网卡映射关系及连接状态:
ibdev2netdev -v
[root@node88 ~]# ibdev2netdev -v
0000:01:00.0 rocep1s0f0 (MT4115 - ) fw 12.28.2006 port 1 (ACTIVE) ==> enp1s0f0np0 (Up)
0000:01:00.1 rocep1s0f1 (MT4115 - ) fw 12.28.2006 port 1 (DOWN ) ==> enp1s0f1np1 (Down)
- 检查Infiniband链路状态:
hca_self_test.ofed
[root@node154 ~]# hca_self_test.ofed
---- Performing Adapter Device Self Test ----
Number of CAs Detected ................. 2
PCI Device Check ....................... PASS
Kernel Arch ............................ x86_64
Host Driver Version .................... MLNX_OFED_LINUX-5.7-1.0.2.0 (OFED-5.7-1.0.2): 4.14.113-1.el7.x86_64
Host Driver RPM Check .................. PASS
Firmware on CA #0 NIC .................. v12.28.2006
Firmware on CA #1 NIC .................. v12.28.2006
Host Driver Initialization ............. PASS
Number of CA Ports Active .............. 1
Port State of Port #1 on CA #0 (NIC)..... UP 4X EDR (Ethernet)
Port State of Port #1 on CA #1 (NIC)..... DOWN (Ethernet)
Error Counter Check on CA #0 (NIC)...... PASS
Error Counter Check on CA #1 (NIC)...... PASS
Kernel Syslog Check .................... PASS
Node GUID on CA #0 (NIC) ............... 24:8a:07:03:00:27:d2:40
Node GUID on CA #1 (NIC) ............... 24:8a:07:03:00:27:d2:41
------------------ DONE ---------------------