RDMA技术赋能:构建高速网络基础设施,加速大型模型高效训练

深入剖析RDMA在高速网络环境中的应用价值与实现方式

远程直接内存访问(RDMA)作为超高速网络内存访问技术的领军者,彻底颠覆了传统程序对远程计算节点内存资源的访问模式。其卓越性能的核心在于巧妙地绕过了操作系统内核层(如套接字、TCP/IP协议栈)对数据传输的干预,实现了网络通信范式的革新性跃迁。这一战略性的架构优化有效地减轻了与内核操作相关的CPU开销,使得数据可以直接从一个节点的网络接口卡(NIC)内存读写至另一个节点,这种硬件设备在特定场景下也被称为主机通道适配器(HCA)。

traditional-vs-rdma

在硬件实现方面,RDMA技术主要依托三种关键技术手段得以具体实施:InfiniBand、RoCE和iWARP。其中,InfiniBand与RoCE两种技术因其出色的性能表现及广泛应用,已被前沿技术专家广泛认可为行业主流选择。通过这两种技术,特别是在训练大型模型等对带宽和延迟有严苛要求的应用场景中,能够充分利用RDMA所赋予的高效低延迟特性构建高性能的高速网络系统,从而显著提高数据传输效率,并整体上优化系统的运行性能。

揭秘InfiniBand:卓越带宽的巅峰之作

目前,InfiniBand生态系统已经覆盖了100G和200G高速传输的主流技术。在这其中,增强数据速率(EDR,100G)和高数据速率(HDR,200G)成为该领域的一些专有名词。值得关注的是,部分品牌已经能够提供更高速率的解决方案,比如飞速(FS)已经推出了400GB光纤网卡产品,甚至、还有800G光模块可供选择。InfiniBand技术正迅速演进。

尽管InfiniBand拥有出色的性能,但由于其昂贵的成本,它经常被很多IT专业人士忽视,导致其在一般应用中的普及率相对较低。然而,在各大高校和科研机构的超级计算机中心,InfiniBand几乎成为不可或缺的标配,尤其是对于支持关键的超级计算任务而言。

与传统交换机不同,InfiniBand网络采用了独特的“胖树”网络拓扑结构,以确保任意两个计算节点之间的网络卡能够实现无缝通信。这种胖树结构包括两个层次:核心层负责流量转发并与计算节点分离,而接入层则连接各类计算节点。

在实施InfiniBand网络中的胖树拓扑时,其高昂的成本主要源于具有36个端口的汇聚交换机。其中,一半的端口必须连接到计算节点,而另一半则需要与上层核心交换机相连以实现无损通信。值得注意的是,每根电缆的价格大约为1.3万美元,并且为了保证无损通信,冗余连接是必需的。

fat-tree-topology

正如俗话所说:“一分钱一分货”,这正是InfiniBand的真实写照。毫无争议地,它提供了无与伦比的高带宽和低延迟。根据维基百科的资料,相比以太网,InfiniBand的延迟显著更低,分别为100纳秒和230纳秒。这卓越的性能使得InfiniBand成为全球顶尖超级计算机中不可或缺的核心技术之一,受到微软、NVIDIA等行业巨头以及美国国家实验室的广泛采用。

释放RoCE潜力:经济高效的RDMA解决方案探索

在计算机网络技术领域中,RoCE(以太网融合上的RDMA)以其较高的性价比崭露头角,特别是在与成本高昂的InfiniBand等技术对比时。尽管RoCE并非低成本选项,但它为用户提供了更为经济的途径,在以太网上实现RDMA功能。近年来,RoCE技术迅速发展,并逐渐成为一种有竞争力的InfiniBand替代方案,尤其在对成本控制要求严苛的应用场景中表现突出。

然而,尽管具备性价比优势,要借助RoCE实现真正的无损网络仍面临挑战,整体网络成本难以低于采用InfiniBand方案的50%。

解锁大规模模型训练潜能:GPUDirect RDMA的关键作用

在大规模模型训练的过程中,节点间通信的成本至关重要。通过整合InfiniBand与GPU技术,GPUDirect RDMA这一颠覆性解决方案应运而生。该创新技术使得不同计算节点间的GPU能够直接进行数据交互,无需经过内存和CPU层级。简而言之,两个节点上GPU之间的复杂通信过程可直接经由InfiniBand网络接口卡完成,从而绕过了传统路径中必须通过CPU和内存的传输步骤。

在大规模模型训练背景下,GPUDirect RDMA的重要性尤为显著,因为模型通常存储于GPU内存中。传统的将模型复制至CPU并进一步传输至其他节点的过程耗时颇多,而使用GPUDirect RDMA则可以实现GPU间的直接信息交换,大幅度提升大规模模型训练的效率和性能表现。

gpu-direct-rdma

优化大型模型网络架构:战略配置策略分析

在大型模型应用领域,要获得最佳性能,关键在于精密配置,特别是当GPU与InfiniBand网卡协同工作时。这里参考了合作伙伴NVIDIA推出的DGX系统,它倡导了一种GPU与InfiniBand网卡一对一配对的设计理念,并树立了行业标杆。在此架构下,一个标准计算节点能够集成9个InfiniBand网络接口控制器(NIC),其中一个用于连接存储系统,其余8个则分别对应单个GPU卡。

虽然这种配置方式理论上最为理想,但其成本相对较高,因此有必要探寻更具性价比的替代方案。一种有效的折衷策略是采用1:4的InfiniBand网卡与GPU卡的比例。

实际部署中,GPU和InfiniBand网卡均通过PCI-E交换机进行互联,一般情况下每个交换机可支持2块GPU。理想的状况是每块GPU都能精准分配到专属的InfiniBand网卡资源。然而,当两块GPU共享同一个InfiniBand网卡和PCI-E交换机时,会由于对共享资源的竞争而产生挑战。

PCI-E switch-connection

InfiniBand网卡的数量直接影响着竞争程度及节点间通信效率,这一点可以通过附带图表生动展示。值得注意的是,在仅配备一块100 Gbps网卡的情况下,带宽可达12 GB/s,随着网卡数量增加,带宽几乎呈现线性增长趋势。设想一下,如果采用8块H100 GPU卡搭配8块400G InfiniBand NDR卡的配置方案,则能带来极为震撼的数据传输速率。

nvidia-ib-bw

为每块GPU配备一张独立的网卡是最理想的配置情况:这样可以最大限度地减少资源争抢,提高节点间的通信效率和整体性能表现。

gpu-network-solution

构建卓越:大型模型网络架构的轨式优化设计

在大规模模型运算的前沿领域,构建卓越性能的关键在于精心设计一套定制化的“轨式”网络拓扑结构,该结构是对传统高性能计算(HPC)中胖树架构的一种革新与优化。

Lower-End Fat-Tree and Rails-Optimized Topology

此架构示意图生动展示了基础版胖树拓扑与经过轨式优化后的对比。系统内核心组件包括两台MQM8700系列HDR(高数据速率)交换机,它们通过四条HDR电缆实现高速互联,确保了极高的带宽和低延迟通信。每个DGX GPU节点装备了九块InfiniBand(IB)网卡,这些网卡在图中标注为主机通道适配器(HCAs),以满足不同功能需求。

其中特别指派一块IB卡作为存储连接专用接口(Storage Target),其余八块则专为大规模模型训练任务提供服务。具体布线策略如下:HCA1、HCA3、HCA5以及HCA7分别对接至第一个HDR交换机,而HCA2、HCA4、HCA6及HCA8则对应地与第二个交换机建立链接,以此形成了一种对称且高效的多路径传输体系,有力支撑了大规模并行计算环境下复杂模型的高效训练和数据交换。

Full-Speed Rails-Optimized Topology

为了营造高效流畅的网络环境,建议采用如图所示的全无阻塞、深度优化的轨式网络拓扑结构。在该设计中,每个DGX GPU节点均配备了八个InfiniBand (IB) 网卡,且每一个网卡都直接对接到一个独立的交换机单元,这些被称作叶交换机的设备总计部署了八台。连接布局极其精细:例如,HCA1与第一台叶交换机相连,HCA2与第二台相接,以此递增模式确保每张网卡都能专享一条高速链路。

后续的网络架构图清晰地揭示了底层细节,其中两台绿色标识的交换机代表脊交换机,它们负责实现四台蓝色标识的叶交换机之间的高速互联。整个系统通过80条线缆将蓝色和绿色交换机紧密耦合在一起,而蓝色叶交换机则策略性地设置于下层,直接与计算节点建立物理连接。

这种配置的核心优势在于其出色的可扩展性和低延迟特性,它能有效消除潜在的数据传输瓶颈,确保每一张IB卡都能够以最优速率与网络中的任何其他IB卡进行直接通信。这意味着任意GPU能够以前所未有的效率实现无缝、实时的远程内存访问,从而极大地提升了大规模并行计算环境中GPU间的协同工作效率。

spine to leaf to server nodes diagram

实现卓越性能:飞速(FS)的InfiniBand与RoCE网络技术解决方案

在追求高性能且零损失的复杂网络环境中,选用InfiniBand或RoCE作为基础架构的核心决策应紧密贴合您的特定应用需求和现有设施条件。两者皆为业界翘楚,凭借低延迟、高吞吐量以及对CPU资源的极低占用率,在高性能计算(HPC)领域中展现出了卓越的适应性。

飞速(FS)致力于提供一系列全面而多样的高速网络产品线,不仅包括基于InfiniBand的专业级解决方案,也囊括了先进的以太网RoCE方案。我们的产品速率跨度广泛,从40Gbps直至800Gbps不等,涵盖多种规格的直连铜缆(DACs)及有源光缆(AOCs),确保满足不同客户对于带宽和连接距离的多样化诉求。

此外,我们整合了NVIDIA®品牌的交换机与网卡产品系列,进一步强化了整体网络效能。这些高性能组件不仅是优化网络架构的关键要素,更能在经济成本控制下有力驱动客户业务运行效率的大幅提升,成为加速数字化转型和高性能运算任务成功实施的强劲引擎。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/356012.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

npm v10.4.0 is known not to run on Node.js v14.21.3

问题起因 vue项目在打包的时候突然报如下错误,项目原来打包的时候是没问题的。 request to https://registry.npm.taobao.org/acorn failed, reason: certificate然后找到了一篇帖子,淘宝npm镜像地址https证书到期了,发现确实是这个问题。在…

Redis客户端之Redisson(三)Redisson分布式锁

一、背景: 高效的分布式锁设计应该包含以下几个要点: 1、互斥: 在分布式高并发的条件下,我们最需要保证,同一时刻只能有一个线程获得锁,这是最基本的一点 2、防止死锁: 在分布式高并发的条…

骑砍战团MOD开发(41)-LOD渲染技术

一.LOD技术 LOD技术,即Level Of Details,是一种在3D图形渲染中常用的技术,主要用于优化渲染性能。 通过在建模时添加LOD模型(低模模型,面数较少),游戏引擎通过计算模型的远近和光照等情况选择性加载原模型(高模)/LOD模型(低模),实现游戏…

D3485——+5V工作电压,内置失效保护电路等功能高达10Mbps的传输速率,可应用在智能电表,安防监控等产品上

D3485 是一款 5V 供电、半双工的 RS-485 收发器,芯片内部包含一路驱动器和 一路接收器。D3485 使用限摆率驱动器,能显著减小 EMI 和由于不恰当的终端匹 配电缆所引起的反射,并实现高达10Mbps 的无差错数据传输。 D3485 内置失效保 护电路&…

小红树上染色

记忆化深搜 #include <iostream> #include <string> #include <stack> #include <vector> #include <queue> #include <deque> #include <set> #include <map> #include <unordered_map> #include <unordered_set&g…

详解OpenHarmony各部分文件在XR806上的编译顺序

大家好&#xff0c;今天我们来谈一谈编程时一个很有趣的话题——编译顺序。我知道&#xff0c;一提到编译可能大家会感到有点儿头疼&#xff0c;但请放心&#xff0c;我不会让大家头疼的。我们要明白&#xff0c;在开始写代码之前&#xff0c;了解整个程序的编译路径是十分有必…

【MySQL】补充和navicat的一些简单使用

文章目录 前言在这里插入图片描述 事情起因因为这个articlecount的c是小写了&#xff0c;我想改成大写 一、修改二、navicat的使用步骤1.连接2.建库&#xff0c;建表 三.填写数据总结 前言 事情起因因为这个articlecount的c是小写了&#xff0c;我想改成大写 提示&#xff1a;…

C语言数据结构(4)——线性表其三(双向链表)

欢迎来到博主的专栏——C语言数据结构 博主ID&#xff1a;代码小豪 文章目录 链表的种类头结点循环链表双向链表带头双向循环链表带头双向循环链表的定义与初始化 空链表尾插法打印双向链表头插法查找指定数据项的节点在指定位置之后插入节点指定位置的删除双向链表的销毁 顺序…

东北老铁带你总结《Java IO 模型》

东北老铁带你总结《Java IO 模型》 文章目录 东北老铁带你总结《Java IO 模型》前言I/O何为 I/O?有哪些常见的 IO 模型? Java 中 3 种常见 IO 模型BIO (Blocking I/O)NIO (Non-blocking/New I/O)AIO (Asynchronous I/O) IO 模型这块确实挺难理解的&#xff0c;需要太多计算机…

漏洞原理linux操作系统的SqlMap工具的使用

漏洞原理linux操作系统的SqlMap工具的使用 Linux操作系统基础操作链接: 1024一篇通俗易懂的liunx命令操作总结(第十课)-CSDN博客 kali的IP地址:192.168.56.1 实操 # kali中使用sqlmap http://192.168.56.1/ sqlmap -u http://192.168.56.1/news/show.php?id46 sqlmap -u …

IT界含金量高的证书,除了软考证书,还有这15种

文章目录 计算机技术与软件专业技术资格考试全国计算机信息高新技术考试思科认证微软认证&#xff1a;华为认证IBM认证国家信息安全水平考试注册信息安全专业人员注册信息安全渗透测试工程师项目管理专业人士资格认证Red Hat认证CompTIA 认证CISSP认证Oracle认证Sun认证AWS认证…

sqli.labs靶场(8-17关)

8、第八关&#xff08;布尔盲注&#xff09; id1显示You are in...........&#xff0c;id1单引号不显示&#xff0c;id1 --显示正常 这个应该是单引号闭合&#xff0c;接下来就和第七关差不多上脚本 爆库名长度&#xff1a;id1%27%20and%20length(database()){i}%20-- 爆库…

xcode安装visionOS Simulator模拟器报错解决方法手动安装方法

手动安装方法&#xff1a; 手动下载visionOS Simulator模拟器地址&#xff1a; https://developer.apple.com/download/all/ 选择 Xcode 版本 sudo xcode-select -s /Applications/Xcode.app # 用 Xcode-beta 的话是&#xff1a; # xcode-select -s /Applications/Xcode-beta…

如何将DDD应用到基础设施设计?

前段时间在面试的时候&#xff0c;面试官问到&#xff1a;你是如何将DDD&#xff08;领域驱动设计&#xff09;应用到基础设施的&#xff1f; 我很惊讶&#xff0c;终于有人问我这个问题了。 在过去从事基础设施&#xff08;DevOps、SRE、运维&#xff09;的5年里&#xff0c;我…

爬虫基础-前端基础

Html是骨骼、css是皮肤、js是肌肉&#xff0c;三者之间的关系可以简单理解为m(html)-v(css)-c(js) 浏览器的加载过程 构建dom树 子资源加载-加载外部的css、图片、js等外部资源 样式渲染-css执行 DOM树 ajax、json、xml AJAX 是一种在无需重新加载整个网页的情况下&#xf…

基于springboot校园台球厅人员与设备管理系统源码和论文

在Internet高速发展的今天&#xff0c;我们生活的各个领域都涉及到计算机的应用&#xff0c;其中包括校园台球厅人员与设备管理系统的网络应用&#xff0c;在外国管理系统已经是很普遍的方式&#xff0c;不过国内的管理网站可能还处于起步阶段。校园台球厅人员与设备管理系统具…

Unity中使用Ultraleap的InteractionButton组件

本节在上一节基础上进行&#xff0c;上一小结参考如下&#xff1a; Unity中创建Ultraleap 3Di交互项目 本节工程文件如下&#xff1a; Unity中使用Ultraleap的InteractionButton组件 本节结构有所更改&#xff0c;主要是参考官方示例结构进行重新调整&#xff0c;和上一小节相…

STM32与FPGA实现以太网功能--ping

方案&#xff1a; ①stm32与88E6320的一个RMII接口连接&#xff0c;实现网管功能。 ②FPGA与88E6320的另一个RMII接口连接&#xff0c;使用UDP实现业务数据传输。 ③stm32与FPGA中MAC地址不同&#xff0c;但是IP使用相同 结果&#xff1a; 1、在局域网点对点通信正常。 2…

【C语言/数据结构】排序(快速排序及多种优化|递归及非递归版本)

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;《数据结构》https://blog.csdn.net/qinjh_/category_12536791.html?spm1001.2014.3001.5482 ​​​​ 目录 交换排序 快速排序 hoare版代…

前端qrcode生成二维码详解

文章目录 前言1、浏览器支持2、优点3、缺点4、相关方法5、安装及使用示例 前言 qrcode 是一个基于JavaScript的二维码生成库&#xff0c;主要是通过获取 DOM 的标签&#xff0c;再通过 HTML5 Canvas 绘制而成&#xff0c;不依赖任何库。 官方文档&#xff1a;https://www.npm…