阿里云引领智算集群网络架构的新一轮变革

阿里云引领智算集群网络架构的新一轮变革

云布道师

11 月 8 日~ 10 日在江苏张家港召开的 CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠先生发表题为《规模 x10 驱动 AI 智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是 Scale up 网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+ 的路标规划,引起广泛关注。

过去一年,阿里云 HPN7.0 引领智算以太网生态蓬勃发展

模型的持续 scaling ,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长 4-6 倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每 2 年才一倍,无法满足算力增长的需求,所以算力来自于将更多的 GPU 进行集群化互联,网络在算力scaling 中扮演关键的角色。

在 2023 年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google 有基于私有协议的 TPU 集群,微软使用了 NV 提供的一整套 IB 方案,而阿里云、 AWS 等公司坚持使用开放的以太网来构建集群。**一时间,以太网还是 IB ,成为智算集群架构选择的关键话题。**阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了 HPN7.0 架构,采用业界首发的全自研 51.2T 交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署 HPN7.0 智算集群的同时,其论文被顶会 SIGCOMM 录取,成为网络顶会历史上首篇 AI 智算网络架构论文。

一年多时间过去了,阿里云 HPN7.0 已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和 IB 的争议已经落幕,以太网正在成为超大规模智算集群的行业主流。

未来几年, X10 规模将给网络带来新的重要问题

虽然以太网和 IB 的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向 X10 规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU 规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间, GPU 资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是 GPU Scale up 范围也将更大,智算集群的网络架构也会因此产生深远的变革。

通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论 Scale up 、 Scale out 都需要更加激进的规划。

GPU Scale up 协议路线之争, Ethernet 优势明显

到底什么是 Scale up ?简单来讲, Scale up 就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是 Scale out 的数倍以上,可以在协议层面优化来支持内存语义。
**不少人以为 Scale up 是机内互联,这是一种误解。**在 8 卡系统的时代,因为 8 卡在一个 OS 内部所以确实是机内互联,然而,当 NVL36 、 72 这种AI rack 的形态出现后, GPU Scale up 就不是“机内互联”,而是一种新型的节点间网络互联。以 NVL72 为例,实际上是 18 台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽 10 倍于 Scale out 的大的带宽( 7.2Tbps vs 800Gbps ),此外还支持了内存操作语义,为了区分,我们继续称其为 GPU Scale up 。
在这里插入图片描述

GPU Scale up 是 AI 系统发展的一个热门话题,备受关注。Scale up 网络大体上可以分成 2 个技术方向。

  • 以 NV 、 Google 为代表的私有协议、封闭系统方案( NVLink 和 TPU 互联)
  • 以各大互联网和云计算公司自研 GPU (微软、 Meta 、 Tesla 等),以及 AMD 、 Intel 为代表的基于Ethernet 的网络传输方案

Ethernet 有超大带宽技术和强大的生态支撑,尤其是 UEC 、高通量以太网等开放组织针对 Scale up 进行协议的升级后, Ethernet 支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋 Scale up 系统都选择了 Ethernet ,可以说 Ethernet 这些特质已经成为 GPU Scale up 网络快速落地的首选技术方案。

计算和网络的新变革,Scale up 融合架构优势明显

Scale up 与 Scale out 如何协同工作是决定集群网络性能的关键。在今天的单机 8 卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的 HPN7.0 架构已经将万卡级别的通信性能发挥到极致。那将来 Scale up 扩展到多机系统,尤其是成百上千卡之后, Scale up 与 Scale out 应该如何协同做到全局效率最高呢 ?机尾 backend 会继续沿着 Scale up + Scale out 两张网络各自发展,还是会融合兼顾 ?
当 Ethernet 成为 Scale up 的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享, Scale up 范围内进行大带宽的 TP 、 EP 、 CP 等通信,多个 Scale up 域通过 Scale out 互联,进行 DP 、 PP 等通信,跨 Scale up 实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up 和 Scale out 的以太网融合为一张网,通过将不同的 Scale up 域进行Scale out 互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。
在这里插入图片描述

未来可期,高通量以太网发布关键路标和超节点 ENode+ 计划

在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的 ENode+ 超节点路线,为高通量以太网的系统化落地构筑蓝图。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/917707.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PyQt5 加载UI界面与资源文件

步骤一: 使用 Qt Designer 创建 XXX.ui文件 步骤二: 使用 Qt Designer 创建 资源文件 步骤三: Python文件中创建相关类, 使用 uic.loadUi(mainwidget.ui, self ) 加载UI文件 import sys from PyQt5 import QtCore, QtWidgets, uic from PyQt5.QtCore import Qt f…

7.高可用集群架构Keepalived双主热备原理

一. 高可用集群架构Keepalived双主热备原理 (1)主机+备机keepalived配置(192.168.1.171) ! Configuration File for keepalivedglobal_defs {# 路由id:当前安装keepalived节点主机的标识符,全局唯一router_id keep_101 } #计算机节点(主机配置) vrrp_instance VI_1 {</

RHCE的学习(19)

对于RHCE的学习&#xff08;15-18&#xff09;重点总结 详细的操作还是要看之前的笔记&#xff08;甚至是RHCSA的笔记&#xff09; 1.什么是shell 一种命令解释器&#xff0c;既是用户交互的界面&#xff0c;也是控制系统的脚本语言 2.shell解释器的类型 &#xff08;bash--sh&…

微服务即时通讯系统的实现(客户端)----(2)

目录 1. 将protobuf引入项目当中2. 前后端交互接口定义2.1 核心PB类2.2 HTTP接口定义2.3 websocket接口定义 3. 核心数据结构和PB之间的转换4. 设计数据中心DataCenter类5. 网络通信5.1 定义NetClient类5.2 引入HTTP5.3 引入websocket 6. 小结7. 搭建测试服务器7.1 创建项目7.2…

【功耗现象】com.gorgeous.lite后台Camera 使用2小时平均电流200mA耗电量400mAh现象

现象 轻颜相机(com.gorgeous.lite)后台Camera 使用2小时平均电流200mA(BugReport提供的电流参考数据),耗电量400mAh 即耗电占比(200mA*2h)/(12.83h*52.68mA )400mAh/623mAh62% CameraOct 10 202321:03:08 - 23:03:372h16m15s859ms to 4h16m44s984msactive duration: 2h 0m 29…

蓝桥杯每日真题 - 第15天

题目&#xff1a;&#xff08;钟表&#xff09; 题目描述&#xff08;13届 C&C B组B题&#xff09; 解题思路&#xff1a; 理解钟表指针的运动&#xff1a; 秒针每分钟转一圈&#xff0c;即每秒转6度。 分针每小时转一圈&#xff0c;即每分钟转6度。 时针每12小时转一圈…

ctfshow-web入门-SSRF(web351-web360)

目录 1、web351 2、web352 3、web353 4、web354 5、web355 6、web356 7、web357 8、web358 9、web359 10、web360 1、web351 看到 curl_exec 函数&#xff0c;很典型的 SSRF 尝试使用 file 协议读文件&#xff1a; urlfile:///etc/passwd 成功读取到 /etc/passwd 同…

快速搭建Android开发环境:Docker部署docker-android并实现远程连接

目录 前言 1. 虚拟化环境检查 2. Android 模拟器部署 3. Ubuntu安装Cpolar 4. 配置公网地址 5. 远程访问 小结 6. 固定Cpolar公网地址 7. 固定地址访问 作者简介&#xff1a; 懒大王敲代码&#xff0c;计算机专业应届生 今天给大家聊聊快速搭建Android开发环境&#x…

2024-11-16-机器学习方法:无监督学习(1) 聚类(上)

文章目录 机器学习方法&#xff1a;无监督学习&#xff08;1&#xff09; 聚类&#xff08;上&#xff09;1. 聚类的基本概念1.1 聚类的概念1.2 聚类的功能1.3 聚类的算法 2. 相似度或距离2.1 闵可夫斯基距离2.2 相关系数2.3 夹角余弦 3 类或簇3.1 类的特征 4 类与类之间的距离…

Vue-组件三大组成组件通信

一、学习目标 1.组件的三大组成部分&#xff08;结构/样式/逻辑&#xff09; scoped解决样式冲突/data是一个函数 2.组件通信 组件通信语法 父传子 子传父 非父子通信&#xff08;扩展&#xff09; 3.综合案例&#xff1a;小黑记事本&#xff08;组件版&#xff09; 拆…

Scratch 014生日贺卡(上)

知识回顾&#xff1a; 1、“面向鼠标指针”积木块 2、“重复执行直到”积木块 本次分享制作生日贺卡引入广播模块 案列效果&#xff1a; 生日贺卡上案例效果-CSDN直播 步骤拆解&#xff1a; 1、添加背景和角色 2、编辑贺卡造型添加名字 3、流程图的组成和画法 4、…

MySQL中将一个字符串字段按层级树状展开

水善利万物而不争&#xff0c;处众人之所恶&#xff0c;故几于道&#x1f4a6; 文章目录 需求1.分析2.实现3.思路刨析表结构和数据 需求 数据库中有个字段如下 如何将其转换为如下形式&#xff1a; 1.分析 1.他的层级个数是不确定的&#xff0c;也就是说有的有2层有的有5…

hive搭建

1.准备环境 三台节点主机已安装hadoopmysql数据库 2.环境 2.1修改三台节点上hadoop的core-site.xml <!-- 配置 HDFS 允许代理任何主机和组 --> <property><name>hadoop.proxyuser.hadoop.hosts</name><value>*</value> </property&…

创建vue+electron项目流程

一个vue3和electron最基本的环境搭建步骤如下&#xff1a;// 安装 vite vue3 vite-plugin-vue-setup-extend less normalize.css mitt pinia vue-router npm create vuelatest npm i vite-plugin-vue-setup-extend -D npm i less -D npm i normalize.css -S &#xff0…

Pyhon基础数据结构(列表)【蓝桥杯】

a [1,2,3,4,5] a.reverse() print("a ",a) a.reverse() print("a ",a)# 列表 列表&#xff08;list&#xff09;有由一系列按照特定顺序排序的元素组成 列表是有顺序的&#xff0c;访问任何元素需要通过“下标访问” 所谓“下标”就是指元素在列表从左…

帽子矩阵--记录

帽子矩阵&#xff08;Hat Matrix&#xff09;并不是由某一位具体的科学家单独发明的&#xff0c;而是逐渐在统计学和线性代数的发展过程中形成的。帽子矩阵的概念最早出现在20世纪初的统计学文献中&#xff0c;尤其是在回归分析的研究中得到了广泛应用。然而&#xff0c;具体是…

一.安装版本为19c的Oracle数据库管理系统(Oracle系列)

1.数据库版本信息&#xff1a; 版本信息&#xff1a; 或者直接由命令查出来&#xff1a; 2.操作系统的版本信息 3.安装包下载与上传 可以去oracle官网下载也可以从其他人的百度网盘链接中下载&#xff1a; 使用xftp工具或者其他的工具&#xff08;mobaxterm&#xff09;上传到l…

计算机视觉 ---图像模糊

1、图像模糊的作用&#xff1a; 减少噪声&#xff1a; 在图像获取过程中&#xff0c;例如通过相机拍摄或者传感器采集&#xff0c;可能会受到各种因素的干扰&#xff0c;从而引入噪声。这些噪声在图像上表现为一些孤立的、不符合图像主体内容的像素变化&#xff0c;如椒盐噪声&…

关于强化学习的一份介绍

在这篇文章中&#xff0c;我将介绍与强化学习有关的一些东西&#xff0c;具体包括相关概念、k-摇臂机、强化学习的种类等。 一、基本概念 所谓强化学习就是去学习&#xff1a;做什么才能使得数值化的收益信号最大化。学习者不会被告知应该采取什么动作&#xff0c;而是必须通…

嵌入式硬件杂谈(二)-芯片输入接入0.1uf电容的本质(退耦电容)

引言&#xff1a;对于嵌入式硬件这个庞大的知识体系而言&#xff0c;太多离散的知识点很容易疏漏&#xff0c;因此对于这些容易忘记甚至不明白的知识点做成一个梳理&#xff0c;供大家参考以及学习&#xff0c;本文主要针对芯片输入接入0.1uf电容的本质的知识点的进行学习。 目…