改变AI服务器:探索界面互连芯片技术的创新突破

根据TrendForce的数据,AI服务器的出货量约为130,000台,占全球服务器总出货量的约1%。随着微软、Meta、百度和字节跳动等主要制造商相继推出基于生成式AI的产品和服务,订单量显著增加。预测显示,在ChatGPT等应用的持续需求推动下,从2023年到2027年,AI服务器市场预计将保持每年12.2%的复合年增长率。在这种背景下,AI服务器的发展尤为引人注目。

DGX H100:开拓AI领域的先驱性进展

DGX H100是英伟达(NVIDIA) DGX系统于2022年发布的最新版本,也是英伟达(NVIDIA) DGX SuperPOD的核心。该系统采用8个H100 GPU和6400亿个晶体管,其AI性能是上一代的6倍,尤其是在新的FP8精度方面表现出色。此外,DGX服务器还可提供900GB/s带宽,彰显了AI能力的显著提升。

DGX H100服务器采用IP网卡,既可作为网卡,又可作为PCIe扩展交换机,符合PCIe 5.0标准。此外服务器还包括CX7,以2张卡的形式提供,每张卡含有4个CX7芯片,并提供2个800G OSFP光模块端口。对于GPU互连(H100),NVSwitch芯片起到关键作用。每个GPU向外扩展18个NVLink,实现每个链路双向带宽达到50GB/s,总共达到900GB/s的双向带宽。这些带宽分布在4个内置的NVSwitch芯片上,每个NVSwitch对应4-5个OSFP光模块。每个OSFP光模块使用8个光通道,传输速率为100Gbps/通道,因此总速率达到800Gbps,实现高速数据传输。

DGX H100

CPU、GPU等组件互连:采用PCIe交换机和重定时芯片进行连接

PCIe交换机技术的演进:克服通道限制

PCIe交换机(也称为PCIe集线器)是一个关键组件,用于通过PCIe通信协议连接PCIe设备。它通过扩展和聚合功能,使多个设备能够连接到1个PCIe端口,可在很大程度上克服PCIe通道数量局限的问题。目前,PCIe交换机广泛应用于传统存储系统,并在各种服务器平台上越来越受欢迎,为系统内的数据传输速率提供显著改善。

随着时间的推移,PCIe总线技术的进展意味着PCIe交换机速率的逐渐增加。最初由英特尔于2001年作为第三代I/O技术以"3GIO"的名义推出,经过PCI-SIG的评估后在2002年更名为"PCI Express"。2003年正式发布的PCIe 1.0成为一个重要的里程碑,支持每通道传输速率为250MB/s,总传输速率为2.5 GT/s。在2022年,PCI-SIG正式发布了PCIe 6.0规范,将总带宽提升至64 GT/s。

PCIe交换机技术

PCIe重定时行业的主导趋势

在AI服务器中,为了确保GPU和CPU连接时的信号质量,至少需要使用一个重定时芯片。一些AI服务器选择使用多个重定时芯片,比如Astera Labs就在其AI加速器配置中集成了4个重定时芯片。

GPU之间的互连

目前,PCIe重定时市场具有巨大的潜力,有三家领先品牌和许多潜在竞争对手。目前,Parade Technologies、Astera Labs和澜起科技是这个蓬勃发展市场的主要参与者,占据重要的地位。值得注意的是,作为PCIe部署的早期使用者,澜起科技是中国内地唯一能够大规模生产PCIe 4.0重定时的供应商。此外,澜起科技在PCIe 5.0重定时的开发方面也取得了稳步进展。

NVLink和NVSwitch

此外,Renesas、TI和微芯科技等芯片制造商也积极参与PCIe重定时产品的开发。根据官网站信息,Renesas提供2款PCIe 3.0重定时产品,分别是89HT0816AP和89HT0832P。TI提供了一款16Gbps 8通道PCIe 4.0重定时产品- DS160PT801。此外,微芯科技在2020年11月推出了XpressConnect系列的重定时芯片,旨在实现PCIe 5.0的32GT/s速率。

GPU之间的互连:NVLink和NVSwitch

全球主要芯片制造商非常重视推广高速接口技术。其中,英伟达(NVIDIA)的NVLink、AMD的Infinity Fabric和英特尔的CXL都做出了重要贡献。

NVLink是由英伟达(NVIDIA)开发的高速互连技术。它旨在加速CPU与GPU、GPU与GPU之间的数据传输速率,提升系统性能。从2016年到2022年,NVLink经历多次升级,已经发展到第四代。2016年,英伟达(NVIDIA)配合Pascal GP100 GPU的发布推出第一代NVLink。NVLink采用了高速信号互连(NVHS)技术,主要用于GPU之间和GPU与CPU之间的信号传输。GPU之间通过差分阻抗电信号以NRZ(不归零)形式进行编码传输。第一代NVLink单链路实现了40GB/s的双向带宽,单个芯片可以支持4个链路,总双向带宽达到160GB/s。

NVLink

NVLink不同阶段的发展

NVLink技术经历多次迭代,推动了高速互连的创新。2017年,基于Volta架构推出第二代NVLink。它实现每个链路50GB/s的双向带宽,每个芯片支持6个链路,总双向带宽达到300GB/s。2020年,基于Ampere架构的第三代发布,总双向带宽达到600GB/s。在2022年,基于Hopper架构的第四代推出。这一迭代转向使用PAM4调制的电信号,每个链路保持50GB/s的双向带宽,每个芯片支持18个链路,总双向带宽达到900GB/s。

NVSwitch的发展推动实现高性能GPU互连

在2018年,英伟达(NVIDIA)推出NVSwitch的最初版本,为增强带宽、减少延迟和促进服务器内多个GPU之间的通信提供解决方案。第一代NVSwitch采用TSMC的12nm FinFET工艺制造,拥有18个NVLink 2.0接口。通过部署12个NVSwitch,1个服务器可以容纳和优化16个V100 GPU之间的互连速率。

高性能GPU互连

目前,NVSwitch已经发展到第三代,采用TSMC的4N工艺制造。每个NVSwitch芯片配备了64个NVLink 4.0端口,使GPU之间的通信速率达到了900GB/s。通过NVLink Switch互连的GPU可以集体作为一个具有深度学习能力的高性能加速器运行。

总结

PCIe芯片、重定时芯片和NVSwitch等接口互连芯片技术的发展很大程度上增强CPU和GPU之间以及GPU之间的互动能力。这些技术的相互作用凸显了人工智能服务器的动态景观,为高性能计算的进步做出贡献。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/378602.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java+微信小程序实现智慧家政系统 JAVA+Vue+SpringBoot+MySQL

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统展示四、核心代码4.1 查询家政服务4.2 新增单条服务订单4.3 新增留言反馈4.4 小程序登录4.5 小程序数据展示 五、免责说明 一、摘要 1.1 项目介绍 基于微信小程序JAVAVueSpringBootMySQL的智慧家政系统&#xff0…

TCP 传输控制协议

1 TCP 1.1 TCP 最主要的特点 1.TCP 是面向连接的运输层协议。 2.每一条 TCP 连接只能有两个端点 (endpoint),每一条 TCP 连接只能是点对点的(一对一)。 3.TCP 提供可靠交付的服务。 4.TCP 提供全双工通信。 5.面向字节流 TCP 中的“流…

redisson源码解析

由于synchronized跟ReetrantLock是JVM级别的锁,在分布式情况下失效,这时候我们通常会选择redisson基于redis封装好的分布式锁。下面我们一起来分析以下redisson的源码。 使用方式 流程 getLock源码 给命令执行器赋值给看门狗时间赋值,默认30…

【芯片设计- RTL 数字逻辑设计入门 11.1 -- 状态机实现 移位运算与乘法 1】

文章目录 移位运算与乘法状态机简介SystemVerilog中的测试平台VCS 波形仿真 阻塞赋值和非阻塞赋值有限状态机(FSM)与无限状态机的区别 本篇文章接着上篇文章【芯片设计- RTL 数字逻辑设计入门 11 – 移位运算与乘法】 继续介绍,这里使用状态机…

PCA与梯度上升法

PAC 主成分分析(Principal Component Analysis) 一个非监督的机器学习算法主要用于数据的降维通过降维,可以发现更便于人类理解的特征其他应用:可视化;去噪 如何找到这个让样本间间距最大的轴? 如何定义样…

【我与Java的成长记】之String类详解

系列文章目录 能看懂文字就能明白系列 C语言笔记传送门 Java笔记传送门 🌟 个人主页:古德猫宁- 🌈 信念如阳光,照亮前行的每一步 文章目录 系列文章目录🌈 *信念如阳光,照亮前行的每一步* 前言一、字符串构…

zabbix配置主动监控

1.准备一台新的主机,安装相关软件包。 [rootsishi ~]# rpm -Uvh https://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpm [rootsishi ~]# yum -y install zabbix-agent2.修改zabbix-agent端的配置文件 [rootsishi ~]# vim /etc/z…

图像处理入门:OpenCV的基础用法解析

图像处理入门:OpenCV的基础用法解析 引言OpenCV的初步了解深入理解OpenCV:计算机视觉的开源解决方案什么是OpenCV?OpenCV的主要功能1. 图像处理2. 图像分析3. 结构分析和形状描述4. 动态分析5. 三维重建6. 机器学习7. 目标检测 OpenCV的应用场…

SegmentAnything官网demo使用vue+python实现

一、效果&准备工作 1.效果 没啥好说的,低质量复刻SAM官网 https://segment-anything.com/ 需要提一点:所有生成embedding和mask的操作都是python后端做的,计算mask不是onnxruntime-web实现的,前端只负责了把rle编码的mask解…

【MacOS】装 mac-win10 双系统(2017年的老mac,Intel芯片)

Navigator 一、前情二、完整过程2.1 Mac系统迁移2.2 分区合并2.3 下载win10镜像2.4 安装win102.5 安装驱动等2.6 设置默认启动系统 一、前情 昨天给学妹的mac装软件。发现之前她找维修店装了双系统,但是win10根本不能用,搞得乱七八糟的,于是…

产品经理学习-产品运营《海报制作》

如何策划一款优秀的海报 海报是什么? 是一种将文字和图片结合的信息传递形式;其作用和目的是把想传递给用户的信息高效的传递出去,让用户在极短的时间内产生兴趣,进而产生收藏、分享等行为。 海报的类型: 类型 特点 …

qt/c++实现表情选择框

💂 个人主页:pp不会算法^ v ^ 🤟 版权: 本文由【pp不会算法v】原创、在CSDN首发、需要转载请联系博主 💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦 实现功能 。编解码的设计 。映射关系设计 。匹配机制设计 演示效…

上海泗博HART转ModbusTCP网关HME-635应用案例之组态王和超声波液位计通信

如今工业现场的应用也逐渐把现场的不同应用协议转换成以太网,以此来提升现场的通信速度和质量。Modbus TCP是工业以太网协议的一种,也是现场应用中最常使用的。本应用案例是基于Modbus TCP的组态王和基于HART的超声波液位计之间数据通讯的具体应用。 应用…

小白都能看懂的力扣算法详解——链表(一)

!!本篇所选题目及解题思路均来自代码随想录 (programmercarl.com) 一 203.移除链表元素 题目要求:给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回新的头节点。 203.…

【Java数据结构】ArrayList和LinkedList的遍历

一&#xff1a;ArrayList的遍历 import java.util.ArrayList; import java.util.Iterator; import java.util.List;/*** ArrayList的遍历*/ public class Test {public static void main(String[] args) {List<Integer> list new ArrayList<>();list.add(5);list…

探索C语言中的联合体与枚举:数据多面手的完美组合!

​ ✨✨ 欢迎大家来到贝蒂大讲堂✨✨ &#x1f388;&#x1f388;养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; 所属专栏&#xff1a;C语言学习 贝蒂的主页&#xff1a;Betty‘s blog 1. 联合体的定义 联合体又叫共用体&#xff0c;它是一种特殊的数据类型&…

【网页设计期末】茶文化网站

本文资源&#xff1a;https://download.csdn.net/download/weixin_47040861/88818886 1.题目要求 设计要求&#xff1a; &#xff08;1&#xff09;网站页面数量不少于4个&#xff0c;文件命名规范&#xff0c;网站结构要求层次清楚&#xff0c;目录结构清晰&#xff0c;代码…

TCP的连接和断开详解

目录 1.TCP基础知识 1.1.TCP 头格式 1.2.TCP协议介绍 1.3.UDP协议介绍 1.4.TCP 和 UDP 区别 1.5.TCP 和 UDP 应用场景 1.6.计算机网络相关术语&#xff08;缩写&#xff09; 2.TCP 连接建立&#xff1a;三次握手 2.1.TCP 三次握手过程 2.2.三次握手原理 2.3.异常分析…

浏览器F12调试

系列文章目录 提示&#xff1a;这里可以添加系列文章的所有文章的目录&#xff0c;目录需要自己手动添加 例如&#xff1a;第一章 Python 机器学习入门之pandas的使用 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目…

java实现栈功能

1.使用数组方式 public static void main(String[] args) throws Exception {BufferedReader br new BufferedReader(new InputStreamReader(System.in));int operateNum Integer.parseInt(br.readLine());//操作次数String inputInfo;//输入信息StringBuilder outputSb new…