反思 GTC 和 OFC 2024:没有一刀切的方法,但上市时间是关键!

在GTC 2024期间,英伟达宣布了最新的Blackwell B200张量核心GPU,旨在为万亿参数的AI大型语言模型提供支持。Blackwell B200需要先进的800Gbps网络,完全符合在AI工作负载的AI网络报告中概述的预测。随着人工智能工作负载的流量预计每两年增长10倍,这些人工智能工作负载预计将超过传统前端网络至少两个速度升级周期。

虽然在OFC上讨论了许多关于跨数据中心应用的主题和创新解决方案,以及在同一领域内扩展加速器数量的计算互连,但本篇文章将主要关注数据中心内的应用。具体来说,它将专注于扩展连接大型人工智能集群中各种加速节点所需的网络,并使用1000个加速器。这个网络在业界通常被称为“人工智能后端网络”(还提到;由一些供应商提供;作为东西向流量的网络)。以下是展会上探讨的一些主题和解决方案:

1)线性驱动可插拔光学vs线性接收光学vs共封装光学

可插拔光学器件预计将在系统级的功耗中占越来越大的比例。随着云服务提供商构建以高速光学扩散为特征的下一代人工智能网络,这个问题将进一步放大。

在OFC 2023上,线性驱动可插拔光学(LPOs)的引入通过去除DSP来实现显著的成本和功耗节约,引发了一系列的测试活动。快进到OFC 2024,我们见证了近20场演示。活动期间的对话显示了全行业对集成到最新51.2Tbps网络交换芯片中的高质量100G SerDes的热情,许多人渴望利用这一进步,能够从光可插拔模块中去除DSP。

然而,尽管令人兴奋,但超大规模企业的犹豫表明,LPOs可能还没有做好大规模采用的准备。采访强调,超大规模企业不愿承担LPOs的资格认证和潜在失败的责任。相反,他们更倾向于让转换供应商来承担这些责任。

在此期间,预计51.2Tbps网络芯片的早期部署将继续利用可插拔光学,至少到明年年中。然而,如果LPOs 能够展示大规模的安全部署,同时为超大规模企业提供显著的功耗节省——使他们能够在每个机架上部署更多的加速器——那么采用LPOs 的诱惑可能是不可抗拒的。最终,决定取决于LPOs 能否兑现这些承诺。

此外,半定时线性光学(HALO),也被称为线性接收光学(LROs)在展会上进行了讨论。LRO仅在发送端集成DSP芯片(而不是在LPOs的情况下完全移除它)。虽然LPOs在100G-PAM4 SerDes下可能是可行的,但在200G-PAM4 SerDes下可能变得具有挑战性,这时可能需要LROs。

与此同时,协同封装光学(CPOs)仍处于开发阶段,Broadcom等大型行业参与者正在展示该技术的持续发展和进步。虽然我们相信目前的LPO和LRO解决方案肯定会像CPOs一样有更快的上市时间,但后者最终可能在未来的某个时候成为能够实现更高速度的唯一解决方案。

在结束本节之前,请不要忘记,在可能的情况下,铜将是比上面讨论的所有光连接选项更好的选择。简而言之,尽可能使用铜,必要时使用光学。有趣的是,液体冷却可以促进机架内加速器的致密化,从而增加铜的使用,以连接同一机架内的各种加速器节点。最近在GTC上发布的NVIDIA GB200 NVL72完美地说明了这一趋势。

2)光电路开关

OFC 2024带来了一些有趣的光学电路开关(OCS)相关公告。OCS可以带来许多好处,包括高带宽和低网络延迟,以及显著的资本支出节省。这是因为OCS开关可以显著减少网络中所需的电气开关数量,从而消除了与电气开关相关的昂贵的光-电-光转换。此外,与电气开关不同,OCS开关与速度无关,当服务器采用下一代光收发器时,不需要升级。

然而,OCS是一项新技术,到目前为止,只有经过多年开发的谷歌能够在其数据中心网络中大规模部署OCS。此外,OCS交换机可能需要改变光纤的安装底座。因此,我们仍在观察,除了谷歌之外,是否有其他云服务提供商计划效仿,在网络中采用OCS交换机。

3) 3.2 Tbps的路径

在OFC 2023上,推出了许多基于200G / lambda的1.6Tbps光学元件和收发器。在OFC 2024上,我们见证了这种1.6 Tbps光学器件的进一步技术演示。虽然我们预计到2025/2026年才能实现1.6Tbps的批量出货量,但业界已经开始努力探索实现3.2 Tbps的各种途径和选择。

考虑到从100G-PAM4电子通道速度过渡到200G-PAM4所遇到的复杂性,最初的3.2 Tbps解决方案可能在OSFP-XD外形因素中使用16条200G-PAM4通道,而不是8条400G-PAMx通道。值得注意的是,OSFP-XD最初是在两年前的OFC 2022上进行探索和演示的,由于人工智能集群部署的紧迫性,它可能会重新投入使用。与1.6Tbps相比,OSFP-XD外形尺寸的3.2Tbps解决方案提供了更高的面板密度和成本节约。最终,业界有望找到一种基于8通道400G-PAMx SerDes实现3.2 Tbps的方法,尽管可能需要一些时间才能实现这一目标。

总之,OFC 2024展示了许多潜在的解决方案,旨在解决共同的挑战:成本、功率和速度。我们预计不同的超大规模厂商将做出不同的选择,从而导致市场多样化。然而,关键的考虑因素之一是上市时间。值得注意的是,AI后端网络的更新周期通常在18到24个月左右,与用于连接通用服务器的传统前端网络的5到6年相比,这要短得多。

原文转自:Reflecting on GTC and OFC 2024: No One-Size-Fits-All but Time to Market is Key! - Dell'Oro Group (delloro.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/664593.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

销量逆袭!敦煌店铺如何靠自养号测评轻松引爆市场?

对于众多卖家而言,踏入中国领先的B2B跨境电商平台,如同步入了充满无尽机会的金矿。然而,有些卖家在平台上努力经营,但订单却寥寥无几。那么,究竟是什么原因导致了这种情况?接下来,我们将结合实际…

小程序webView 实现小程序内嵌H5页面

web-view | 微信开放文档 本案例新建了一个 webView页面 只渲染webView组件 配置路由,跳转页面的时候 前缀使用‘/subPages/webView/index?weburlhttps://xxxxx’ componentDidMount 的时候 获取路由中的 weburl 地址参数 async componentDidMount() {const router getCurre…

Coolmuster Android Assistant: 手机数据管理的全能助手

在数字化时代,智能手机不仅是通讯工具,更是个人数据的中心。随着数据量的不断增加,如何有效管理和保护这些数据成为了一个重要议题。Coolmuster Android Assistant应运而生,它是一款专为安卓用户设计的综合数据管理软件&#xff0…

九部门联合发文知识产权保护体系建设,微版权打造全链条知产保护

近日,国家知识产权局会同中央宣传部、最高人民法院、最高人民检察院、公安部、司法部、商务部、海关总署、国家市场监督管理总局等八部门联合印发《知识产权保护体系建设工程实施方案》(以下简称《方案》),共同加强知识产权保护体系建设。 《方案》是新时…

使用vscode调试c++、python、torchrun、deepspeed程序

目录 调试模式启动(Launch)模式调试c++launch.jsontasks.json附加(Attach)模式调试pythondebug torchrun和deepspeedlaunch.json参考VSCode通过其强大的扩展生态系统和灵活的调试配置,为C++、Python以及特定工具链如TorchRun和DeepSpeed的调试提供了便捷的方式。通过合理配…

初识Spring Cloud Gateway

文章目录 一、网关简介1.1 网关提出的背景1.2 网关在微服务中的位置1.3 网关的技术选型1.4 补充 二、Spring Cloud Gateway的简介2.1 核心概念:路由(Route)2.2 核心概念:断言(Predicate)2.3 核心概念&#…

手机文件管理软件哪个好?巧用文件命名分类工具,文件清晰醒目!

随着智能手机功能的日益强大,我们日常使用手机存储的文件也越来越多,如何高效地管理这些文件成为了许多人的需求。因此,手机文件管理软件应运而生,它们能够帮助我们更好地组织、查找和编辑手机中的文件。在众多手机文件管理软件中…

结构体(C保姆级讲解)

前言: 为什么会有结构体,结构体可以用来面熟一个复杂对象,我们知道C语言中有哪些数据类型,有整型,有浮点型,有字符型,但是在生活中,我们需要描述一些比较复杂的东西,比如…

Vitalik:Layer2 是以太坊社区文化的延伸

原文标题:《Layer 2s as cultural extensions of Ethereum》 撰文:Vitalik Buterin,以太坊联合创始人 编译:Chris,Techub News 在我最近关于 L1 和 L2 扩容差异的文章中,我最终得出的结论是, …

java——网络编程套接字

T04BF 👋专栏: 算法|JAVA|MySQL|C语言 🫵 今天你敲代码了吗 目录 2.网络编程套接字2.1 socket api2.2 TCP和UDP之间的区别有连接 vs 无连接可靠传输 vs 不可靠传输面向字节流vs面向数据报全双工 vs 半双工 2.3UDP数据报套接字编程UDP 回显服务器UDP客户端…

Mariadb操作命令指南

MariaDB简介 ​ 以下内容仅是站长或网友个人学习笔记、总结和研究收藏。不保证正确性,因使用而带来的风险与本站无关! 数据库应用程序与主应用程序分开存在,并存储数据集合。 每个数据库都使用一个或多个API来创建,访问&#xf…

ch4网络层---计算机网络期末复习(持续更新中)

网络层概述 将分组从发送方主机传送到接收方主机 发送方将运输层数据段封装成分组 接收方将分组解封装后将数据段递交给运输层网络层协议存在于每台主机和路由器上 路由器检查所有经过它的IP分组的分组头 注意路由器只有3层(网络层、链路层、物理层) 网络层提供的服务 一…

ArcGIS教程(02):创建多模式网络数据集

启动“新建网络数据集”向导 命名网络并选择源要素类 输入网络数据集名称【ParisMultimodal_ND】,点击【下一页】 点击【全选】网络数据集中的要素类 点击【下一页】 设置连通性和高程策略 点击【连通性】 Metro_Entrances 的每个要素与街道要素类的折点重…

企业文件加密:保障知识产权与客户隐私

在数字化时代,企业文件的安全成为了保护知识产权和客户隐私的关键。随着网络攻击和数据泄露事件的日益增多,企业必须采取强有力的措施来确保其敏感信息的安全。文件加密技术作为一项重要的数据保护手段,对于维护企业的竞争力和客户信任至关重…

第八十三节 Java面向对象设计 - Java方法重载

Java面向对象设计 - Java方法重载 在同一类中具有多个具有相同名称的方法称为方法重载。 类中具有相同名称的方法可以是声明的方法,继承的方法或两者的组合。 重载方法必须具有不同数量的参数,不同类型的参数或两者。 方法的返回类型,访问…

数字孪生技术为何备受各行业青睐?

数字孪生技术近年来在各行业中受到越来越多的重视,这是因为它具备了显著的优势和广泛的应用前景。数字孪生是指利用数字化技术,在虚拟空间中创建一个与现实世界对应的虚拟模型,通过数据的实时交互和反馈,实现对物理实体的模拟和监…

3d模型移动中心点偏移太远怎么解决?---模大狮模型网

在3D建模和动画制作中,移动模型时确保中心点的准确性至关重要。然而,有时候在移动模型时,中心点可能会偏移得太远,导致操作不便甚至影响到后续的工作流程。本文将介绍在3D模型移动中心点偏移太远时的常见原因,并提供解…

Linux系统编程——动静态库

目录 一,关于动静态库 1.1 什么是库? 1.2 认识动静态库 1.3 动静态库特征 二,静态库 2.1 制作静态库 2.2 使用静态库 三,动态库 3.1 制作动态库 3.2 使用动态库一些问题 3.3 正确使用动态库三种方法 3.3.1 方法一&…

sprintboot中拦截器的使用

文章目录 1. 为什么要使用拦截器2.拦截器的注册3.创建一个登录拦截器 1. 为什么要使用拦截器 1.权限检查:进入程序判断是否登录,没有登录,直接返回跳转到登录界面 2.性能监控:通过拦截器在进入处理程序之前记录开始时间&#xff…

java家政上门系统源码,一套同城预约、上门服务的家政系统源码

一款同城预约、上门服务的家政系统源码,用户端、服务端、管理端各端相互依赖又相互独立,支持选择项目、选择服务人员的下单方式,支持多城市并且设置每个城市专属服务项目。 技术架构:java1.8springboot mysql htmlThymeleaf uni…