AMD MI300X vs Nvidia H100/H200:AI计算领域的新一轮较量

随着人工智能(AI)技术的飞速发展,计算引擎的性能竞赛也愈演愈烈。近期,MLCommons发布的最新AI训练和推理基准测试结果,他们构建了一套 MLPerf AI 训练和推理基准,将AMD的Instinct“Antares”MI300X GPU与Nvidia的“Hopper”H100、H200以及“Blackwell”B200系列GPU进行了直接对比,为我们揭开了这场算力大战的新篇章。
在这里插入图片描述

基准测试初露锋芒

根据MLCommons发布的最新MLPerf AI推理基准测试结果,AMD MI300X在部分AI推理任务中与Nvidia H100的表现不相上下,尤其是在处理Meta Platforms的Llama 2模型(70亿参数)时表现尤为突出。

下面是最新发布的 MLPerf 基准评测结果:
在这里插入图片描述
英伟达的 MLPerf 基准评测结果来自英伟达自身,其中也包括使用 Llama 2 70B 模型在单台 Blackwell B200 SXM 上的结果,详情可访问这篇博客:NVIDIA Blackwell Sets New Standard for Gen AI in MLPerf Inference Debut | NVIDIA Blog

AMD 在配备一对当前的「Genoa」Epyc 9004 系列处理器和八台 Antares MI300X GPU 的服务器节点中测试了标准通用基板(UBB),还测试了一台将 Genoa CPU 换成即将推出的「Turin」Epyc 9005 系列 CPU 的机器,该系列 CPU 预计将在下个月左右推出。
在这里插入图片描述
AMD 还向 The Next Platform 提供了一张图表,其中展示了在 Genoa 盒子上测试一台 MI300X GPU 的性能,这可以显示节点内 GPU 的扩展性能:
在这里插入图片描述
此外,根据我们对GPU和整体系统成本的估算,MI300X在性价比上也极具竞争力。这一成绩对于AMD来说无疑是一个良好的开端,也为未来更多平台的发展奠定了坚实的基础。

以下是关键性能数据和分析:

MI300X

AMD GPU 配置了 PyTorch 2.3.0 框架和 AMD 的 ROCm 6.1.2 软件库和 runtimes,它类似于英伟达的 CUDA 堆栈。在 MI300X 的张量核心上的峰值 FP16 性能为 1307.4 TFlops,但这是在服务器模式下运行的(也就是使用在现实世界中看到的一种随机查询),可知在运行 Llama 2 70B 模型时,单台 MI300X 每秒生成 2530.7 个 token。因此,Llama 2 性能与假设峰值 Flops 之比为 1.94。当扩展到 8 台 MI300X 设备并换用更高速的 CPU,则这一比值会略微升至 2.01 到 2.11。
在这里插入图片描述

H100

虽然MI300X在内存容量上(192GB HBM3)优于H100(80GB HBM),但H100在推理性能比率上更为出色,每秒服务器 token 与峰值 FP16 Flops 的比值是 2.6 或 2.73。这可能要归结于软件调整。针对 H100,CUDA 堆栈和 TensorRT 推理引擎进行了大量调整,现在就可以很好理解前段时间AMD为什么要收购人工智能咨询公司 Silo AI了。

H200

H200在内存(141GB HBM3E)和带宽(4.8 TB/sec)方面的提升,使其在推理性能上比H100提升了56%,这表明内存和带宽的提升对AI推理任务的影响显著。
在这里插入图片描述
尽管MI300X表现优异,但在H200面前,仍存在一定的差距,尤其是在高带宽和内存密集型任务上。MI300X 应该具有什么样的内存容量和带宽才能平衡其在推理(可能还有训练)工作负载方面的浮点性能呢?

大家可能倾向于相信 AMD MI300X 和英伟达 H100 之间的性能差异是因为:一致性互连将 GPU 绑定到其各自 UBB 和 HGX 板上的共享内存复合体中。AMD 机器上的是 Infinity Fabric,而英伟达机器上的是 NVSwitch。Infinity Fabric 的每台 GPU 的双向带宽为 128 GB/s,而 NVLink 4 端口和 NVSwitch 3 交换机的带宽为 900 GB/s,因此英伟达机器在内存一致性节点结构上的带宽高 7 倍。
在这里插入图片描述
这可能是 Llama 2 工作负载性能差异的一部分原因,但主要原因如下。

单台 MI300X 的峰值性能为 1.31 Pflops,比 H100 或 H200 的 989.5 Tflops(FP16 精度)高出 32.1%,且没有稀疏矩阵重新调整,吞吐量翻倍。MI300X 的内存是 H100 的 2.4 倍,但 Llama 2 推理工作性能仅比 H100 多 7%,并且推理负载仅为 H200 的 60%。根据英伟达进行的测试,相比于配备 180 GB 内存的 Blackwell B200,该设备的工作性能仅为其 23.5%。

据信 B200 的内存也会受限,因此根据 6 月份发布的英伟达路线图,B200 和 B100(可能)将在 2025 年进行内存升级,容量可能会提升到 272 GB 左右。H200 的内存升级会领先于 MI300X,后者的升级将在今年晚些时候体现在 MI32X 上,并会在内存方面领先 B200 Blackwell Ultra 六到九个月。
在这里插入图片描述
尽管在Llama 2 70B工作负载中,节点间的高速、大容量互连可能并不那么重要,但这并不意味着它在更大规模的模型或特别是AI训练场景中不重要。因此,我们不应过早地下结论。要等待AMD在秋季发布的AI训练基准测试结果来揭晓答案。

性能与性价比的双重考量

英伟达联合创始人兼首席执行官黄仁勋在今年早些时候宣布Blackwell时表示,这些设备价格将在3.5万至4万美元之间。Hopper GPU价格可能在2.25万美元左右,具体取决于配置。这与黄仁勋在2023年舞台上所说的全配置HGX H100系统板成本20万美元的声明相符。

至于 H200,如果单独购买,价格应该是 3 万美元左右;而MI300X的售价约为2万美元,但这仅是基于理论推测,具体还要看消费者和市场情况。
在这里插入图片描述
安装这些GPU的服务器整机(包括两个CPU、大量主内存、网卡和一些闪存存储)的成本大约为15万美元。并且可以插入英伟达的HGX板或AMD的UBB板,构建八路机器。

综合这些成本,可以看到 MI300X 与 H100 一样非常烧钱。

对于 Llama 2 70B 推理任务,H100 系统中平均每台 GPU 每秒可输出 2700 个 token,这比 MI300X 好 7%。H200 的内存是 141 GB,是原来的两倍多,而其推理性能提升了 56%,但 GPU 的价格仅上涨了 33%,因此在GPU和系统层面的性价比更高。

如果B200成本如黄仁勋所说的4万美元,那么在Llama 2 70B测试中,GPU层面的推理成本将几乎减半,系统级别的成本也将减少一半以上。考虑到 Blackwell 的短缺以及希望在给定空间和给定热范围内容纳更多 AI 计算的需求,也有很多人认为B200 GPU 定价会是5万美元/台。

预计Nvidia的Blackwell B200系列GPU将在年底前发布,可能会在性能和性价比上对MI300X形成压制。AMD的下一代MI325X计划在年底发布,这款GPU将具备更高的带宽和内存(288GB HBM3E),可能在性能上有所突破,但能否在价格上保持竞争力仍有待观察。

最后

在AI推理性能方面,AMD MI300X已经证明其在某些任务中可以与Nvidia的H100相媲美,甚至在部分指标上有所超越。随着未来更多新产品的发布和技术的不断进步,AMD有望在AI计算领域取得更大的突破。

对我们来说,选择合适的GPU不仅取决于其当前的性能表现,还需考虑未来的市场趋势、价格波动以及长期的可持续性。随着更多基准测试结果的发布,以及新一代GPU的上市,市场竞争将更加白热化,在选择时需要综合考量多方面因素,以确保在AI项目中获得最佳的性能与性价比。

**赋创**作为业内领先的高性能计算解决方案提供商,始终致力于推动科技进步,为客户提供最前沿的技术支持和卓越的计算能力。
在这里插入图片描述
我们专注于GPU行业计算应用,并拥有12年以上丰富经验,通过分析软件计算特点,给出专业匹配的服务器硬件配置方案。

如果您有服务器相关的问题或需要进一步了解更详细的信息,请随时私信我们【4006-997-916 / 0755-86936235】。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/872221.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

远端ide ,vscode ,python 开发环境, 有些还有一建生成chatgpt功能,支持gpu功能

现在智能化的AI工具,可以实现智能聊天、文本生成、语言翻译等多种功能。 博主归纳总结了6个好用免费的AI工具网站,供大家参考。 ## 1,insCode 网址: https://inscode.csdn.net/ 简介: InsCode 是一个以“灵感”&am…

SQL-多表查询

1、多表关系 一对多、多对一:在多的一方建立外键,指向一的一方。 多对多:至少两个外键,通过中间表维护。 一对一 2、多表查询概述 3、内连接 4、外连接 5、自连接 6、联合查询 7、子查询 8、多表查询案例 # 1、多表关系 #…

Day 3 - 5 :线性表 — 单链表

存储结构 将线性表中的各元素分布在存储器的不同存储块,称为结点。 结点的data域存放数据元素ai,而next域是一个指针,指向ai的直接后继ai1所在的结点。 如果要删除a1,只要修改a1前手元素指针的指向即可。 例如:需要找到…

苏宁易购发布公告 管理层提前超额完成增持计划

9月5日,苏宁易购发布公告称,包括苏宁易购总裁任峻在内的公司部分董事、高级管理人员和核心业务骨干已通过集中竞价交易方式累计增持公司股份4,067,000股,合计增持金额511.95万元。高管增持计划的完成,展现了管理层对公司未来发展的…

【华为】测试工程师面试题汇总,你可知道华为的高薪技术岗有多香~

华为一直是求职者重点投递的热门企业,面对丰厚的薪资福利,无数985、211的学子挤破脑袋都想占据一席之地。 华为2021年发放工资、薪金及其他福利方面的费用达1371亿元人民币,按华为19.5万员工计算,华为员工人均年薪为70.3万&#…

如何在Mac电脑上本地部署Stable Diffusion:详细教程(webUI)

Stable Diffusion是一款强大的AI生成图像模型,它可以基于文本描述生成高质量的图像。对于想要在本地运行此模型的用户来说,使用Mac电脑部署Stable Diffusion是一个非常吸引人的选择,特别是对于M1或M2芯片的用户。本文将详细介绍如何在Mac上本…

计算机毕业设计选题推荐-企业会议室管理系统-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

CSS3换装达人原理

引言 换装或者是换皮肤是常见的行为,我们可以先看下效果: 选择不同的颜色,就可以秒变人物服装的颜色,原理其实非常简单 实现步骤 主要分为三步,即素材的提供、布局样式、动态控制 图片提供 提供两张图片&#xf…

如何防止常见的Web应用安全漏洞!

Web应用的广泛使用伴随着各种安全威胁。近年来,许多企业因忽视Web应用的安全性而遭受重大损失。本文将介绍几种常见的Web应用安全漏洞,并提供具体的防护方案和实战演练。 常见的Web应用安全漏洞 1. SQL注入 - 简介:攻击者通过在输入字段中插…

C语言刷题日记(附详解)(4)

一、选填部分 第一题: 下面四个选项中,均是不合法的用户标识符的选项是( ) A. A P_0 do B. float la0 _A C. b-a sizeof int D. b_a temp _123 思路提示:题中所问的是"不合法"的"用户标识符",要记得,C…

上手一个RGBD深度相机:从原理到实践--ROS noetic+Astra S(上):解读深度测距原理和内外参推导

前言 最近在做项目的时候,项目组丢给了我一个深度相机,今天我们来尝试上手一个实体深度相机。 本教程设计基础相机的原理,使用,标定,和读取。(注:本教程默认大家有ROS1基础,故不对程序进行详细…

SpringCloud Hystrix的解析

概述 Hystrix 为 微服务架构提供了一整套服务隔离、服务熔断和服务降级的解决方案。它是熔断器的一种实现,主要用于解决微服务架构的高可用及服务雪崩等问题 Hystrix 的特性如下: 服务熔断:Hystrix 熔断器就像家中的安全阀一样&#xff0c…

哪款宠物空气净化器能更好的清理浮毛?希喂、352、IAM测评分享

家里这三只可爱的小猫咪,已然成为了我们生活中不可或缺的家庭成员,陪伴我们度过了说长不长说短不短的五年时光。时常庆幸自己当年选择养它们,在我失落的时候总能给我安慰,治愈我多时。 但这个温馨的背后也有一点小烦恼&#xff0…

A02、Java编程性能调优(02)

1、Stream如何提高遍历集合效率 1.1、什么是Stream 现在很多大数据量系统中都存在分表分库的情况。例如,电商系统中的订单表,常常使用用户 ID 的 Hash 值来实现分表分库,这样是为了减少单个表的数据量,优化用户查询订单的速度。 …

VBA数据库解决方案第十四讲:如何在数据库中动态删除和建立数据表

《VBA数据库解决方案》教程(版权10090845)是我推出的第二套教程,目前已经是第二版修订了。这套教程定位于中级,是学完字典后的另一个专题讲解。数据库是数据处理的利器,教程中详细介绍了利用ADO连接ACCDB和EXCEL的方法…

macos MacPort 包管理工具安装和使用

在macos v10.15版本中, xz, python等软件无法使用brew安装, 原因是brew对于旧版本的macos不再支持, 但是我们可以使用另外一个macos下的包管理工具来安装brew无法安装的软件, macport 是一个和brew类似的macos下的一个非常优秀的软件包安装管理工具. MacPort安装前提条件 安…

001集——CAD—C#二次开发入门——开发环境基本设置

CAD C#二次开发首先需要搭建一个舒服的开发环境,软件安装后,需要修改相关设置。本文为保姆级入门搭建开发环境教程,默认已成功安装vs和cad 。 第一步:创建类库 第二步:进行相关设置,如图: 下一…

【OpenWrt(2)】编译OpenWrt 的SDK,以linksys e8450 的MT7622 CPU为例

资源 参考 https://downloads.openwrt.org/releases/ 文章目录 资源依赖下载 SDK查询 CPU 信号 解压使用 feed 编译后台运行 依赖 apt-get update apt-get install subversion build-essential libncurses5-dev zlib1g-dev gawk git ccache gettext libssl-dev xsltproc wget…

一万字❤ 计算机网络知识✔ 带你全面了解网络原理【详解 + 代码演示 + 图解】(期末考试、面试必备)

文章目录 1. 网络基础1.1 局域网1.2 广域网1.3 IP 地址1.4 端口号1.5 协议1.6 协议分层1.7 网络模型1.7.1 OSI 七层模型1.7.2 TCP/IP 五层模型 2. 网络编程2.1 TCP 和 UDP 的区别2.2 UDP的 Socket API2.2.1 DatagramSocket2.2.1.1 构造方法2.2.1.2 主要方法 2.2.2 DatagramPack…

【银河麒麟高级服务器操作系统】soft lockup软锁实例详细记录分析及处理建议

了解更多银河麒麟操作系统全新产品,请点击访问 麒麟软件产品专区:https://product.kylinos.cn 开发者专区:https://developer.kylinos.cn 文档中心:https://documentkylinos.cn 现象描述 启nginx服务,但是报了sof…