智算中心建设主流加速卡选型策略

智算中心建设主流加速卡选型对比 —— 加速卡H800、A800、L40S、***B

一、加速卡基本性能比较

序号比较项H800A800L40S某国产NPU(本文简称“nB”)

1

加速卡类型

GPU

GPU

GPU

NPU

2

供应商

英伟达

英伟达

英伟达

-

3

FP32(TFLOPS)

67

19.5

91.6

94

4

FP16 AI算力(TFLOPS)

989.5

312

362

312.5

5

RT算力(TFLOPS)

212

6

加速卡内存容量(GB)

80GB HBM3

80GB HBM2e

48GB GDDR6

64GB HBM2e

7

加速卡内存带宽

3.35 TB/s

2TB/s

864GB/s

2TB/s

8

外形规格

SXM

SXM

PCIe双槽

OAI OAM 模组

9

互连技术

NVLink:400GB/s PCIe5.0:128GB/s

NVLink:400GB/sPCIe4.0:64GB/s

PCIe4.0:64GB/s

HCCS:392GB/sPCIe5.0:128GB/s

10

功耗(W)

700

400

350

400

11

RDMA出口带宽

400Gbps IB

200Gbps IB

100Gbps/200Gbps IB/RoCE

200Gbps RoCE

12

RDMA出口方式

通过IB网口扩展出口

通过IB网口扩展出口

通过IB/RoCE网口扩展出口

模组芯片直出网口

  • 说明-1:为了对比,英伟达FP16 AI算力未采用疏技术的算力数值。
  • 说明-2:PCIe互联带宽是双向的。

二、按千卡(1024)进行比较

三、按同等AI算力(FP16 AI算力320P)比较

四、应用场景(大模型、元宇宙)比较

五、比较总结与选型建议

1. 加速卡基本性能比较 —— 从单卡性能的角度看:

  • H800的AI算力最强,是最佳的大模型训练的优选型号。
  • L40S同时提供AI算力和渲染算力,支持模型微调与推理,以及渲染和3D建模,且AI算力优于A800和nB。

2. 按千卡(1024)进行比较 —— 从千卡性能和建设成本来看:

  • 千卡H800的AI算力达到1013P,但是价格也是最高的。千卡L40S的AI算力为375.3P,仅次于千卡H800,高于千卡A800(319.5P)和千卡nB(320P)。
  • 千卡A800的建设成本是千卡H800的62.14%,千卡nB的建设成本是千卡H800的66.98%,而千卡L40S的建设成本是千卡H800的52.25%。
  • 另外,千卡L40S同时提供217P的RT算力,可用于后续大模型落地应用的推理、渲染以及3D建模。

因此,千卡L40S集群是性价比最优的。

3. 按同等AI算力(FP16 AI算力320P)比较 —— 从同等AI算力(320P)来看:

  • H800集群最小,只需要41台(328块H800),建设成本最低的。
  • L40S集群次小,只需要110台(880块L40S),建设成本较低,低于A800集群和nB集群。
  • 此外,L40S集群还同时提供187P的RT算力,可适用于渲染和3D建模应用场景。

因此,同等AI算力比较L40S集群建设成本较低,且同时适用于更多应用场景,包括:训练、微调、推理、渲染和3D建模等。

4. 应用场景(大模型、元宇宙)比较 —— 从应用场景来看:

  • H800和A800仅提供AI算力,适用于训练、推理、微调和推理加速。
  • L40S是万能卡,可以用于训练和微调,也可以用于推理、渲染与3D建模,且性能优于A800和nB。
  • L40S可用于大模型生态从上游技术研发、中游的验证、下游的应用场景落地全生命周期都可以应用。
  • nB在大模型训练、推理和推理加速上需要一定的适配。

因此,L40S是适用于大模型和元宇宙应用场景的通用选择,在目前大模型研发阶段可用于基础模型训练、模型微调,在大模型落地的应用落地阶段可以用于推理。

5. 市场采购难易情况

  • H800和A800目前作为主流的大模型训练卡,在国内互联网、大模型创业公司屯货的情况下,目前H800、A800极其紧张,很难从库存中抢到相应的现货;
  • L40S相对H800和A800在国内还有一定量的库存,目前互联网大厂、大模型创业公司都处于大模型研发阶段,大家现阶段更倾向于高效研发大模型的H800,故L40S现货的竞争相对小,有一些稳定的供货渠道;
  • nB目前供货周期有比较大的延长,从目前市场信息来看,接下来还会面临普遍涨价的情况。目前来看供货量远不及通过其它途径进入国内的H100、A100芯片数量。

在考虑智算中心整体规划可以从大模型全生命周期来考虑,可以分步从中心、区域、边缘的方式考虑建设的阶段。考虑到长期的投资回报和资源持续使用周期,可以选择L40S这类现在合适做训练,随着芯片技术的成熟变成相对低端的性能。在3~5年后服役后,可残值利用拆散放到边缘数据中心作为靠近用户侧的推理、渲染的应用落地。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/373652.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL查询优化技巧和10个案例展示

优化MySQL查询的实战技巧: **避免使用SELECT ***:只获取需要的列,这样可以减少数据传输量,提高查询效率。使用索引:为查询频繁的列创建索引,可以显著提高查询速度。但请注意,索引并非万能&…

Android中设置Toast.setGravity()了后没有效果

当设置 toast.setGravity()后,弹窗依旧从原来的位置弹出,不按设置方向弹出 类似以下代码: var toast Toast.makeText(this, R.string.ture_toast, Toast.LENGTH_SHORT)toast.setGravity(Gravity.TOP, 0, 0)//设置toast的弹出方向为屏幕顶部…

绕过安全狗

本节我们想要绕过的安全狗版本为v4.023957 ,它是网站安全狗的Apache版。 首先搭建环境。渗透环境选用DVWA漏洞集成环境,下载地址 为http://www.dvwa.co.uk/ 。DVWA是一款集成的渗透测试演练环境,当刚刚入门 并且找不到合适的靶机时&#xff…

Bytebase 签约 Vianova,助力欧洲城市交通智能平台中 Snowflake 和 PG 的变更自动化及版本控制

在数字化发展的浪潮中,自动化数据库变更管理成为提升产品上线效率、降低人为失误风险的关键工具,同时促进流程的一致性与标准化,确保合规性和变更的可追溯性。近日,数据库 DevOps 团队协同管理工具 Bytebase 签约欧洲交通数据管理…

H12-821_134

134.如图所示,RED在入方向调用了ip as-path-filter1,那么路由10.0.0.0/24会从路径_________被RE_D学习。(请填写1或2) 答案:1 注释: ip as-path-filter 1解释: ip as-path-filter 1 deny _300$ 拒绝AS300始发的路由&…

图像异或加密、解密的实现

很多论文提到了从左上角开始做异或,逐行推导得到结果。 解密过程是加密的逆过程。 先看其基本方法: 参考文献: A Chaotic System Based Image Encryption Scheme with Identical Encryption and Decryption Algorithm 大多数论文都用了这个思路,我们使用MATLAB实现代码…

ASUS华硕灵耀X双屏UX8402V工厂模式原厂Win11.22H2系统安装包,含WinRE恢复出厂时开箱状态自带预装OEM系统

适用型号:UX8402VV、UX8402VU 链接:https://pan.baidu.com/s/1D7tJshKTNFYO4YyzKX0ppQ?pwd3saf 提取码:3saf Zenbook Pro灵耀X笔记本电脑原装出厂Windows11系统 带有ASUS RECOVERY恢复功能、自带面部识别,声卡,网…

PySpark(四)PySpark SQL、Catalyst优化器、Spark SQL的执行流程

目录 PySpark SQL 基础 SparkSession对象 DataFrame入门 DataFrame构建 DataFrame代码风格 DSL SQL SparkSQL Shuffle 分区数目 DataFrame数据写出 Spark UDF Catalyst优化器 Spark SQL的执行流程 PySpark SQL 基础 PySpark SQL与Hive的异同 Hive和Spark 均是:“分…

SpringBoot-基础篇03

之前搭建了整个开发环境实现了登录注册,springBoot整合mybatis完成增删改查,今天完成分页查询,使用阿里云oss存储照片等资源,后期会尝试自己搭建分布式文件系统来实现。 一,SpringBootMybatis完成分页查询 1&#xff…

计算机项目SpringBoot项目 办公小程序开发

从零构建后端项目、利用UNI-APP创建移动端项目 实现注册与登陆、人脸考勤签到、实现系统通知模块 实现会议管理功能、完成在线视频会议功能、 发布Emos在线办公系统 项目分享: SpringBoot项目 办公小程序开发https://pan.baidu.com/s/1sYPLOAMtaopJCFHAWDa2xQ?…

幻兽帕鲁mac可以玩吗?

《幻兽帕鲁》(英文:Palworld)是一款近期在 Steam 爆红的动作冒险生存游戏,游戏设置在一个居住着「帕鲁」的开放世界中,玩家可以战斗并捕捉帕鲁,也能用它们来建造基地、骑乘和战斗。 不过目前《幻兽帕鲁》仅…

基于CEVA DSP BX2的架构分析(五)- 标量处理单元(二)

目录 5.3.5 结果饱和度 5.3.4 乘法饱和度 5.3.5 乘法后移位 5.3.6 标量浮点支持 5.3.7 复数支持 5.3.7.1 ​​​​​​​​​​​​​​16位复杂算法支持 ​​​​​​​5.3.7.2 32位复杂算法支持 5.4 SPU算术标志 ​​​​​​​5.4.1 进位标志 ​​​​​​​5.4.2 溢出标志 …

docker部署docker管理工具easydockerweb

重要提示 功能比较少,建议体验一下即可 安装 docker run -it -d -p 10041:3000 -e EDW_USERNAMEadmin -e EDW_PASSWORDadmin -v /var/run/docker.sock:/var/run/docker.sock qfdk/easydockerweb 使用 概览 镜像管理 容器管理

Python命令行工具库之argcomplete使用详解

概要 命令行工具是开发者和系统管理员的得力助手,但随着命令行选项的增多,用户可能会感到困惑。Python 中的 argcomplete 库可以帮助轻松地为命令行工具添加自动补全功能,提高用户体验。本文将介绍如何使用 Python argcomplete 库实现命令行…

[嵌入式AI从0开始到入土]13_orangepi aipro开箱测评

[嵌入式AI从0开始到入土]嵌入式AI系列教程 注:等我摸完鱼再把链接补上 可以关注我的B站号工具人呵呵的个人空间,后期会考虑出视频教程,务必催更,以防我变身鸽王。 第1期 昇腾Altas 200 DK上手 第2期 下载昇腾案例并运行 第3期 官…

好看的安全跳转单页html源码

好看的安全跳转单页html源码,效果如下 代码如下&#xff1a; <!DOCTYPE html> <html> <head> <meta charset"UTF-8"> <!--[if IE 8]><style>.ie8 .alert-circle,.ie8 .alert-footer{display:none}.ie8 .alert-box{padding-top:…

基于Vue2用keydown、keyup事件实现长按键盘任意键(或组合键)3秒触发自定义事件(以F1键为例)

核心代码 <template></template> <script> export default {created() {//监听长按快捷键addEventListener("keydown", this.keydown);addEventListener("keyup", this.keyup);},destroyed(d) {//移除长按快捷键removeEventListener(&…

一文get国自然热点“组蛋白乳酸化”的研究方向和思路

作为近些年的国自然热点&#xff0c;“组蛋白修饰”不仅是细胞记忆的守护者&#xff0c;也是生命过程调控的重要的参与者。组蛋白是构成染色质的基本蛋白质单位&#xff0c;它们能够通过各种化学修饰如乙酰化、甲基化、磷酸化和乳酸化等&#xff0c;精确调控基因的表达&#xf…

【翻译】Processing安卓模式的安装使用及打包发布(内含中文版截图)

原文链接在下面的每一章的最前面。 原文有三篇&#xff0c;译者不知道贴哪篇了&#xff0c;这篇干脆标了原创。。 译者声明&#xff1a;本文原文来自于GNU协议支持下的项目&#xff0c;具备开源二改授权&#xff0c;可翻译后公开。 文章目录 Install&#xff08;安装&#xff0…

通过docker-compose部署NGINX服务,并使该服务开机自启

要在通过docker-compose部署的NGINX服务实现开机自启&#xff0c;你需要确保Docker守护进程在系统启动时自动运行&#xff0c;并配置docker-compose.yml文件以在容器中运行NGINX服务。以下是步骤&#xff1a; 确保Docker守护进程开机启动&#xff1a; 在Ubuntu/Debian上&#x…