智算中心建设主流加速卡选型对比 —— 加速卡H800、A800、L40S、***B
一、加速卡基本性能比较
序号 | 比较项 | H800 | A800 | L40S | 某国产NPU(本文简称“nB”) |
---|---|---|---|---|---|
1 | 加速卡类型 | GPU | GPU | GPU | NPU |
2 | 供应商 | 英伟达 | 英伟达 | 英伟达 | - |
3 | FP32(TFLOPS) | 67 | 19.5 | 91.6 | 94 |
4 | FP16 AI算力(TFLOPS) | 989.5 | 312 | 362 | 312.5 |
5 | RT算力(TFLOPS) | 无 | 无 | 212 | 无 |
6 | 加速卡内存容量(GB) | 80GB HBM3 | 80GB HBM2e | 48GB GDDR6 | 64GB HBM2e |
7 | 加速卡内存带宽 | 3.35 TB/s | 2TB/s | 864GB/s | 2TB/s |
8 | 外形规格 | SXM | SXM | PCIe双槽 | OAI OAM 模组 |
9 | 互连技术 | NVLink:400GB/s PCIe5.0:128GB/s | NVLink:400GB/sPCIe4.0:64GB/s | PCIe4.0:64GB/s | HCCS:392GB/sPCIe5.0:128GB/s |
10 | 功耗(W) | 700 | 400 | 350 | 400 |
11 | RDMA出口带宽 | 400Gbps IB | 200Gbps IB | 100Gbps/200Gbps IB/RoCE | 200Gbps RoCE |
12 | RDMA出口方式 | 通过IB网口扩展出口 | 通过IB网口扩展出口 | 通过IB/RoCE网口扩展出口 | 模组芯片直出网口 |
- 说明-1:为了对比,英伟达FP16 AI算力未采用疏技术的算力数值。
- 说明-2:PCIe互联带宽是双向的。
二、按千卡(1024)进行比较
三、按同等AI算力(FP16 AI算力320P)比较
四、应用场景(大模型、元宇宙)比较
五、比较总结与选型建议
1. 加速卡基本性能比较 —— 从单卡性能的角度看:
- H800的AI算力最强,是最佳的大模型训练的优选型号。
- L40S同时提供AI算力和渲染算力,支持模型微调与推理,以及渲染和3D建模,且AI算力优于A800和nB。
2. 按千卡(1024)进行比较 —— 从千卡性能和建设成本来看:
- 千卡H800的AI算力达到1013P,但是价格也是最高的。千卡L40S的AI算力为375.3P,仅次于千卡H800,高于千卡A800(319.5P)和千卡nB(320P)。
- 千卡A800的建设成本是千卡H800的62.14%,千卡nB的建设成本是千卡H800的66.98%,而千卡L40S的建设成本是千卡H800的52.25%。
- 另外,千卡L40S同时提供217P的RT算力,可用于后续大模型落地应用的推理、渲染以及3D建模。
因此,千卡L40S集群是性价比最优的。
3. 按同等AI算力(FP16 AI算力320P)比较 —— 从同等AI算力(320P)来看:
- H800集群最小,只需要41台(328块H800),建设成本最低的。
- L40S集群次小,只需要110台(880块L40S),建设成本较低,低于A800集群和nB集群。
- 此外,L40S集群还同时提供187P的RT算力,可适用于渲染和3D建模应用场景。
因此,同等AI算力比较L40S集群建设成本较低,且同时适用于更多应用场景,包括:训练、微调、推理、渲染和3D建模等。
4. 应用场景(大模型、元宇宙)比较 —— 从应用场景来看:
- H800和A800仅提供AI算力,适用于训练、推理、微调和推理加速。
- L40S是万能卡,可以用于训练和微调,也可以用于推理、渲染与3D建模,且性能优于A800和nB。
- L40S可用于大模型生态从上游技术研发、中游的验证、下游的应用场景落地全生命周期都可以应用。
- nB在大模型训练、推理和推理加速上需要一定的适配。
因此,L40S是适用于大模型和元宇宙应用场景的通用选择,在目前大模型研发阶段可用于基础模型训练、模型微调,在大模型落地的应用落地阶段可以用于推理。
5. 市场采购难易情况
- H800和A800目前作为主流的大模型训练卡,在国内互联网、大模型创业公司屯货的情况下,目前H800、A800极其紧张,很难从库存中抢到相应的现货;
- L40S相对H800和A800在国内还有一定量的库存,目前互联网大厂、大模型创业公司都处于大模型研发阶段,大家现阶段更倾向于高效研发大模型的H800,故L40S现货的竞争相对小,有一些稳定的供货渠道;
- nB目前供货周期有比较大的延长,从目前市场信息来看,接下来还会面临普遍涨价的情况。目前来看供货量远不及通过其它途径进入国内的H100、A100芯片数量。
在考虑智算中心整体规划可以从大模型全生命周期来考虑,可以分步从中心、区域、边缘的方式考虑建设的阶段。考虑到长期的投资回报和资源持续使用周期,可以选择L40S这类现在合适做训练,随着芯片技术的成熟变成相对低端的性能。在3~5年后服役后,可残值利用拆散放到边缘数据中心作为靠近用户侧的推理、渲染的应用落地。