A100、H100、H800、H20等多种显卡配置对比

显卡对比

型号	A100 80GB SXM	A100 80GB PCIe	H100 80GB SXM	H100 80GB PCIe	H20	H800 80GB SXM	H800 80GB PCIe
数据来源	链接	链接	链接	链接	链接	链接	链接
GPU架构	Ampere	Ampere	Hopper	Hopper	Hopper	Hopper	Hopper
显存容量	80GB HBM2e	80GB HBM2e	80GB	94GB	96GB	80GB	80GB
显存带宽	1,935 GB/s	2,039 GB/s	3.35 TB/s	3.9 TB/s	4.0 TB/s	3.35 TB/s	2 TB/s
NVLink	600 GB/s	600 GB/s	900 GB/s	600 GB/s	900 GB/s	400 GB/s	400 GB/s
PCIe	Gen4: 64 GB/s	Gen4: 64 GB/s	Gen5: 128GB/s	Gen5: 128GB/s	Gen5: 128GB/s	Gen5: 128GB/s	Gen5: 128GB/s
FP64 (TFLOPS)	9.7	9.7	34	30	1	1	0.8
FP64 Tensor Core (TFLOPS)	19.5	19.5	67	60	-	1	0.8
FP32 (TFLOPS)	19.5	19.5	67	60	44	67	51
TP32 Tensor Core (TFLOPS)	312	156	989	835	74	989	756
BFLOAT16 Tensor Core (TFLOPS)	624	312	1,979	1,671	148	1,979	1,513
FP16 Tensor Core (TFLOPS)	624	312	1,979	1,671	148	1,979	1,513
FP8 Tensor Core (TFLOPS)	-	-	3,958	3,341	296	3,958	3,026
INT8 Tensor Core (TOPS)	1248	624	3,958	3,341	296	3,958	3,026
INT4 Tensor Core (TOPS)	-	-	-	-	-	-	-
最大功耗	400W	300W	700W	350-400W	400W	700W	350- 400W
服务器配置	HGX支持4、8、16卡 DGX支持8卡	1-8卡	HGX支持4、8卡 DGX支持8卡	1-8卡		HGX支持8卡 DGX支持8卡	1-8卡
价格	10w左右	10w左右	20w左右	20w左右	10万左右	20w左右	20w左右

名词解释

PCIe

![[Pasted image 20250221182302.png]]
在显卡配置中，PCIe一般指PCIe接口，是服务器实现IO扩展的关键，PCIe接口除了用于插PCIe的GPU卡外，也可以广泛用于Raid卡、网卡、HBA卡等。

不同版本PCIe接口的速度如下：

PCIe版本	传输速率 (GT/s)
PCIe 1.0	2.5
PCIe 2.0	5
PCIe 3.0	8
PCIe 4.0	16
PCIe 5.0	32
PCIe 6.0	64

PCIe版本的GPU，发布的时候Nvidia是一张一张独立出售的。

SXM

SXM是专为GPU设计的高带宽接口，基于NVLink技术的互联方式，实现多个GPU直接互联。相较于PCIe接口，具备提供更高的带宽和更低的延迟，更好的稳定性和可靠性，常用于高性能计算和数据中心。

SXM版本的GPU 发布的时候Nvidia配置了标准的HGX平台，相当于把8张或者4张GPU在HGX平台做成一个模块，按照模块出售。

NvLink和SXM其实说的都是一个东西，NvLink是从互联的角度说的， SXM是从板子上面接口的角度说的。

GPU架构

NVIDIA的GPU架构已经发展了多代，每一代架构都有其独特的特点和改进之处。

1.Tesla架构（第一代）

发布时间：2006年
主要特点：Tesla架构是NVIDIA的第一代GPU架构，主要用于科学计算和数据中心。它引入了CUDA核心，支持并行计算，奠定了NVIDIA在高性能计算领域的基础。

2.Fermi架构（第二代）

发布时间：2010年
主要特点：Fermi架构引入了L1和L2缓存，提高了内存访问效率。它还支持双精度浮点运算（FP64），提升了科学计算的精度和性能。Fermi架构的GPU包括Fermi GF100等型号。

3. Kepler架构（第三代）

发布时间：2012年
主要特点：Kepler架构在能效比方面有显著提升，采用了更高效的SIMD（Single Instruction Multiple Data）架构。它还引入了动态并行（Dynamic Parallelism）技术，允许GPU在执行过程中动态创建和管理线程。Kepler架构的GPU包括Kepler GK104等型号。

4. Maxwell架构（第四代）

发布时间：2014年
主要特点：Maxwell架构在能效比方面进一步优化，采用了更先进的制造工艺（如28nm）。它引入了新的内存压缩技术，提高了显存带宽和容量。Maxwell架构的GPU包括Maxwell GM204等型号。

5. Pascal架构（第五代）

发布时间：2016年
主要特点：Pascal架构引入了HBM2显存，提供了更高的显存带宽和更低的功耗。它还支持更广泛的精度计算（如FP16、FP32、FP64），在深度学习和高性能计算方面有显著提升。Pascal架构的GPU包括Pascal GP100等型号。

6. Volta架构（第六代）

发布时间：2017年
主要特点：Volta架构引入了Tensor Core，专门用于深度学习中的矩阵计算，显著提升了AI训练和推理的性能。它还支持HBM2显存和第二代NVLink技术，提供了更高的内存带宽和GPU间通信速度。Volta架构的GPU包括Tesla V100等型号。

7. Turing架构（第七代）

发布时间：2018年
主要特点：Turing架构引入了实时光线追踪（RT Core）和深度学习超采样（DLSS）技术，显著提升了图形渲染和AI性能。它还支持GDDR6显存，提供了更高的显存带宽。Turing架构的GPU包括GeForce RTX 20系列和Quadro RTX 6000等型号。

8. Ampere架构（第八代）

发布时间：2020年
主要特点：Ampere架构在计算能力、能效和深度学习性能方面有重大提升。它引入了第三代Tensor Core，支持更高效的混合精度运算，显著提升了AI训练和推理的性能。Ampere架构的GPU还包括更多的CUDA核心和更高的显存带宽，适用于大规模数据处理和机器学习任务。代表产品包括NVIDIA A100、GeForce RTX 30系列等。

9. Hopper架构（第九代）

发布时间：2022年
主要特点：Hopper架构采用了多芯片模块（MCM）设计，将多个小芯片通过高速互连技术整合在一起，提高了性能密度和良率。它引入了第四代Tensor Core，支持更广泛的数学运算精度（如FP64、TF32、FP16等），在AI性能方面实现了显著提升。Hopper架构还支持动态稀疏性，允许GPU在处理神经网络时跳过零值权重的计算，提高了效率和性能。代表产品包括NVIDIA H100、H800等。

显存类型

GDDR（Graphics Double Data Rate，图形双倍数据速率）

常见的显存类型，具有较高的带宽和较低的延迟，适用于大多数显卡，如NVIDIA的GeForce系列和AMD的Radeon系列显卡。

HBM

HBM显存是一种新型的高性能、高带宽显存。它的设计理念是通过堆叠多个内存芯片来实现高密度和高带宽。例如，HBM2 内存通过 1024 位的数据通道和 8 个堆叠层，能够提供高达 256GB/s 的带宽。HBM3 更进一步，通过增加堆叠层数和提高数据传输速率，达到每秒 819GB 的带宽。

类型	数据传输速率 (Gb/s)	通道位宽 (bit)	最大带宽 (GB/s)	可堆叠层数	每堆容量 (GB)	发布日期
HBM 1	1.0	1024	128	4	1	2013
HBM 2	2.0	1024	256	8	8	2016
HBM 2E	3.2 ~ 3.6	1024	410 ~ 460	4 ~ 8	16	2019
HBM 3	6.4	1024	819	8 ~ 12	24	2023
HBM 3E	9.2	1024	1177	8 ~ 12	36	2024
HBM 4	6.4	2048	1536	16	64	2025（计划）

显存带宽

显存带宽表示单位时间内显存能够传输的数据量。显存带宽越高，显卡处理图形数据的速度就越快。
相较于显存容量

显存容量决定了显卡能够处理多大的数据量，例如高分辨率纹理、复杂场景等。

显存带宽决定了显卡处理数据的速度，带宽越高，数据传输越快。

数据类型

以下是各种数据类型的详细解释：

FP64和FP64 Tensor Core

FP64（Double Precision Floating-Point） ：是一种 64 位（8 个字节）的浮点数格式，符合 IEEE 754 标准。其结构包括1位符号位、11位指数位和52位尾数位，能够表示非常大的数值范围（从大约 $2^{-1022}$ 到 $2-2^{-52}）×2^{1023}）$ 和极小的数值范围（近似等于 $2^{-1074}$ ）。
FP64 Tensor Core ：是专门为处理 64 位浮点数设计的张量核心，可加速大规模矩阵运算。相比传统计算单元，它在进行 64 位矩阵乘法和加法时速度更快，更适用于高精度计算场景下的深度学习和神经网络训练。

FP32以及TP32 Tensor Core

FP32（Single Precision Floating-Point） ：是一种 32 位（4 个字节）的浮点数格式，同样符合 IEEE 754 标准。它包含1位符号位、8位指数位和23位尾数位，数值范围从大约 $1.18×10^{-38}$ 到 $3.4×10^{38}$ ，精度约为 7 位有效数字。
TP32 Tensor Core ：张量核心的一种，主处理 32 位张量数据。相比 FP64 Tensor Core，它的功耗较低，运算效率更高，适用于大规模矩阵运算，加速 FP32 数据的深度学习训练和推理。例如，在多层神经网络前向传播和反向传播时，快速处理 FP32 矩阵乘法。

BFLOAT16 Tensor Core 与 FP16 Tensor Core

BFLOAT16（Bfloat16）Tensor Core 是一种专为深度学习训练设计的硬件加速单元，支持 BFLOAT16 精度的矩阵乘法和累加运算。BFLOAT16 是一种 16 位浮点数格式，具有与 FP32 相同的指数位数（8 位），但尾数位数减少到 7 位。
FP16 Tensor Core 是一种用于加速深度学习计算的硬件单元，支持 FP16（半精度浮点数）精度的矩阵乘法和累加运算。FP16 是一种 16 位浮点数格式，具有 5 位指数和 10 位尾数。

FP8 Tensor Core

FP8 Tensor Core 是一种用于低精度计算的硬件加速单元，支持 FP8 精度的矩阵乘法和累加运算。FP8 是一种 8 位浮点数格式，具有更小的存储需求和更低的计算资源消耗。

INT8 Tensor Core 和 INT4 Tensor Core

INT8 Tensor Core 是一种用于整数运算的硬件加速单元，支持 INT8 精度的矩阵乘法和累加运算。INT8 是一种 8 位整数格式，常用于深度学习中的量化计算。
INT4 Tensor Core 是一种用于更低精度整数运算的硬件加速单元，支持 INT4 精度的矩阵乘法和累加运算。INT4 是一种 4 位整数格式，具有更低的存储需求和计算资源消耗。