显卡对比
型号 | A100 80GB SXM | A100 80GB PCIe | H100 80GB SXM | H100 80GB PCIe | H20 | H800 80GB SXM | H800 80GB PCIe |
---|---|---|---|---|---|---|---|
数据来源 | 链接 | 链接 | 链接 | 链接 | 链接 | 链接 | 链接 |
GPU架构 | Ampere | Ampere | Hopper | Hopper | Hopper | Hopper | Hopper |
显存容量 | 80GB HBM2e | 80GB HBM2e | 80GB | 94GB | 96GB | 80GB | 80GB |
显存带宽 | 1,935 GB/s | 2,039 GB/s | 3.35 TB/s | 3.9 TB/s | 4.0 TB/s | 3.35 TB/s | 2 TB/s |
NVLink | 600 GB/s | 600 GB/s | 900 GB/s | 600 GB/s | 900 GB/s | 400 GB/s | 400 GB/s |
PCIe | Gen4: 64 GB/s | Gen4: 64 GB/s | Gen5: 128GB/s | Gen5: 128GB/s | Gen5: 128GB/s | Gen5: 128GB/s | Gen5: 128GB/s |
FP64 (TFLOPS) | 9.7 | 9.7 | 34 | 30 | 1 | 1 | 0.8 |
FP64 Tensor Core (TFLOPS) | 19.5 | 19.5 | 67 | 60 | - | 1 | 0.8 |
FP32 (TFLOPS) | 19.5 | 19.5 | 67 | 60 | 44 | 67 | 51 |
TP32 Tensor Core (TFLOPS) | 312 | 156 | 989 | 835 | 74 | 989 | 756 |
BFLOAT16 Tensor Core (TFLOPS) | 624 | 312 | 1,979 | 1,671 | 148 | 1,979 | 1,513 |
FP16 Tensor Core (TFLOPS) | 624 | 312 | 1,979 | 1,671 | 148 | 1,979 | 1,513 |
FP8 Tensor Core (TFLOPS) | - | - | 3,958 | 3,341 | 296 | 3,958 | 3,026 |
INT8 Tensor Core (TOPS) | 1248 | 624 | 3,958 | 3,341 | 296 | 3,958 | 3,026 |
INT4 Tensor Core (TOPS) | - | - | - | - | - | - | - |
最大功耗 | 400W | 300W | 700W | 350-400W | 400W | 700W | 350- 400W |
服务器配置 | HGX支持4、8、16卡 DGX支持8卡 | 1-8卡 | HGX支持4、8卡 DGX支持8卡 | 1-8卡 | HGX支持8卡 DGX支持8卡 | 1-8卡 | |
价格 | 10w左右 | 10w左右 | 20w左右 | 20w左右 | 10万左右 | 20w左右 | 20w左右 |
名词解释
PCIe
在显卡配置中,PCIe一般指PCIe接口,是服务器实现IO扩展的关键,PCIe接口除了用于插PCIe的GPU卡外,也可以广泛用于Raid卡、网卡、HBA卡等。
不同版本PCIe接口的速度如下:
PCIe版本 | 传输速率 (GT/s) |
---|---|
PCIe 1.0 | 2.5 |
PCIe 2.0 | 5 |
PCIe 3.0 | 8 |
PCIe 4.0 | 16 |
PCIe 5.0 | 32 |
PCIe 6.0 | 64 |
PCIe版本的GPU, 发布的时候Nvidia是一张一张独立出售的。
SXM
SXM是专为GPU设计的高带宽接口,基于NVLink技术的互联方式,实现多个GPU直接互联。相较于PCIe接口,具备提供更高的带宽和更低的延迟,更好的稳定性和可靠性,常用于高性能计算和数据中心。
SXM版本的GPU 发布的时候Nvidia配置了标准的HGX平台, 相当于把8张或者4张GPU在HGX平台做成一个模块,按照模块出售。
NvLink和SXM其实说的都是一个东西,NvLink是从互联的角度说的, SXM是从板子上面接口的角度说的。
GPU架构
NVIDIA的GPU架构已经发展了多代,每一代架构都有其独特的特点和改进之处。
1.Tesla架构(第一代)
- 发布时间:2006年
- 主要特点:Tesla架构是NVIDIA的第一代GPU架构,主要用于科学计算和数据中心。它引入了CUDA核心,支持并行计算,奠定了NVIDIA在高性能计算领域的基础。
2.Fermi架构(第二代)
- 发布时间:2010年
- 主要特点:Fermi架构引入了L1和L2缓存,提高了内存访问效率。它还支持双精度浮点运算(FP64),提升了科学计算的精度和性能。Fermi架构的GPU包括Fermi GF100等型号。
3. Kepler架构(第三代)
- 发布时间:2012年
- 主要特点:Kepler架构在能效比方面有显著提升,采用了更高效的SIMD(Single Instruction Multiple Data)架构。它还引入了动态并行(Dynamic Parallelism)技术,允许GPU在执行过程中动态创建和管理线程。Kepler架构的GPU包括Kepler GK104等型号。
4. Maxwell架构(第四代)
- 发布时间:2014年
- 主要特点:Maxwell架构在能效比方面进一步优化,采用了更先进的制造工艺(如28nm)。它引入了新的内存压缩技术,提高了显存带宽和容量。Maxwell架构的GPU包括Maxwell GM204等型号。
5. Pascal架构(第五代)
- 发布时间:2016年
- 主要特点:Pascal架构引入了HBM2显存,提供了更高的显存带宽和更低的功耗。它还支持更广泛的精度计算(如FP16、FP32、FP64),在深度学习和高性能计算方面有显著提升。Pascal架构的GPU包括Pascal GP100等型号。
6. Volta架构(第六代)
- 发布时间:2017年
- 主要特点:Volta架构引入了Tensor Core,专门用于深度学习中的矩阵计算,显著提升了AI训练和推理的性能。它还支持HBM2显存和第二代NVLink技术,提供了更高的内存带宽和GPU间通信速度。Volta架构的GPU包括Tesla V100等型号。
7. Turing架构(第七代)
- 发布时间:2018年
- 主要特点:Turing架构引入了实时光线追踪(RT Core)和深度学习超采样(DLSS)技术,显著提升了图形渲染和AI性能。它还支持GDDR6显存,提供了更高的显存带宽。Turing架构的GPU包括GeForce RTX 20系列和Quadro RTX 6000等型号。
8. Ampere架构(第八代)
- 发布时间:2020年
- 主要特点:Ampere架构在计算能力、能效和深度学习性能方面有重大提升。它引入了第三代Tensor Core,支持更高效的混合精度运算,显著提升了AI训练和推理的性能。Ampere架构的GPU还包括更多的CUDA核心和更高的显存带宽,适用于大规模数据处理和机器学习任务。代表产品包括NVIDIA A100、GeForce RTX 30系列等。
9. Hopper架构(第九代)
- 发布时间:2022年
- 主要特点:Hopper架构采用了多芯片模块(MCM)设计,将多个小芯片通过高速互连技术整合在一起,提高了性能密度和良率。它引入了第四代Tensor Core,支持更广泛的数学运算精度(如FP64、TF32、FP16等),在AI性能方面实现了显著提升。Hopper架构还支持动态稀疏性,允许GPU在处理神经网络时跳过零值权重的计算,提高了效率和性能。代表产品包括NVIDIA H100、H800等。
显存类型
GDDR(Graphics Double Data Rate,图形双倍数据速率)
常见的显存类型,具有较高的带宽和较低的延迟,适用于大多数显卡,如NVIDIA的GeForce系列和AMD的Radeon系列显卡。
HBM
HBM显存是一种新型的高性能、高带宽显存。它的设计理念是通过堆叠多个内存芯片来实现高密度和高带宽。例如,HBM2 内存通过 1024 位的数据通道和 8 个堆叠层,能够提供高达 256GB/s 的带宽。HBM3 更进一步,通过增加堆叠层数和提高数据传输速率,达到每秒 819GB 的带宽。
类型 | 数据传输速率 (Gb/s) | 通道位宽 (bit) | 最大带宽 (GB/s) | 可堆叠层数 | 每堆容量 (GB) | 发布日期 |
---|---|---|---|---|---|---|
HBM 1 | 1.0 | 1024 | 128 | 4 | 1 | 2013 |
HBM 2 | 2.0 | 1024 | 256 | 8 | 8 | 2016 |
HBM 2E | 3.2 ~ 3.6 | 1024 | 410 ~ 460 | 4 ~ 8 | 16 | 2019 |
HBM 3 | 6.4 | 1024 | 819 | 8 ~ 12 | 24 | 2023 |
HBM 3E | 9.2 | 1024 | 1177 | 8 ~ 12 | 36 | 2024 |
HBM 4 | 6.4 | 2048 | 1536 | 16 | 64 | 2025(计划) |
显存带宽
显存带宽表示单位时间内显存能够传输的数据量。显存带宽越高,显卡处理图形数据的速度就越快。
相较于显存容量
- 显存容量决定了显卡能够处理多大的数据量,例如高分辨率纹理、复杂场景等。
- 显存带宽决定了显卡处理数据的速度,带宽越高,数据传输越快。
数据类型
以下是各种数据类型的详细解释:
FP64和FP64 Tensor Core
- FP64(Double Precision Floating-Point) :是一种 64 位(8 个字节)的浮点数格式,符合 IEEE 754 标准。其结构包括1位符号位、11位指数位和52位尾数位,能够表示非常大的数值范围(从大约 ± 2 − 1022 ±2^{-1022} ±2−1022到 ± ( 2 − 2 − 52 ) × 2 1023 ) ±(2-2^{-52})×2^{1023}) ±(2−2−52)×21023)和极小的数值范围(近似等于 ± 2 − 1074 ±2^{-1074} ±2−1074)。
- FP64 Tensor Core :是专门为处理 64 位浮点数设计的张量核心,可加速大规模矩阵运算。相比传统计算单元,它在进行 64 位矩阵乘法和加法时速度更快,更适用于高精度计算场景下的深度学习和神经网络训练。
FP32以及TP32 Tensor Core
- FP32(Single Precision Floating-Point) :是一种 32 位(4 个字节)的浮点数格式,同样符合 IEEE 754 标准。它包含1位符号位、8位指数位和23位尾数位,数值范围从大约 ± 1.18 × 1 0 − 38 ±1.18×10^{-38} ±1.18×10−38到 ± 3.4 × 1 0 38 ±3.4×10^{38} ±3.4×1038,精度约为 7 位有效数字。
- TP32 Tensor Core :张量核心的一种,主处理 32 位张量数据。相比 FP64 Tensor Core,它的功耗较低,运算效率更高,适用于大规模矩阵运算,加速 FP32 数据的深度学习训练和推理。例如,在多层神经网络前向传播和反向传播时,快速处理 FP32 矩阵乘法。
BFLOAT16 Tensor Core 与 FP16 Tensor Core
- BFLOAT16(Bfloat16)Tensor Core 是一种专为深度学习训练设计的硬件加速单元,支持 BFLOAT16 精度的矩阵乘法和累加运算。BFLOAT16 是一种 16 位浮点数格式,具有与 FP32 相同的指数位数(8 位),但尾数位数减少到 7 位。
- FP16 Tensor Core 是一种用于加速深度学习计算的硬件单元,支持 FP16(半精度浮点数)精度的矩阵乘法和累加运算。FP16 是一种 16 位浮点数格式,具有 5 位指数和 10 位尾数。
FP8 Tensor Core
FP8 Tensor Core 是一种用于低精度计算的硬件加速单元,支持 FP8 精度的矩阵乘法和累加运算。FP8 是一种 8 位浮点数格式,具有更小的存储需求和更低的计算资源消耗。
INT8 Tensor Core 和 INT4 Tensor Core
- INT8 Tensor Core 是一种用于整数运算的硬件加速单元,支持 INT8 精度的矩阵乘法和累加运算。INT8 是一种 8 位整数格式,常用于深度学习中的量化计算。
- INT4 Tensor Core 是一种用于更低精度整数运算的硬件加速单元,支持 INT4 精度的矩阵乘法和累加运算。INT4 是一种 4 位整数格式,具有更低的存储需求和计算资源消耗。