A100、H100、H800、H20等多种显卡配置对比

显卡对比

型号A100
80GB SXM
A100
80GB PCIe
H100
80GB SXM
H100
80GB PCIe
H20H800
80GB SXM
H800
80GB PCIe
数据来源链接链接链接链接链接链接链接
GPU架构AmpereAmpereHopperHopperHopperHopperHopper
显存容量80GB HBM2e80GB HBM2e80GB94GB96GB80GB80GB
显存带宽1,935 GB/s2,039 GB/s3.35

TB/s
3.9

TB/s
4.0

TB/s
3.35

TB/s
2

TB/s
NVLink600 GB/s600 GB/s900

GB/s
600

GB/s
900

GB/s
400

GB/s
400

GB/s
PCIeGen4: 64 GB/sGen4: 64 GB/sGen5: 128GB/sGen5: 128GB/sGen5: 128GB/sGen5: 128GB/sGen5: 128GB/s
FP64 (TFLOPS)9.79.73430110.8
FP64 Tensor Core (TFLOPS)19.519.56760-10.8
FP32 (TFLOPS)19.519.56760446751
TP32 Tensor Core (TFLOPS)31215698983574989756
BFLOAT16 Tensor Core (TFLOPS)6243121,9791,6711481,9791,513
FP16 Tensor Core (TFLOPS)6243121,9791,6711481,9791,513
FP8 Tensor Core (TFLOPS)--3,9583,3412963,9583,026
INT8 Tensor Core (TOPS)12486243,9583,3412963,9583,026
INT4 Tensor Core (TOPS)-------
最大功耗400W300W700W350-400W400W700W350-

400W
服务器配置HGX支持4、8、16卡

DGX支持8卡
1-8卡HGX支持4、8卡

DGX支持8卡
1-8卡HGX支持8卡

DGX支持8卡
1-8卡
价格10w左右10w左右20w左右20w左右10万左右20w左右20w左右

名词解释

PCIe

![[Pasted image 20250221182302.png]]
在显卡配置中,PCIe一般指PCIe接口,是服务器实现IO扩展的关键,PCIe接口除了用于插PCIe的GPU卡外,也可以广泛用于Raid卡、网卡、HBA卡等。

不同版本PCIe接口的速度如下:

PCIe版本传输速率 (GT/s)
PCIe 1.02.5
PCIe 2.05
PCIe 3.08
PCIe 4.016
PCIe 5.032
PCIe 6.064

PCIe版本的GPU, 发布的时候Nvidia是一张一张独立出售的。

SXM

SXM是专为GPU设计的高带宽接口,基于NVLink技术的互联方式,实现多个GPU直接互联。相较于PCIe接口,具备提供更高的带宽和更低的延迟,更好的稳定性和可靠性,常用于高性能计算和数据中心。

SXM版本的GPU 发布的时候Nvidia配置了标准的HGX平台, 相当于把8张或者4张GPU在HGX平台做成一个模块,按照模块出售。

NvLink和SXM其实说的都是一个东西,NvLink是从互联的角度说的, SXM是从板子上面接口的角度说的。

GPU架构

NVIDIA的GPU架构已经发展了多代,每一代架构都有其独特的特点和改进之处。

1.Tesla架构(第一代)

  • 发布时间:2006年
  • 主要特点:Tesla架构是NVIDIA的第一代GPU架构,主要用于科学计算和数据中心。它引入了CUDA核心,支持并行计算,奠定了NVIDIA在高性能计算领域的基础。

2.Fermi架构(第二代)

  • 发布时间:2010年
  • 主要特点:Fermi架构引入了L1和L2缓存,提高了内存访问效率。它还支持双精度浮点运算(FP64),提升了科学计算的精度和性能。Fermi架构的GPU包括Fermi GF100等型号。

3. Kepler架构(第三代)

  • 发布时间:2012年
  • 主要特点:Kepler架构在能效比方面有显著提升,采用了更高效的SIMD(Single Instruction Multiple Data)架构。它还引入了动态并行(Dynamic Parallelism)技术,允许GPU在执行过程中动态创建和管理线程。Kepler架构的GPU包括Kepler GK104等型号。

4. Maxwell架构(第四代)

  • 发布时间:2014年
  • 主要特点:Maxwell架构在能效比方面进一步优化,采用了更先进的制造工艺(如28nm)。它引入了新的内存压缩技术,提高了显存带宽和容量。Maxwell架构的GPU包括Maxwell GM204等型号。

5. Pascal架构(第五代)

  • 发布时间:2016年
  • 主要特点:Pascal架构引入了HBM2显存,提供了更高的显存带宽和更低的功耗。它还支持更广泛的精度计算(如FP16、FP32、FP64),在深度学习和高性能计算方面有显著提升。Pascal架构的GPU包括Pascal GP100等型号。

6. Volta架构(第六代)

  • 发布时间:2017年
  • 主要特点:Volta架构引入了Tensor Core,专门用于深度学习中的矩阵计算,显著提升了AI训练和推理的性能。它还支持HBM2显存和第二代NVLink技术,提供了更高的内存带宽和GPU间通信速度。Volta架构的GPU包括Tesla V100等型号。

7. Turing架构(第七代)

  • 发布时间:2018年
  • 主要特点:Turing架构引入了实时光线追踪(RT Core)和深度学习超采样(DLSS)技术,显著提升了图形渲染和AI性能。它还支持GDDR6显存,提供了更高的显存带宽。Turing架构的GPU包括GeForce RTX 20系列和Quadro RTX 6000等型号。

8. Ampere架构(第八代)

  • 发布时间:2020年
  • 主要特点:Ampere架构在计算能力、能效和深度学习性能方面有重大提升。它引入了第三代Tensor Core,支持更高效的混合精度运算,显著提升了AI训练和推理的性能。Ampere架构的GPU还包括更多的CUDA核心和更高的显存带宽,适用于大规模数据处理和机器学习任务。代表产品包括NVIDIA A100、GeForce RTX 30系列等。

9. Hopper架构(第九代)

  • 发布时间:2022年
  • 主要特点:Hopper架构采用了多芯片模块(MCM)设计,将多个小芯片通过高速互连技术整合在一起,提高了性能密度和良率。它引入了第四代Tensor Core,支持更广泛的数学运算精度(如FP64、TF32、FP16等),在AI性能方面实现了显著提升。Hopper架构还支持动态稀疏性,允许GPU在处理神经网络时跳过零值权重的计算,提高了效率和性能。代表产品包括NVIDIA H100、H800等。

显存类型

GDDR(Graphics Double Data Rate,图形双倍数据速率)

常见的显存类型,具有较高的带宽和较低的延迟,适用于大多数显卡,如NVIDIA的GeForce系列和AMD的Radeon系列显卡。

HBM

HBM显存是一种新型的高性能、高带宽显存。它的设计理念是通过堆叠多个内存芯片来实现高密度和高带宽。例如,HBM2 内存通过 1024 位的数据通道和 8 个堆叠层,能够提供高达 256GB/s 的带宽。HBM3 更进一步,通过增加堆叠层数和提高数据传输速率,达到每秒 819GB 的带宽。

类型数据传输速率 (Gb/s)通道位宽 (bit)最大带宽 (GB/s)可堆叠层数每堆容量 (GB)发布日期
HBM 11.01024128412013
HBM 22.01024256882016
HBM 2E3.2 ~ 3.61024410 ~ 4604 ~ 8162019
HBM 36.410248198 ~ 12242023
HBM 3E9.2102411778 ~ 12362024
HBM 46.42048153616642025(计划)

显存带宽

显存带宽表示单位时间内显存能够传输的数据量。显存带宽越高,显卡处理图形数据的速度就越快。
相较于显存容量

  • 显存容量决定了显卡能够处理多大的数据量,例如高分辨率纹理、复杂场景等。
  • 显存带宽决定了显卡处理数据的速度,带宽越高,数据传输越快。

数据类型

以下是各种数据类型的详细解释:

FP64和FP64 Tensor Core

  • FP64(Double Precision Floating-Point) :是一种 64 位(8 个字节)的浮点数格式,符合 IEEE 754 标准。其结构包括1位符号位、11位指数位和52位尾数位,能够表示非常大的数值范围(从大约 ± 2 − 1022 ±2^{-1022} ±21022 ± ( 2 − 2 − 52 ) × 2 1023 ) ±(2-2^{-52})×2^{1023}) ±2252×21023和极小的数值范围(近似等于 ± 2 − 1074 ±2^{-1074} ±21074)。
  • FP64 Tensor Core :是专门为处理 64 位浮点数设计的张量核心,可加速大规模矩阵运算。相比传统计算单元,它在进行 64 位矩阵乘法和加法时速度更快,更适用于高精度计算场景下的深度学习和神经网络训练。

FP32以及TP32 Tensor Core

  • FP32(Single Precision Floating-Point) :是一种 32 位(4 个字节)的浮点数格式,同样符合 IEEE 754 标准。它包含1位符号位、8位指数位和23位尾数位,数值范围从大约 ± 1.18 × 1 0 − 38 ±1.18×10^{-38} ±1.18×1038 ± 3.4 × 1 0 38 ±3.4×10^{38} ±3.4×1038,精度约为 7 位有效数字。
  • TP32 Tensor Core :张量核心的一种,主处理 32 位张量数据。相比 FP64 Tensor Core,它的功耗较低,运算效率更高,适用于大规模矩阵运算,加速 FP32 数据的深度学习训练和推理。例如,在多层神经网络前向传播和反向传播时,快速处理 FP32 矩阵乘法。

BFLOAT16 Tensor Core 与 FP16 Tensor Core

  • BFLOAT16(Bfloat16)Tensor Core 是一种专为深度学习训练设计的硬件加速单元,支持 BFLOAT16 精度的矩阵乘法和累加运算。BFLOAT16 是一种 16 位浮点数格式,具有与 FP32 相同的指数位数(8 位),但尾数位数减少到 7 位。
  • FP16 Tensor Core 是一种用于加速深度学习计算的硬件单元,支持 FP16(半精度浮点数)精度的矩阵乘法和累加运算。FP16 是一种 16 位浮点数格式,具有 5 位指数和 10 位尾数。

FP8 Tensor Core

FP8 Tensor Core 是一种用于低精度计算的硬件加速单元,支持 FP8 精度的矩阵乘法和累加运算。FP8 是一种 8 位浮点数格式,具有更小的存储需求和更低的计算资源消耗。

INT8 Tensor Core 和 INT4 Tensor Core

  • INT8 Tensor Core 是一种用于整数运算的硬件加速单元,支持 INT8 精度的矩阵乘法和累加运算。INT8 是一种 8 位整数格式,常用于深度学习中的量化计算。
  • INT4 Tensor Core 是一种用于更低精度整数运算的硬件加速单元,支持 INT4 精度的矩阵乘法和累加运算。INT4 是一种 4 位整数格式,具有更低的存储需求和计算资源消耗。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/975234.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

简讯:Rust 2024 edition and v1.85.0 已发布

详见 https://blog.rust-lang.org/2025/02/20/Rust-1.85.0.html 升级方法:rustup update stable

学工管理系统用户手册

学工管理系统是一种基于现代化信息技术的软件系统,旨在帮助学校、学院及教育机构全面管理学生的学习生活和个人发展。 1.系统简介 学工管理系统是一个综合性的学校管理平台,集成多个模块,包括学生信息管理、学生考勤管理、学生成绩管理、学生…

提效10倍:基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践

1. 业务背景 阿里妈妈品牌广告数据包括投放引擎、下发、曝光、点击等日志,面向运筹调控、算法特征、分析报表、诊断监控等应用场景,进行了品牌数仓能力建设。随着业务发展,基于Lambda架构的数仓开发模式,缺陷日益突出:…

tauri2实现监听记住窗口大小变化,重启回复之前的窗口大小

要想实现记住窗口大小的功能,整体逻辑就是要监听窗口大小变化,将窗口大小保存下来,重启之后,读取保存的大小,然后恢复。这里可以使用rust层实现,也可以在前端实现。我这里就纯rust层实现了。 监听窗口变化…

【好玩的工具和命令】 ASCII 艺术生成工具: figlet

figlet 是一款用于生成 ASCII 艺术文字的工具,支持多种字体样式。它能将输入的文本转换为由字符组成的大型字母图案,广泛应用于命令行环境下的标题展示或装饰。 核心功能 生成 ASCII 文字艺术:将普通文本转化为大号的、由字符构成的艺术字…

Golang 相关的github 开源项目

1. pan-light url: http://github.com/peterq/pan-lightstar: 12.1kfork: 2.5kwatch: 284 用Golang和Qt5编写的不限速版百度网盘。相比之前版本的百度网盘客户端,当前版本拥有更友好、便捷的图形界面,体量更轻,便于使用,只需下载…

[ComfyUI]Recraft贴图开源方案,实现服装印花自由

一、介绍 今天发现了一个简单又好用的插件,可以实现类似Recraft的贴图功能,这是一个作者开发的ComfyUI插件,叫做Comfyui-Transform 这个插件比我们简单的图像覆盖多了一些可控参数,形状、透明度、倾斜、拉升和混合模式等诸多可控…

C语言--正序、逆序输出为奇数的位。

题目&#xff1a; 采用正序和逆序分别输出为奇数的位。例如输入12345&#xff0c;正序输出135&#xff0c;逆序输出531 代码&#xff1a; #include <stdio.h>void printOddDigits(int num) {int res 0;int divider 10;while (num / divider > 10) {divider * 10;…

最新版IDEA下载安装教程

一、下载IDEA 点击前往官网下载 或者去网盘下载 点击前往百度网盘下载 点击前往夸克网盘下载 进去后点击IDEA 然后点击Download 选择自己电脑对应的系统 点击下载 等待下载即可 二、安装IDEA 下载好后双击应用程序 点击下一步 选择好安装目录后点击下一步 勾选这两项后点击…

Windows10系统本地部署Ollama_DeepSeek-R1实操手册

前言&#xff1a; 在当今人工智能飞速发展的时代&#xff0c;大语言模型的应用与探索不断拓展着科技边界。Ollama 作为一款开源且极具创新性的工具&#xff0c;为本地部署大语言模型开辟了便捷通道。它操作简便&#xff0c;极大降低了模型部署门槛&#xff0c;让开发者无需复杂…

netty基础知识梳理和总结

目录标题 由来netty整体结构核心功能可扩展的事件模型统一的通信 API零拷贝机制与字节缓冲区 传输服务协议支持 netty的IO模型netty核心组件ChannelEventLoop、EventLoopGroupChannelHandlerChannelPipelineBootstrapFuture netty的bytebufbytebuf的内部构造bytebuf的使用模式B…

Flutter_学习记录_各个屏幕的适配

用flutter的这个库&#xff0c;可以解决&#xff1a;https://pub.dev/packages/flutter_screenutil 使用方法&#xff1a; 在pubspec.yaml文件中&#xff0c;添加库&#xff0c;如下图&#xff1a; 在main.dart中导入头文件 import package:flutter_screenutil/flutter_scre…

关闭超时订单和七天自动确认收货+RabbitMQ规范

关闭超时订单 创建订单之后的一段时间内未完成支付而关闭订单的操作&#xff0c;该功能一般要求每笔订单的超时时间是一致的 TTL&#xff08;Time To Live&#xff09;存活时间&#xff0c;只能被设置为某个固定的值&#xff0c;不能更改&#xff0c;否则抛出异常 死信&#…

C/C++ | 每日一练 (2)

&#x1f4a2;欢迎来到张胤尘的技术站 &#x1f4a5;技术如江河&#xff0c;汇聚众志成。代码似星辰&#xff0c;照亮行征程。开源精神长&#xff0c;传承永不忘。携手共前行&#xff0c;未来更辉煌&#x1f4a5; 文章目录 C/C | 每日一练 (2)题目参考答案封装继承多态虚函数底…

13th Labour of Heracles CodeForces - 1466D

题目&#xff1a;题目链接 题目大意 题目描述 给定一棵树&#xff0c;它的每个点都有对应的权值。 定义颜色x的同色子图为图中所有颜色为x的边&#xff0c;及其顶点形成的同色子图。 一个同色连通块的权值为该连通块所包含的点的权值的和。 一个同色子图的权值定义为子图内…

在多项目并行时,若遇到项目冲突的情况应该如何处理

在项目管理中&#xff0c;尤其是在多项目并行的情况下&#xff0c;项目冲突是一个不可避免的问题。当多个项目同时进行时&#xff0c;由于资源有限、时间紧张或优先级不清晰&#xff0c;常常会发生资源冲突、进度冲突、需求冲突等问题。解决项目冲突的关键在于有效的沟通、优先…

Linux 驱动入门(5)—— DHT11(温湿度传感器)驱动

文章目录 一、编译替换内核和设备树二、DHT11 温湿度传感器1. DHT11 简介2. 数据格式3. 编程思路 三、驱动代码1. GPIO 实现1.1 驱动层代码1.2 应用层代码 2. 设备树实现2.1 修改设备树2.2 驱动层代码2.3 应用层代码 3. 上机测试 一、编译替换内核和设备树 在编译驱动程序之前…

Docker仿真宇树狗GO1

1. 启动容器 docker run -it --rm humble_suo bash2. 安装Go1 的仿真包 apt update apt install -y git cmake build-essential git clone https://github.com/unitreerobotics/unitree_ros.git cd unitree_ros colcon build source install/setup.bash3. 启动仿真环境 ros2…

网页制作06-html,css,javascript初认识のhtml如何建立超链接

超链接有外部链接、电子邮件链接、锚点链接、空链接、脚本链接 一、内部链接 与自身网站页面有关的链接被称为内部链接 1、创建内部链接 1&#xff09;语法&#xff1a; <a href"链接地址"> …… </a> 2&#xff09;举例应用&#xff1a; 3&#xf…

brew Nushell mac升级版本

运行命令&#xff1a; brew upgrade nushell 国内更新比较慢建议架个梯子。 如果没有更新则先更新一下brew brew update 更新后看下版本是否死最新的了