NVIDIA Hopper 架构深入

在 2022 年 NVIDIA GTC 主题演讲中，NVIDIA 首席执行官黄仁勋介绍了基于全新 NVIDIA Hopper GPU 架构的全新 NVIDIA H100 Tensor Core GPU。

文章目录

前言
一、NVIDIA H100 Tensor Core GPU 简介
二、NVIDIA H100 GPU 主要功能概述
- 1. 新的流式多处理器（SM）具有许多性能和效率改进。
- - 主要新功能包括：
- 2. 新的 transformer 引擎结合使用软件和定制的 NVIDIA Hopper Tensor Core 技术，该技术专为加速 transformer 模型训练和推理而设计。
- 3. HBM3 内存子系统的带宽比上一代增加了近 2 倍。
- 4. 50 MB L2 缓存架构可缓存大部分模型和数据集以供重复访问，从而减少对 HBM3 的迁移。
- 5. 与 A100 相比，第二代多实例 GPU （MIG）技术为每个 GPU 实例提供大约 3 倍的计算容量和近 2 倍的内存带宽。
- 6. 新的机密计算支持可保护用户数据，抵御硬件和软件攻击，并在虚拟化和 MIG 环境中更好地隔离和保护虚拟机（VM）。
- 7. 与上一代 NVLink 相比，第四代 NVIDIA NVLink 的全缩减操作带宽增加了 3 倍，一般带宽增加了 50%，总带宽为 900 GB/秒，适用于以 PCIe Gen 7 带宽运行的多 GPU IO。
- 8. 第三代 NVSwitch 技术包括驻留在节点内部和外部的交换机，用于连接服务器、集群和数据中心环境中的多个 GPU。
- 9. 新的 NVLink 交换机系统互连技术和基于第三代 NVSwitch 技术的新型二级 NVLink 交换机引入了地址空间隔离和保护，使多达 32 个节点或 256 个 GPU 能够通过 NVLink 以 2：1 锥形胖树拓扑进行连接。
- 10. PCIe Gen 5 提供 128 GB/秒的总带宽（每个方向 64 GB/秒），而第 4 代 PCIe 的总带宽为 64 GB/秒（每个方向 32 GB/秒）。
三、NVIDIA H100 GPU 架构深入
- 1. 基于全新 NVIDIA Hopper GPU 架构的 NVIDIA H100 GPU 具有多项创新：
- 2. 许多其他新的架构功能使许多应用程序能够实现高达 3 倍的性能提升。
- 3. NVIDIA H100 是第一款真正的异步 GPU。
- 4. 现在只需要少量的 CUDA 线程就可以使用新的 Tensor Memory Accelerator 来管理 H100 的全部内存带宽，而大多数其他 CUDA 线程可以专注于通用计算，例如新一代 Tensor Core 的预处理和后处理数据。
- 5. H100 通过一个称为线程块集群的新级别来扩展 CUDA 线程组层次结构。
- 6. 编排越来越多的片上加速器和各种通用线程组需要同步。
- 7. NVIDIA 异步事务屏障使集群内的通用 CUDA 线程和片上加速器能够高效同步，即使它们位于不同的 SM 上。
- 8. 为 H100 GPU 提供动力的完整 GH100 GPU 采用为 NVIDIA 定制的台积电 4N 工艺制造，具有 800 亿个晶体管、814 mm2 的芯片尺寸和更高频率的设计。
- 9. NVIDIA GH100 GPU 由多个 GPU 处理集群（GPC）、纹理处理集群（TPC）、流式多处理器（SM）、L2 缓存和 HBM3 内存控制器组成。
- 10. GH100 GPU 的完整实施包括以下单元：
- 11. 采用 SXM5 板型的 NVIDIA H100 GPU 包括以下单元：
- 12. 采用 PCIe Gen 5 主板外形的 NVIDIA H100 GPU 包括以下单元：
- 13. 与基于台积电 7nm N7 工艺的上一代 GA100 GPU 相比，使用台积电 4N 制造工艺使 H100 能够提高 GPU 内核频率，提高每瓦性能，并包含更多的 GPC、TPC 和 SM。
四、H100 SM architecture H100 SM 架构
- 1. H100 SM 基于 NVIDIA A100 Tensor Core GPU SM 架构构建，由于引入了 FP8，H100 SM 的每 SM 浮点计算能力是 A100 峰值的四倍，并且在所有以前的 Tensor Core 、 FP32 和 FP64 数据类型上，A100 原始 SM 计算能力是时钟对时钟的两倍。
- 2. 与上一代 A100 相比，新的 Transformer 引擎与 NVIDIA Hopper FP8 Tensor Core 相结合，在大型语言模型上提供高达 9 倍的 AI 训练速度和 30 倍的 AI 推理速度。
- 3. 新的 NVIDIA Hopper 第四代 Tensor Core、Tensor Memory Accelerator 以及许多其他新的 SM 和通用 H100 架构改进共同在许多其他情况下将 HPC 和 AI 性能提高了 3 倍。
五、H100 SM 主要功能摘要
- 1. 第四代 Tensor 核心：
- 2. 新的 DPX 指令将动态编程算法的速度比 A100 GPU 快 7 倍。
- 3. 与 A100 相比，IEEE FP64 和 FP32 的芯片到芯片处理速率提高了 3 倍，因为每个 SM 的时钟对时钟性能提高了 2 倍，此外还有额外的 SM 数量和更高的 H100 时钟。
- 4. 256 KB 的组合共享内存和 L1 数据缓存，比 A100 大 1.33 倍。
- 5. 新的异步执行功能包括一个新的 Tensor Memory Accelerator （TMA）单元，它可以在全局内存和共享内存之间高效传输大型数据块。
- 6. 新的线程块集群功能公开了跨多个 SM 的局部性控制。
- 7. 分布式共享内存支持跨多个 SM 共享内存模块的加载、存储和原子的直接 SM 到 SM 通信
六、H100 Tensor Core 架构
- 1.Tensor Core 是专门用于矩阵乘法和累加（MMA）数学运算的高性能计算核心，可为 AI 和 HPC 应用程序提供突破性的性能。
- 2. Tensor Core 首先在 NVIDIA V100 GPU 中引入，并在每一代新的 NVIDIA GPU 架构中进一步增强。
- 3. 与 A100 相比，H100 中新的第四代 Tensor Core 架构为每个 SM 提供两倍的原始密集和稀疏矩阵数学吞吐量（时钟对时钟），考虑到 H100 比 A100 更高的 GPU Boost 时钟，甚至更高。
七、NVIDIA Hopper FP8 数据格式
- 1. H100 GPU 增加了 FP8 Tensor Core，以加速 AI 训练和推理。
八、用于加速动态编程的新 DPX 指令
九、H100 计算性能摘要
十、H100 GPU 层次结构和异步改进
十一、Thread block clusters 线程块集群
十二、分布式共享内存
十三、Asynchronous execution 异步执行
十四、Tensor 内存加速器
十五、Tensor 内存加速器
十六、异步事务屏障
十七、H100 HBM 和 L2 高速缓存架构
十八、H100 HBM3 和 HBM2e DRAM 子系统
十九、H100 L2 cache H100 L2 缓存

在这里插入图片描述

前言

这篇文章将带您了解新的 H100 GPU ，并介绍 NVIDIA Hopper 架构 GPU 的重要新功能。

一、NVIDIA H100 Tensor Core GPU 简介

NVIDIA H100 Tensor Core GPU 是我们的第九代数据中心 GPU，旨在为大规模 AI 和 HPC 提供比上一代 NVIDIA A100 Tensor Core GPU 高一个数量级的性能飞跃。H100 继承了 A100 的主要设计重点，以改善 AI 和 HPC 工作负载的强大扩展，并显著提高架构效率。

在这里插入图片描述

对于当今主流的 AI 和 HPC 模型，具有 InfiniBand 互连功能的 H100 可提供高达 A100 30 倍的性能。新的 NVLink 交换机系统互连针对一些最大和最具挑战性的计算工作负载，这些工作负载需要跨多个 GPU 加速节点的模型并行性才能适应。这些工作负载又实现了一次代际性能飞跃，在某些情况下，性能再次是 H100 的三倍，使用 InfiniBand。

在这里插入图片描述

有绩效数据均为初步数据，基于当前预期，并可能会因配送商品而有所变化。A100 集群：HDR IB 网络。H100 群集：NDR IB 网络，其中指示了 NVLink 交换机系统。# GPU：气候建模 1K、LQCD 1K、基因组学 8、3D-FFT 256、MT-NLG 32（批次大小：1 秒时 A100 4 个、H100 60 个、A100 8 个和 H100 64 个 1.5 秒和 2 秒）、MRCNN 8（批次 32）、GPT-3 16B 512（批次 256）、DLRM 128（批次 64K）、GPT-3 16K（批次 512）、MoE 8K（批次 512，每个 GPU 一名专家）。H100 系统目前不提供 NVLink Switch System 技术，但将公布系统和可用性。

在 2022 年春季 GTC 大会上，我们发布了新的 NVIDIA Grace Hopper 超级芯片产品。NVIDIA Hopper H100 Tensor Core GPU 将为 NVIDIA Grace Hopper 超级芯片 CPU+GPU 架构提供支持，该架构专为 TB 级加速计算而构建，并在大型模型 AI 和 HPC 上提供 10 倍的性能提升。

NVIDIA Grace Hopper 超级芯片利用 Arm 架构的灵活性来创建专为加速计算而设计的 CPU 和服务器架构。H100 与具有超高速 NVIDIA 芯片到芯片互连的 NVIDIA Grace CPU 配对，可提供 900 GB/s 的总带宽，比 PCIe Gen5 快 7 倍。与当今最快的服务器相比，这种创新设计的聚合带宽提高了 30 倍，为使用 TB 级数据的应用程序提供了高达 10 倍的性能。

二、NVIDIA H100 GPU 主要功能概述

1. 新的流式多处理器（SM）具有许多性能和效率改进。

主要新功能包括：

与 A100 相比，新的第四代 Tensor Core 的芯片到芯片速度提高了 6 倍，包括每 SM 加速、额外的 SM 数量和更高的 H100 时钟。与上一代 16 位浮点选项相比，在每个 SM 的基础上，Tensor Core 在等效数据类型上提供的 MMA（矩阵乘法累加）计算速率是 A100 SM 的 2 倍，使用新 FP8 数据类型的 A100 的 4 倍。稀疏性功能利用深度学习网络中的细粒度结构化稀疏性，将标准 Tensor Core 运算的性能提高了一倍
与 A100 GPU 相比，新的 DPX 指令将动态编程算法的速度提高了 7 倍。两个示例包括用于基因组学处理的 Smith-Waterman 算法，以及用于通过动态仓库环境为机器人队列寻找最佳路线的 Floyd-Warshall 算法。
与 A100 相比，IEEE FP64 和 FP32 的芯片到芯片处理速率提高了 3 倍，因为每个 SM 的时钟对时钟性能提高了 2 倍，此外还有额外的 SM 数量和更高的 H100 时钟。
新的线程块群集功能支持以大于单个 SM 上单个线程块的粒度对位置进行编程控制。这通过向编程层次结构添加另一个级别来扩展 CUDA 编程模型，现在包括线程、线程块、线程块集群和网格。集群支持跨多个 SM 并发运行的多个线程块，以同步和协作获取和交换数据。
分布式共享内存允许跨多个 SM 共享内存模块的加载、存储和原子的直接 SM 到 SM 通信。
新的异步执行功能包括一个新的 Tensor Memory Accelerator （TMA）单元，该单元可以在全局内存和共享内存之间高效传输大块数据。TMA 还支持集群中线程块之间的异步复制。还有一个新的异步事务屏障，用于执行原子数据移动和同步。