NVIDIA最新 Blackwell架构简介

NVIDIA Blackwell架构简介

在这里插入图片描述

在AI和大型语言模型(LLMs)迅速发展的领域中,追求实时性能和可扩展性至关重要。从医疗保健到汽车行业,组织正深入探索生成性AI和加速计算解决方案的领域。对生成性AI解决方案的需求激增,促使企业需要适应不断增长的模型规模和复杂性。

请进入NVIDIA Blackwell GPU架构,这是世界上最大GPU,专为处理数据中心规模的生成性AI工作流程而设计,其能效是前一代NVIDIA Hopper GPU的25倍。

本技术简报详细介绍了NVIDIA Blackwell的优势,包括下一代超级芯片Grace Blackwell GB200,以及下一代高性能HGX系统,NVIDIA HGX B200和HGX B100。

NVIDIA Blackwell GPU和超级芯片概览

大型语言模型(LLMs)需要巨大的计算能力才能实现实时性能。LLMs的计算需求也意味着更高的能源消耗,因为需要越来越多的内存、加速器和服务器来适应、训练和从这些模型中推断。旨在实时推理的组织必须应对这些挑战。

NVIDIA Blackwell架构和产品系列旨在满足不断增长的AI模型规模和参数的需求,提供了一长串新创新,包括新的第二代Transformer引擎。

NVIDIA Blackwell架构以David H. Blackwell的名字命名,他是一位了不起且鼓舞人心的美国数学家和统计学家,以Rao-Blackwell定理而闻名,并在概率论、博弈论、统计学和动态规划方面做出了许多贡献和进步。

有了NVIDIA Blackwell产品,每个企业都可以使用和部署最先进的LLMs,具有可负担的经济性,通过生成性AI的优势优化他们的业务。同时,NVIDIA Blackwell产品也使得生成性AI模型的下一个时代成为可能,支持具有实时性能的多万亿参数模型,这在没有Blackwell创新的情况下是无法实现的。
在这里插入图片描述

NVIDIA Blackwell架构创新

Blackwell架构为生成性AI和加速计算引入了突破性的进展。新的第二代Transformer引擎,以及更快更宽的NVIDIA NVLink互连,将数据中心推向了一个新的时代,与上一代架构相比,性能提高了数个数量级。

NVIDIA Confidential Computing技术的进一步进步提高了大规模实时生成性AI推理的安全性,而不会影响性能。NVIDIA Blackwell的新型压缩引擎结合Spark RAPIDS™库提供了无与伦比的数据库性能,推动数据分析应用。NVIDIA Blackwell的多项进步建立在加速计算技术的几代基础上,定义了生成性AI的下一个篇章,具有无与伦比的性能、效率和规模。

新型AI超级芯片

Blackwell架构使用了2080亿个晶体管,比NVIDIA Hopper GPU多2.5倍以上,并使用了专为NVIDIA定制的TSMC 4NP工艺,Blackwell是迄今为止建造的最大的GPU。NVIDIA Blackwell在单个芯片上实现了最高的计算能力,达到了20 petaFLOPS。

第二代Transformer引擎

Blackwell引入了新的第二代Transformer引擎。第二代Transformer引擎使用定制的Blackwell Tensor Core技术,结合TensorRT-LLM和Nemo Framework的创新,加速了LLMs和Mixture-of-Experts(MoE)模型的推理和训练。

高性能的保密计算和安全AI

生成性AI为企业带来了巨大的潜力。优化收入、提供商业洞察和帮助生成内容只是其中的一些好处。但是,对于需要在私人数据上训练它们、可能受到隐私法规约束或包含专有信息的企业来说,采用生成性AI可能会很困难。

NVIDIA Confidential Computing能力将可信执行环境(TEE)从CPU扩展到GPU。NVIDIA Blackwell上的保密计算旨在为LLMs和其他敏感数据提供最快、最安全、可验证(基于证据)的保护。

第五代NVLink和NVLink交换机

解锁E级计算和万亿参数AI模型的全部潜力取决于服务器集群中每个GPU之间迅速、无缝的通信需求。

压缩引擎

数据分析和数据库工作流程传统上依赖于CPU进行计算,速度慢且繁琐。加速的数据科学可以显著提高端到端分析的性能,加快价值生成和洞察力的生成时间,同时降低成本。数据库,包括Apache Spark,在处理、处理和分析大量数据以进行数据分析中发挥着关键作用。Blackwell的新型专用压缩引擎可以以高达800GB/s的速率解压缩数据,结合GB200中使用的一个GPU的8TB/s的HBM3e(高带宽内存)以及Grace CPU的高速NVLink-C2C(芯片到芯片)互连,加速了数据库查询的完整流程,为数据分析和数据科学提供了最高性能。支持最新的压缩格式,如Lz4、Snappy和Deflate,NVIDIA Blackwell的性能比CPU快18倍,比NVIDIA H100 Tensor Core GPU快6倍。

RAS引擎

Blackwell架构通过专用的可靠性、可用性和可维护性(RAs)引擎增加了智能弹性,以识别可能早期发生的故障,以最小化停机时间。NVIDIA的AI驱动的预测管理能力不断监控硬件和软件中的数千个数据点,以预测和拦截停机和效率低下的来源。这建立了智能弹性,节省了时间、能源和计算成本。

NVIDIA GB200超级芯片和GB200 NVL72

NVIDIA GB200 Grace Blackwell超级芯片通过NVIDIA NVLink@-C2C互连连接两个高性能的NVIDIA Blackwell Tensor Core GPU和一个NVIDIA Grace CPU,该互连为两个GPU提供了900 GB/s的双向带宽。

NVIDIA GB200 NVL72

NVIDIA GB200 NVL72集群在机架规模设计中连接了36个GB200超级芯片(36个Grace CPU和72个Blackwell GPU)。GB200 NVL72是一个液冷的、机架规模的72-GPU NVLink域,可以作为一个巨大的GPU来提供比前一代快30倍的实时万亿参数LLM推理。

下一代大型语言模型的实时推理

GB200 NVL72引入了尖端能力和第二代Transformer引擎,显著加速了LLM推理工作负载,使得资源密集型应用(如多万亿参数语言模型)的实时性能成为可能。GB200 NVL72与H100相比提供了30倍的速度提升,Tc0降低了25倍,能源使用量也降低了25倍,对于像GPT-MoE-1.8T这样的大型模型,使用相同数量的GPU(见图5)。这一进步是通过新一代Tensor Core实现的,它们引入了包括FP4在内的新精度。此外,GB200利用NVLink和液冷创建了一个单一的巨大的72-GPU机架,可以克服通信瓶颈。

AI训练性能的新水平

GB200包括一个更快的Transformer引擎,具有FP8精度,并与NVIDIA Hopper GPU相比,为像GPT-MoE-1.8T这样的大型语言模型提供了4倍更快的训练性能。这一性能提升提供了9倍的机架空间减少和3.5倍的Tc0和能源使用量减少。这一突破得到了第五代NVLink(它实现了1.8 TB/s的GPU到GPU互连和更大的72-GPU NVLink域)、InfiniBand网络和NVIDIA Magnum I/O软件的补充。这些共同确保了企业和广泛的GPU计算集群的有效可扩展性。

加速数据处理和基于物理的模拟

GB200以其紧密耦合的CPU和GPU,在数据处理和工程设计模拟的加速计算中带来了新的机会。

可持续计算

计算密度和计算能力正在推动从空气冷却向液冷的转变。在数据中心内外使用液体而不是空气有许多积极影响,包括每个机架更高的性能、减少冷却的水消耗,以及允许数据中心在更高的环境空气温度下运行,这进一步降低了能源消耗。

加速网络平台用于生成性AI

GB200 NVL72作为一个单一的、极其强大的计算单元,需要强大的网络来实现最佳应用性能。与NVIDIA Quantum-X800 InfiniBand、Spectrum-X800以太网和BlueField-3 DPU配合使用,GB200在大规模AI数据中心提供了前所未有的性能、效率和安全性。

NVIDIA Blackwell HGX

NVIDIA Blackwell HGX B200和HGX B100包括用于生成性AI、数据分析和高性能计算的同样突破性的进展,并扩展了HGX以包括Blackwell GPU。

Blackwell架构相比Hopper架构在多个方面实现了显著的技术提升,以下是一些关键的改进点:

  1. 晶体管数量和计算能力:Blackwell架构使用了2080亿个晶体管,这是Hopper GPU晶体管数量的2.5倍以上。Blackwell架构在单个芯片上实现了20 petaFLOPS的计算能力,这是迄今为止最高的。

  2. 第二代Transformer引擎:Blackwell引入了新的第二代Transformer引擎,使用定制的Blackwell Tensor Core技术和TensorRT-LLM以及Nemo Framework的创新,以加速大型语言模型(LLMs)和专家混合模型(MoE)的推理和训练。

  3. 新的精度格式:Blackwell Tensor Cores引入了新的精度格式,包括社区定义的微缩放格式,提供了高准确性和更大的吞吐量。Blackwell Transformer引擎利用先进的动态范围管理算法和称为微张量缩放的细粒度缩放技术,优化性能和准确性,并启用了FP4 AI。

  4. 压缩引擎:Blackwell架构包括一个专用的压缩引擎,可以以高达800GB/s的速率解压缩数据,与GB200中的8TB/s的HBM3e内存和Grace CPU的高速NVLink-C2C互连相结合,显著加速数据库查询。

  5. 第五代NVLink和NVLink交换机:Blackwell架构的NVLink性能是Hopper架构中第四代NVLink的两倍,每个方向的有效带宽达到50 GB/s。NVLink交换机ASIC和基于它的交换机使得可以扩展到576个GPU,以加速万亿参数和多万亿参数AI模型的性能。

  6. RAS引擎:Blackwell架构增加了一个专用的可靠性、可用性和可维护性(RAs)引擎,用于识别可能早期发生的故障,以最小化停机时间。NVIDIA的AI驱动的预测管理能力持续监控硬件和软件中的数千个数据点,预测并拦截停机和效率低下的来源。

  7. 能效:Blackwell架构在保持高性能的同时,提供了比Hopper架构更高的能效,为数据中心规模的生成性AI工作流程提供了高达25倍的能效提升。

  8. 保密计算:Blackwell架构引入了首个支持TEE-I/O的GPU,提供了最高性能的保密计算解决方案,同时保护AI知识产权,并安全地启用保密AI训练、推理和联邦学习。

这些技术提升使得Blackwell架构能够更好地处理和支持日益增长的AI模型规模和复杂性,特别是在实时性能和可扩展性方面,满足了当前和未来AI应用的需求。

Blackwell架构的第二代Transformer引擎通过以下方式提高了AI模型训练效率:

  1. 定制的Tensor Core技术:Blackwell架构的Tensor Core使用了专为大型语言模型(LLMs)和Mixture-of-Experts(MoE)模型设计的第二代技术。这些Tensor Core结合了TensorRT-LLM和Nemo Framework的创新,优化了模型的推理和训练过程。

  2. 新的精度格式:Blackwell的Tensor Core引入了新的精度格式,包括社区定义的微缩放格式,这些新精度提供了高准确性和更大的吞吐量。这种精度的引入使得模型可以在保持性能的同时,使用更少的计算资源进行训练。

  3. 微张量缩放技术:Blackwell Transformer引擎利用了先进的动态范围管理算法和微张量缩放技术,这是一种细粒度的性能和准确性优化方法。这种技术使得FP4 AI的性能翻倍,同时将参数带宽翻倍至HBM内存,并使得每个GPU能够处理的下一代模型大小翻倍。

  4. 专家并行技术:第二代Transformer引擎与Nemo Framework和Megatron-Core结合,使用了新的专家并行技术。这些技术与其他并行技术相结合,并利用第五代NVLink,为前所未有的模型性能提供了支持。降低精度格式为大规模训练打开了进一步加速的可能性。

  5. 量化和自定义内核:TensorRT-LLM中的创新,包括量化到4位精度,以及具有专家并行映射的自定义内核,使得当今的MoE模型能够实现实时推理,使用更少的硬件和能源,同时降低了成本。

通过这些技术的提升,Blackwell架构的第二代Transformer引擎使得企业能够使用和部署最先进的MoE模型,优化他们的业务,并利用生成性AI的好处。同时,它也为训练和实时推理超过10万亿参数的模型提供了支持,这在没有Blackwell架构的创新之前是无法实现的。

结论

生成性AI已经将计算提升到了一个新的时代,这个时代的特点是拥有10万亿或更多参数的AI模型的惊人能力。当AlexNet在2012年开启了AI热潮时,它使用了6000万个参数。短短十多年后,今天的复杂性已经超过了160,000倍。

这些新模型现在可以找到治疗癌症的方法,预测极端天气事件,自动化机器人进行工业检查,并在每个行业中解锁新的经济机会。然而,充分发挥它们全部潜力的旅程面临着挑战,尤其是模型训练所需的大量计算资源和时间。

新的极大规模LLMs结合实时推理的需求揭示了规模、部署和运营方面的更多挑战和复杂性。

NVIDIA Blackwell是一个千载难逢的平台,拥有有效训练和推断这些模型所需的力量和能效,并将成为生成性AI时代的基础。Blackwell架构将被部署到万亿美元市场中,并将实时使用这些新的巨型模型民主化。训练这些模型需要NVIDIA Blackwell的exaFLOPs计算能力。部署它们需要数十个Blackwell GPU作为一个单一的统一GPU工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/483545.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第二十八天|● 93.复原IP地址 ● 78.子集 ● 90.子集II (JS写法)

93 复原IP地址 题目链接/文章讲解:https://programmercarl.com/0093.%E5%A4%8D%E5%8E%9FIP%E5%9C%B0%E5%9D%80.html 视频讲解:https://www.bilibili.com/video/BV1XP4y1U73i/ 思路: /*** param {string} s* return {string[]}*/ var resto…

Java数据结构-顺序表

目录 1. 顺序表的相关概念1.1 线性表1.2 顺序表2. 功能实现2.1 整体框架2.2 乱七八糟的功能(bushi)2.2.1 判断容量是否满2.2.2 返回顺序表当前长度2.2.3 扩容2.2.4 清空整个顺序表 2.3 插入数据2.3.1 头插数据2.3.2 尾插数据2.3.3 指定位置插入 2.4 删除数据2.4.1 删除第一次出…

中国贸易金融跨行交易区块链平台CTFU、区块链福费廷交易平台BCFT、中国人民银行贸易金融区块链平台CTFP、银行函证区块链服务平台BPBC

中国人民银行贸易金融区块链平台CTFP介绍 贸易金融的发展概况及存在的问题 1.1 贸易金融的概况 贸易金融是指商业银行在贸易双方债权债务关系的基础上,为国内或跨国的商品和服务贸易提供的贯穿贸易活动整个价值链、全程全面性的综合金融服务。伴随全球化的进程&a…

基于java+springboot+vue实现的宿舍管理系统(文末源码+Lw+ppt)23-597

摘 要 随着信息时代的来临,过去的传统管理方式缺点逐渐暴露,对过去的传统管理方式的缺点进行分析,采取计算机方式构建宿舍管理系统。本文通过课题背景、课题目的及意义相关技术,提出了一种楼宇信息、宿舍信息、宿舍安排、缺勤信…

使用Python进行自动化测试Selenium与PyTest的结合【第150篇—自动化测试】

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 使用Python进行自动化测试:Selenium与PyTest的结合 在软件开发中,自…

数据结构:图的最短路径

目录 一、最短路径的基本概念 二、无权图单源最短路径 三、Dijkstra算法(正权图单源) 3.1、算法的基本步骤 3.2、算法的实现 3.3、习题思考 3.3.1、网络延迟时间 四、A*算法(正权图单源单目标点) 4.1、算法的基本概念 4…

web自动化--元素定位之xpath和css

元素定位 xpath绝对路径相对路径案例xpath策略(路径)案例xpath策略(层级、扩展)属性层级与属性层级与属性拓展层级与属性综合 csscss选择器(id、类、标签、属性)id选择器类选择器标签选择器属性选择器案例-…

黄衣老太怒骂,难阻年轻人的热情,苹果CEO库克笑开怀

苹果在中国最大的专卖店在上海静安开业,壮观的排队场景--特别的是排队的大多都是年轻人,凸显出国内消费者对苹果的热情,苹果CEO库克亲自在专门店门口迎客,还与消费者热情拥抱。 不过在苹果静安店开业的当天出现了一个插曲&#xf…

E3S独立出版 | 2024年第二届绿色建筑国际会议(ICoGB 2024)

会议简介 Brief Introduction 2024年第二届绿色建筑国际会议(ICoGB 2024) 会议时间:2024年5月22日-24日 召开地点:意大利米兰 大会官网:www.icogb.org ICoGB 2024由意大利米兰理工大学主办,西安交通大学,葡萄牙米尼奥大…

ubuntu20.04安装 ffmpeg 开发环境

参考:参考1 一些相关软件包,已打包整理好,如下 源码包 1、安装步骤 创建安装目录 sudo mkdir -p /usr/local/ffmpeg/lib 解压源码 tar -jxf ffmpeg-4.3.2.tar.bz2 到指定ffmpeg目录进行配置 cd ffmpeg-4.3.2/ 配置:会报错很多…

对BOM的理解,常见的BOM对象有哪些?(非常详细)

文章目录 一、是什么二、window三、location四、navigator五、screen六、history 一、是什么 BOM (Browser Object Model),浏览器对象模型,提供了独立于内容与浏览器窗口进行交互的对象 其作用就是跟浏览器做一些交互效果,比如如何进行页面的后退&…

C++ Thread 源码 观后 自我感悟 整理

Thread的主要数据成员为_Thr 里面存储的是线程句柄和线程ID 先看看赋值运算符的移动构造 最开始判断线程的ID是否不为0 _STD就是使用std的域 如果线程ID不为0,那么就抛出异常 这里_New_val使用了完美转发,交换_Val和_New_val的值 _Thr _STD exchange(_…

使用 chezmoi vscode, 管理你的 dotfiles

什么是 dotfiles In Unix-like operating systems, any file or folder that starts with a dot character (for example, /home/user/.config), commonly called a dot file or dotfile. 任何以 . 开头去命名的文件或者目录都可以称为 dotfile, 在 Unix-like 系统一般用的比较…

【生成式AI導論 2024】第5講:訓練不了人工智慧?你可以訓練你自己 (下) — 讓語言彼此合作,把一個人活成一個團隊 (開頭有芙莉蓮雷,慎入)

文章目录 视频简介 视频内容 视频简介 from: https://www.油管.com/watch?vinebiWdQW-4 1,849次观看 2024年3月24日 「把一個人活成一個團隊」是從羅振宇老師 2024 跨年演講聽來的: • AI会不会取代人?看看疾病诊断、挖掘机、美容院、solopreneur的案…

小目标检测篇 | YOLOv8改进之增加小目标检测层(四头检测机制)

前言:Hello大家好,我是小哥谈。小目标检测是计算机视觉领域中的一个研究方向,旨在从图像或视频中准确地检测和定位尺寸较小的目标物体。相比于常规目标检测任务,小目标检测更具挑战性,因为小目标通常具有低分辨率、低对比度和模糊等特点,容易被背景干扰或遮挡。为了解决小…

【IoT新星导航】物联网技术人的发展方向

目录 物联网的概念 下面是我对物联网两个方向的认识: 物联网硬件方向: 一般路线: C语言: 单片机: 嵌入式RTOS: 嵌入式Linux: 物联网软件方向: 一般路线: 编程语言的选…

【Linux】进程的进一步认识

目录 进程的创建 fork函数初步认识 fork函数的返回值 写时拷贝 操作系统怎么知道什么时候要写时拷贝的呢? fork的常规用法 fork调用失败的原因 进程终止 进程的退出场景 进程常见退出方法 正常终止(可以通过 echo $? 查看进程退出码&#xff…

Linux 常用命令 1

Tips:终端热键ctrl shift 放大终端窗口的字体 ctrl - 缩小终端窗口的字体 注意区分大小写 查阅命令帮助信息: 1)--help command –help(两个减号) 显示command命令的帮助信息 2)man man command 查阅command命令的使…

【动手学深度学习】深入浅出深度学习之PyTorch基础

目录 一、实验目的 二、实验准备 三、实验内容 1. 数据操作 2. 数据预处理 3. 线性代数 4. 微积分 5. 自动微分 四、实验心得 一、实验目的 (1)正确理解深度学习所需的数学知识; (2)学习一些关于数据的实用…

逆向爬虫技术的进阶应用与实战技巧

前言 在互联网的海洋中,数据是无价的财富。爬虫技术作为获取这些数据的重要手段,一直备受关注。然而,随着网站反爬虫机制的日益完善,简单的爬虫程序已经很难满足我们的需求。因此,掌握爬虫逆向技术,突破反爬…