Nvidia Blackwell架构深度剖析:深入了解RTX 50系列GPU的升级

在CES 2025上,英伟达推出了基于Blackwell架构的GeForce RTX 50系列显卡,包括RTX 5090、RTX 5080、RTX 5070 Ti和RTX 5070。一段时间以来,我们已经知晓了该架构的各种细节,其中许多此前还只是传闻。不过,英伟达近日在2025年国际消费电子展(CES)期间的媒体编辑日活动上,披露了更多关于核心功能的信息与细节。本文主要聚焦于Blackwell RTX 50系列GPU的架构变革。
在这里插入图片描述
英伟达并未对新架构的某些方面提供大量细节,但从宏观层面来看,与RTX 40系列Ada Lovelace架构相比,很多方面似乎变化不大。大多数升级和改进主要围绕AI和各种神经渲染技术——我们会在另一篇文章中对这些内容进行更深入的探讨。

下面这张PPT展示了Blackwell架构的目标:针对新的神经计算工作负载进行优化、减少内存占用、新增服务质量功能以及提升能源效率。这些听起来都很不错。不过,除了RTX 5090拥有显著更大的GPU核心(面积达744平方毫米,而RTX 4090为608平方毫米)之外,很多升级更像是渐进式的。
在这里插入图片描述
这并非意味着毫无变化。第四代光线追踪(RT)核心的光线与三角形相交速率是Ada架构的两倍,也是为Mega Geometry构建的。这有助于未来基于虚幻引擎5开发的游戏运行得更流畅。GPU着色器也针对神经着色器进行了增强,此外还有一些其他新特性。

Blackwell架构使英伟达GPU首次全面支持DisplayPort 2.1 UHBR20(80Gbps),突破DisplayPort 1.4a的限制。它们还将支持PCIe 5.0,成为首批实现这一转变的消费级GPU,不过我们还需观察这一支持是否覆盖所有Blackwell GPU,还是仅适用于RTX 5090。视频编码和解码功能也得到了增强,现在支持4:2:2视频流。

性能数据方面,若以“最高可达4000 AI TOPS(每秒数万亿次运算)”来计算,RTX 5090的实际运算能力为3400 TOPS(准确来说是3352)。进一步探究会发现,性能提升的很大一部分得益于原生FP4支持。因此,在同等条件下对比,RTX 5090的FP8运算能力为1676 TFLOPS,而RTX 4090为1321 TFLOPS FP8。这仅有27%的提升——增幅可观,但算不上巨大飞跃。
在这里插入图片描述
类似的性能提升比例在其他方面也有体现,比如FP32着色器计算。RTX 5090的FP32运算能力最高可达104.8 TFLOPS,而RTX 4090为82.6 TFLOPS。同样,这也是27%的性能提升。而RTX 4090相较于RTX 3090,GPU TFLOPS提升了惊人的132%。那才是令人兴奋的升级!

毫无疑问,RTX 5090会比RTX 4090更快、更出色,但它并不会完全超越上一代产品——至少在不考虑多帧生成(Multi Frame Generation)技术的情况下是这样。另外,RTX 5090的核心面积也大了22%,晶体管数量多了21%,它们都基于台积电4N工艺节点。

在架构方面,还有其他一些值得关注的变化。随着人工智能应用的增多以及此类工作负载对整数运算的需求,英伟达让Blackwell架构中的所有着色器核心都完全兼容FP32/INT32运算。在安培(Ampere,RTX 30系列)架构中,英伟达将FP32 CUDA核心数量翻倍,但其中一半仅支持FP32运算,另一半则可同时进行FP32和INT32运算——INT32常用于内存指针计算。Ada架构延续了这一设计,而现在Blackwell架构再次让所有CUDA核心保持一致,数量是图灵(Turing)架构的两倍。
在这里插入图片描述
英伟达还对着色器渲染管线进行了一些调整,以便更好地混合着色器和张量核心运算。英伟达将其归类为神经着色器,虽然其他RTX系列似乎仍能运行这些工作负载,但与Blackwell架构的GPU相比,速度会相对较慢。这部分得益于着色器执行重排序(SER,Shader Execution Reordering)技术的改进,在Blackwell架构上的运行速度是Ada架构的两倍。

Blackwell架构还带来了内存升级,从Ada架构的GDDR6和GDDR6X全面转向GDDR7。我们尚不清楚这是否适用于所有RTX 50系列GPU,但考虑到RTX 5070笔记本电脑GPU都配备了8GB GDDR7,我们推测这可能是全系列的配置。这是自2018年RTX 20系列首次引入GDDR6(时钟频率仅为14Gbps)以来,我们首次看到的图形内存全面升级。
在这里插入图片描述
大多数基于Blackwell架构的RTX 50系列GPU的GDDR7运行频率为28Gbps,是最初GDDR6芯片速度的两倍,但相比许多高端RTX 40系列GPU使用的21Gbps GDDR6X芯片,速度仅提升了33%。RTX 5080的GDDR7频率提升至30Gbps,几乎是RTX 2080 Super 15.5Gbps内存速度的两倍。

除了RTX 5090,其他型号的显存位宽没有变化。RTX 5090配备了512位的超大显存位宽和32GB GDDR7内存。未来的3GB GDDR6芯片为产品周期后期可能推出的48GB版本,或面向专业/数据中心、采用翻盖式设计且容量高达96GB的GPU留下了可能性,但英伟达短期内不会对此进行官方评论或发布相关消息。

RTX 5080仍然保持256位显存位宽和16GB显存容量,因此,尽管其带宽比RTX 4080 Super提升了30%,但显存容量保持不变。RTX 5070 Ti(与RTX 5070 Ti Super相比)和RTX 5070(与RTX 4070相比)也是如此,只是它们的带宽提升了33%——从21Gbps提升至28Gbps。

Blackwell架构的另一个新特性是AI管理处理器。(顺便提一下,英伟达完全没有提及光流加速器,即OFA,这是Ada架构引入的新特性,但现在可能已被停用,取而代之的是更强大的张量运算。)
在这里插入图片描述
随着人工智能工作负载日益复杂,以及更多人工智能模型可能同时运行的情况——想象一下,一款游戏同时进行图像放大、神经纹理处理、帧生成和AI非玩家角色运算——英伟达希望能更好地调度资源。AI管理处理器旨在实现这一目标,并且据说可以根据正在运行的工作负载类型以及需要优先完成的任务来进行调度。例如,为了先完成多帧生成(MFG,Multi Frame Generation),文本生成的大语言模型(LLM)运算可以稍微延迟。

Blackwell架构还改进了电源门控和能源管理,能够比前几代产品更快地进入和退出深度睡眠模式。

综上所述,英伟达的Blackwell架构虽没有带来翻天覆地的变革,但在诸多关键领域实现了稳步升级与创新。从硬件性能提升到功能特性优化,再到内存和架构设计的改进,Blackwell架构的RTX 50系列GPU为未来的图形处理和人工智能应用描绘了一幅充满潜力的蓝图。
在这里插入图片描述
值得关注的是,英伟达 RTX 5090 Founders Edition和 RTX 5080 Founders Edition将于 2025 年 1 月 30 日一同亮相,RTX 5070 Founders Edition以及 RTX 5070 Ti 也将于 2 月闪亮登场。各位小伙伴们,是不是已经迫不及待准备好钱包,坐等 RTX 50 系列显卡到手,开启全新的极致体验了呢?

想了解更多有关RTX 50系产品以及RTX 5090整机相关的信息,不管是技术问题还是应用规划,欢迎随时联系我们,期待能为您提供有价值的见解与支持。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/956783.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

面试--你的数据库中密码是如何存储的?

文章目录 三种分类使用 MD5 加密存储加盐存储Base64 编码:常见的对称加密算法常见的非对称加密算法https 传输加密 在开发中需要存储用户的密码,这个密码一定是加密存储的,如果是明文存储那么如果数据库被攻击了,密码就泄露了。 我们要对数据…

【24】Word:小郑-准考证❗

目录 题目 准考证.docx 邮件合并-指定考生生成准考证 Word.docx 表格内容居中表格整体相较于页面居中 考试时一定要做一问保存一问❗ 题目 准考证.docx 插入→表格→将文本转换成表格→✔制表符→确定选中第一列→单击右键→在第一列的右侧插入列→布局→合并单元格&#…

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测

WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测 目录 WOA-CNN-GRU-Attention、CNN-GRU-Attention、WOA-CNN-GRU、CNN-GRU四模型对比多变量时序预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 基于WOA-CNN-GRU-Attention、…

Spring Boot整合WebSocket

目录 ?引言 1.WebSocket 基础知识 ?1.1 什么是 WebSocket? ?1.2 WebSocket 的应用场景 ?2.Spring Boot WebSocket 整合步骤 2.1 创建 Spring Boot 项目 2.2 添加 Maven 依赖 2.3 配置 WebSocket 2.4 创建 WebSocket 控制器 2.5 创建前端页面 引言 在…

K8S 集群搭建和访问 Kubernetes 仪表板(Dashboard)

一、环境准备 服务器要求: 最小硬件配置:2核CPU、4G内存、30G硬盘。 服务器可以访问外网。 软件环境: 操作系统:Anolis OS 7.9 Docker:19.03.9版本 Kubernetes:v1.18.0版本 内核版本:5.4.203-…

2024:成长、创作与平衡的年度全景回顾

文章目录 1.前言2.突破自我:2024年个人成长与关键突破3.创作历程:从构想到落笔,2024年的文字旅程4.生活与学业的双重奏:如何平衡博客事业与个人生活5.每一步都是前行:2024年度的挑战与收获6.总结 1.前言 回首2024年&a…

计算机网络 (45)动态主机配置协议DHCP

前言 计算机网络中的动态主机配置协议(DHCP,Dynamic Host Configuration Protocol)是一种网络管理协议,主要用于自动分配IP地址和其他网络配置参数给连接到网络的设备。 一、基本概念 定义:DHCP是一种网络协议&#xf…

学习记录1

[SUCTF 2019]EasyWeb 直接给了源代码&#xff0c;分析一下 <?php function get_the_flag(){// webadmin will remove your upload file every 20 min!!!! $userdir "upload/tmp_".md5($_SERVER[REMOTE_ADDR]);if(!file_exists($userdir)){mkdir($userdir);}if…

git操作(Windows中GitHub)

使用git控制GitHub中的仓库版本&#xff0c;并在Windows桌面中创建与修改代码&#xff0c;与GitHub仓库进行同步。 创建自己的GitHub仓库 创建一个gen_code实验性仓库用来学习和验证git在Windows下的使用方法&#xff1a; gen_code仓库 注意&#xff0c;创建仓库时不要设置…

Redis的安装和使用--Windows系统

Redis下载地址&#xff1a; windows版本readis下载&#xff08;GitHub&#xff09;&#xff1a; https://github.com/tporadowski/redis/releases &#xff08;推荐使用&#xff09; https://github.com/MicrosoftArchive/redis/releases 官网下载&#xff08;无Windows版本…

【odbc】odbc连接kerberos认证的 hive和spark thriftserver

hive odbc驱动&#xff0c;以下两种都可以 教程&#xff1a;使用 ODBC 和 PowerShell 查询 Apache HiveHive ODBC Connector 2.8.0 for Cloudera Enterprise spark thriftserver本质就是披着hiveserver的外壳的spark server 完成kerberos认证: &#xff08;1&#xff09;可以…

AllData数据中台核心菜单十一:数据集成平台

&#x1f525;&#x1f525; AllData大数据产品是可定义数据中台&#xff0c;以数据平台为底座&#xff0c;以数据中台为桥梁&#xff0c;以机器学习平台为中层框架&#xff0c;以大模型应用为上游产品&#xff0c;提供全链路数字化解决方案。 ✨奥零数据科技官网&#xff1a;…

随遇随记篇

vue 函数 unref() 获取原始值 ref 定义的属性 需要 .value 才能拿到值&#xff0c;unref 直接返回原始值&#xff1b;若属性不是ref 定义的&#xff0c;也是直接返回原始值&#xff1b; /* description: 是否必填*/required?: boolean | Ref<boolean>.....let value …

Python操作Excel——openpyxl使用笔记(1)

0. 模块的安装 使用命令&#xff1a; pip install openpyxl 通过命令&#xff1a; pip show openpyxl 检查安装&#xff0c;当前使用的版本信息如下&#xff1a; 1. 文档的基本操作 1.1 创建&#xff0c;保存和关闭 几个简单的函数调用即可&#xff1a; import openpyx…

STM32之FreeRTOS开发介绍(十九)

STM32F407 系列文章 - freertos&#xff08;十九&#xff09; 目录 前言 一、简述 二、开源网址 三、原理及功能特性 1.原理 2.功能 3.特点 4.优缺点 四、参考书籍 五、实现方式 总结 前言 FreeRTOS是一个免费的、开源的实时操作系统&#xff0c;专为微控制器和嵌入…

《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》重印变更的彩插

禹晶、肖创柏、廖庆敏《数字图像处理&#xff08;面向新工科的电工电子信息基础课程系列教材&#xff09;》

【HarmonyOS NEXT】碰一碰开发分享

关键词&#xff1a;鸿蒙、碰一碰、systemShare、harmonyShare、Share Kit 华为分享新推出碰一碰分享&#xff0c;支持用户通过手机碰一碰发起跨端分享&#xff0c;可实现传输图片、共享wifi等。我们只需调用系统 api 传入所需参数拉起对应分享卡片模板即可&#xff0c;无需对 U…

I2S是什么通信协议?它如何传输音频数据?它和I2C是什么关系?

首先我们先明确一点&#xff0c;I2S和I2C没有什么关系&#xff0c;如果非要扯点共同点的话那就是它们都是由飞利浦制定的。 I2C我们用的比较多&#xff0c;我们用的大多数的传感器模块用的通信协议就是I2C&#xff0c;SPI&#xff0c;UART这些。 而I2S应用领域比较单一&#…

ubuntu20.04有亮度调节条但是调节时亮度不变

尝试了修改grub文件&#xff0c;没有作用&#xff0c;下载了brightness-controllor&#xff0c;问题解决了。 sudo add-apt-repository ppa:apandada1/brightness-controller sudo apt update sudo apt install brightness-controller 之后在应用软件中找到brightness-contro…

Windows FileZila Server共享电脑文件夹 映射21端口外网连接

我有这样一个使用场景&#xff0c;在外部网络环境下&#xff0c;通过手机便捷地读取存储在电脑上的视频文件。比如在外出旅行、出差&#xff0c;身边没有携带电脑&#xff0c;仅依靠手机设备&#xff0c;就能随时获取电脑里存储的各类视频&#xff0c;无论是学习资料视频、工作…