聊聊 GPU 产品选型那些事

随着人工智能的飞速崛起,随之而来的是算力需求的指数级增加,CPU 已经不足以满足深度学习、大模型计算等场景的海量数据处理需求。GPU 作为一种强大的计算工具,无论是高性能计算、图形渲染还是机器学习领域,在各个领域展现出了巨大的潜力和应用前景。

说起 GPU,绕不过的当然是 NVIDIA 这个公司了,现在市面上火热的 A100/A800、H100 等 GPU 全是他家的产品。但当你有业务需求或者个人需求,想要采购 GPU 的时候,你会发现各个型号的 GPU 令你眼花缭乱。这次我们就来聊聊 NVIDIA 的 GPU 产品,让你对各个型号的 GPU 有个深入的了解。

GPU 应用场景

在选择 GPU 产品之前,首要任务是明确自己的应用需求。不同的应用领域对 GPU 的需求存在差异,因此了解自己的需求是做出明智决策的关键。接下来我们了解下常见的 GPU 应用场景。

游戏和图形渲染

我把游戏和图形渲染这个应用场景放在了第一位,并不是说它是 GPU 最常用的应用场景,而是很多小伙伴在学生时代就已经接触了“显卡”。GPU 不等于显卡,它是显卡的核心,就像 CPU 是主板上的一块芯片。GPU 刚被发明出来的初衷是用于图形渲染,这从它的名字 Graphic Processing Unit(图形处理单元)就可以看出来。

在游戏和图形渲染中,GPU 能够处理复杂的图形渲染任务,使游戏画面更加逼真和流畅。游戏开发人员使用 GPU 来创建游戏的视觉效果、光照和物理模拟等。NVIDIA 产品的 GeForce 系列,主要就是面向游戏娱乐领域,我们常说的 RTX4090 (文末有免费体验入口哦) ,其中在框架中采用了第三代 RT core,光线追踪性能最高可提升 2 倍,主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。当然,GeForce 系列的显卡也可以用于 AI 推理等,只是在计算能力上没有像企业级 GPU 那么强悍。

大模型计算

大模型训练通常涉及处理海量数据和复杂的计算任务,例如深度神经网络的训练。大模型通常需要大量的显存来存储模型参数、梯度和中间计算结果。较大的显存容量可以提供更高的批处理大小和更复杂的模型结构,有助于提升模型的性能和准确度。同时,大模型训练需要进行大量的矩阵计算、张量操作和梯度更新等复杂的计算任务。GPU具备强大的计算能力和优化的张量计算指令集,能够加速大规模模型的训练过程,减少训练时间。

通常而言,大模型训练会将训练数据分成多个批次,分配给不同的 GPU 进行并行处理,这就需要 GPU 具备高效的并行计算能力和快速的数据传输能力,以支持并行训练的效率和可扩展性。而在计算精度方面,通常会使用混合精度计算,即采用较低精度的浮点数进行计算,在关键位置使用较高精度的浮点数进行修正。这也是大模型计算和高性能计算区别较大的地方。

AI推理

AI 推理是指在已经训练好的模型上进行实时推断和预测,通常要求在较短的时间内处理大量的数据,例如实时图像识别和语音识别。GPU 具备较低的计算延迟和高吞吐量,能够迅速处理输入数据并输出推理结果,满足实时性要求、AI 推理任务主要涉及张量计算,包括矩阵乘法、卷积操作等。NVIDIA 在 Volta 架构及其后续架构(如 Ampere 架构)中引入了 Tensor Core,专门用于深度学习任务重的张量计算,如矩阵乘法和卷积运算。Tensor Core 核心特别大,通常与深度学习框架(如 TensorFlow 和 PyTorch)相结合使用,它可以把整个矩阵都载入寄存器中批量运算,实现十几倍的效率提升。此外,AI 推理对于功耗和散热也有一定要求。

高性能计算

高性能计算涉及科学计算、数值模拟、天气预报等需要大规模并行计算的领域。在这种场景下,GPU 需要具备大量的 CUDA 核心和高内存带宽,以实现高效的并行计算。此外,高性能计算还需要 GPU 具备良好的双精度浮点性能和高速的数据传输能力,以应对复杂的计算任务。

GPU系列及参数解读

NVIDIA GPU系列

在了解了 GPU 基本的应用场景后,我们来看下 NVIDIA 的显卡主要有哪些?NVIDIA 三大主要产品线包括:

  1. GeForce系列:GeForce 系列是 NVIDIA 面向个人计算和游戏市场推出的产品线。GeForce 显卡是用于游戏、图形处理和多媒体应用的高性能图形处理器。GeForce 显卡以其强大的图形渲染能力、高帧率和流畅的游戏体验而受到广大游戏爱好者的青睐。
  2. Quadro 系列:Quadro 系列是 NVIDIA 专为专业工作站和专业图形应用开发的产品线。Quadro 显卡具备专业级的图形渲染和计算能力,适用于 CAD、动画制作、电影后期制作等领域。Quadro 显卡提供高度可靠性、精确度和稳定性,满足专业用户对精确图形处理和计算的需求。
  3. Tesla 系列:Tesla 系列是 NVIDIA 针对高性能计算和人工智能领域推出的产品线。Tesla 显卡采用 GPU 加速计算,具备强大的并行计算能力和高性能计算效率。它们被广泛应用于科学计算、深度学习、大规模数据分析等领域,加速计算任务的执行和模型训练。我们常说的 A100、V100 都是属于 Tesla 系列的显卡。

GPU参数解读

我们结合下面这个表格,来看看 GPU 选型时需要关注哪些参数。

计算能力

计算能力是 GPU 进行并行计算的指标之一,也是 GPU 的核心能力。较高的计算能力意味着 GPU 具备更强大的计算能力和支持更高级的计算功能。具体这些计算参数有什么区别,在应用上有哪些不同呢?我们来一一了解下。

  • FP64:双精度浮点数具有较高的精度和范围,可以表示更广泛的数值范围和更精确的小数值。在科学计算、工程模拟和需要高精度计算的应用中常常使用双精度浮点数。
  • FP32 : 单精度,作为训练场景的数据格式的标准值。相对于双精度浮点数,单精度浮点数具有较低的精度但更高的计算速度和较小的存储需求。在许多机器学习和深度学习任务中,单精度浮点数已经足够满足计算需求,并且能够加速计算过程。
  • TF32:从 A100 开始 NVIDIA 提出的数据格式。它比 FP32 精度低,比 FP16 精度高,主要用于深度学习训练,理论上比FP32+FP16混合精度效果更优;
  • BF16 : Intel x86、ARM采用的,主要用于机器学习和深度学习领域。作为一种低精度浮点数格式,可以在一定程度上平衡计算精度和计算效率。它在模型训练和推理中被广泛使用,可以减少存储需求和计算开销,同时仍能保持较高的计算准确性。
  • FP16:半精度浮点数具有较低的精度但更高的计算速度和较小的存储需求,主要用于推理。
  • INT8:INT8是一种使用 8 位(1字节)内存来表示整数的数据类型。相对于浮点数,整数计算通常具有更高的计算效率和较小的存储需求,主要用于推理。

可能光这样看文字,大家不是很好理解,我们拿 FP32 来做个具体的举例。

FP32 长度有 32 位,其中指数位占 8 位,精度尾数占 23 位,最前面是标志位。指数位越大,代表数值越大,精度的长度越多,表示小数点后的精度越高。

显存容量(GPU Memory)

显存是 GPU 用于存储模型参数、计算中间结果和图像数据等的内存。显存容量的大小直接影响着能否加载和处理大规模的数据和模型。

CUDA Core

CUDA Core 是 NVIDIA GPU 上的计算核心单元,用于执行通用的并行计算任务,是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件,我们所说的 CUDA Core 数量,通常对应的是 FP32 计算单元的数量。

Tensor core

Tensor Core 是 NVIDIA Volta 架构及其后续架构(如Ampere架构)中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算,如矩阵乘法和卷积运算。Tensor Core 核心特别大,通常与深度学习框架(如 TensorFlow 和 PyTorch)相结合使用,它可以把整个矩阵都载入寄存器中批量运算,实现十几倍的效率提升。

接口形式

SXM 和 PCIe 是两种不同的接口形式,SXM 接口直接将 GPU 连接到主板上,而 PCIe 接口通过插槽与主板连接。SXM 接口提供更高的带宽和更低的延迟,适用于高性能计算和数据中心需求。而 PCIe 接口广泛应用于个人计算机、工作站和服务器等各种计算设备。

如何选择适合业务的GPU

A100、V100、H100对比

V100 是 NVIDIA 公司推出的高性能计算和人工智能加速器,属于 Volta 架构,它采用 12nm FinFET 工艺,拥有 5120 个 CUDA 核心和 16GB-32GB 的 HBM2 显存,配备第一代 Tensor Cores技术,支持 AI 运算。

A100 采用全新的 Ampere 架构。它拥有高达 6912 个 CUDA 核心和 40GB 的高速 HBM2 显存。A100 还支持第二代NVLink技术,实现快速的 GPU 到 GPU 通信,提升大型模型的训练速度。A100 增加了功能强大的新第三代 Tensor Core,同时增加了对 DL 和 HPC 数据类型的全面支持,以及新的稀疏功能,可将吞吐量进一步翻倍。

在跑 AI 模型时,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的训练上性能提升 6 倍,BERT 推断时性能提升 7 倍。

H100 配备 132 个 SM,比 A100 的 108 个 SM 增加了 22%。由于采用新的第四代 Tensor Core,每个 H100 SM 的速度都提升了 2 倍。在每个 Tensor Core 中,新的 FP8 格式和相应的 Transformer 引擎又将性能提升了 2 倍。最后,H100 中更高的时钟频率将性能再提升了约 1.3 倍。通过这些改进,总体而言,H100 的峰值计算吞吐量大约为 A100 的 6 倍。

Tssla A系列简单对比

当然,A100、H100 无论是在推理还是大模型训练中的性能都非常突出,但是价格也相对比较高。我也找了些资料展示下 Tesla A 系列(A10、A16、A30、A40、A100)在业务能力和在大模型训练和推理上性能的对比,这里就不再赘述了。

△ 图片来源于互联网,侵删

相信看到这里,大家对 GPU 产品选型已经有了一定的想法。在选择时,大家可以参考 GPU 制造商的官方文档、性能比较表等资源,以获取更详细的信息和比较不同 GPU 之间的性能特点。当然最重要的是要明确自身业务的计算需求和任务类型啦。

又拍云近期联合厚德云推出 GPU 产品,现活动期间新用户注册即可免费体验 RTX4090 GPU,暂不限体验时长哦! 有兴趣的同学点击下方链接即可体验~

传送门:RTX4090 0元体验入口

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/121661.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JS将一个不止深度的对象转换成树结构

JS将一个不止深度的对象转换成树结构 示例数据 {"CODE": 200,"MSG": "SUCCESS","ENT_INFO": {"BREAKLAW": [],"ORGDETAIL": {},"YEARREPORTBASIC": [{"ANCHEYEAR": "2013","…

【紫光同创国产FPGA教程】——PDS安装教程

本原创教程由深圳市小眼睛科技有限公司创作,版权归本公司所有,如需转载,需授权并注明出处 一:软件简介 PangoDesign Suite是紫光同创基于多年FPGA开发软件技术攻关与工程实践经验而研发的一款拥有国产自主知识产权的大规模FPGA开…

京东数据分析:2023年10月京东洗衣机行业品牌销售排行榜

鲸参谋监测的京东平台10月份洗衣机市场销售数据已出炉! 10月份,洗衣机市场整体销售呈上升走势。鲸参谋数据显示,今年10月,京东平台洗衣机市场的销量为143万,环比增长约23%,同比增长约1%;销售额约…

【CSS】transition、transform以及animation

1.CSS transition 介绍 通常当 CSS 的属性值更改后,浏览器会立即更新相应的样式。 在 CSS3 中加入了一项过渡功能,通过该功能,我们可以将元素从一种样式在指定时间内平滑的过渡到另一种样式,类似于简单的动画,但无需…

Web前端—CSEO、Favicon、小兔鲜儿电商网站顶部设计

版本说明 当前版本号[20231108]。 版本修改说明20231108初版 目录 文章目录 版本说明目录电商平台网站顶部设计项目目录准备工作SEO 三大标签Favicon 图标布局网页版心快捷导航(shortcut)头部(header)logo导航搜索购物车 电商平…

vue使用Echarts5实现词云图

先上官网 词云图有些特殊,它属于Echarts 的扩展,需要额外安装Echarts-wordcloud包。 Echarts 官网 Echarts-wordcloud 词云图官网 先安装 npm install echarts npm install echarts-wordcloud再引入 echarts选一个引入就行;4或5版本都可以 …

【带头学C++】----- 三、指针章 ---- 3.11 补充重要指针知识(二,拓展基础知识)

1.指针与函数 1.1指针变量作为函数的参数 如果想在函数内部修改外部变量的值,可以将外部变量的地址传递给函数。 在C/C中,函数的参数传递方式有值传递(传递变量的副本)和引用传递(传递变量的地址)。如果希…

2023 ChinaJoy后,Flat Ads成为游戏、社交出海的新选择

今年ChinaJoy 展会,共吸引了来自世界各地的 500 多家企业参展,预计吸引超过33万人次参观。ChinaJoy年年有,那今年对于行业来说有什么新变化呢? 01 出海热潮不减,新增客户明显提升 据不完全统计,展会期间前…

腾讯待办是不是停了?怎么用其它提醒软件查看导出的ics文件

腾讯待办是腾讯企业旗下的业务产品,其主要以微信小程序的形式使用,定位于待办事项和日程管理工具,支持罗列日程待办清单、设定定时提醒,帮助大家规划日常事务和进行时间管理,成功创建待办事项后可在对应的公众号和绑定…

python自动化测试(4)-使用第三方python库技术实现

1 概述 关于测试的方法论,都是建立在之前的文章里面提到的观点: 功能测试不建议做自动化接口测试性价比最高接口测试可以做自动化做好接口自动化,一定要有透过界面看到数据本质的能力 后面所谈到的 测试自动化 也将围绕着 接口自动化 来…

〔001〕虚幻 UE5 安装教程

✨ 目录 ▷ 下载启动程序▷ 注册个人账户▷ 选择引擎版本▷ 选择安装选项▷ 虚幻商城的使用▷ 每月免费插件▷ 安装插件▷ 下载启动程序 下载地址:https://www.unrealengine.com/zh-CN/download点击上面地址,下载 UE5 启动程序并安装▷ 注册个人账户 打开商城启动程序,登录个…

浅谈数据中心机房末端配电技术与产品监控选型-安科瑞黄安南

摘要 数据中心机房末端配电的可靠性、稳定性和可维护性直接关系到IT设备的安全供电。数据中心的末端配电技术主要有两种,一种采用列头柜加电缆配电,另一种是智能小母线配电。分别对两种配电技术进行了介绍和探讨,最后对两种配电方式进行了对…

Flink的API分层、架构与组件原理、并行度、任务执行计划

Flink的API分层 Apache Flink的API分为四个层次,每个层次都提供不同的抽象和功能,以满足不同场景下的数据处理需求。下面是这四个层次的具体介绍: CEP API:Flink API 最底层的抽象为有状态实时流处理。其抽象实现是Process Functi…

FreeRTOS学习笔记——SysTick中断

FreeRTOS学习笔记——SysTick中断_freertos tick中断-CSDN博客 FreeRTOS 之六 任务调度原理解析(Systick、PendSV、SVC)_freertos m0-CSDN博客 FreeRTOS中关于时间的管理分为两部分:一部分是任务的延时管理;前面叙述过一些,还有…

常见面试题-MySQL专栏(三)MVCC、BufferPool

typora-copy-images-to: imgs 了解 MVCC 吗? 答: MVCC(Multi-Version Concurrency Control) 是用来保证 MySQL 的事务隔离性的,对一行数据的读和写两个操作默认是不会通过加锁互斥来保证隔离性,避免了频…

React中组件之间如何通信?

一、是什么 我们将组件间通信可以拆分为两个词: 组件通信 回顾Vue系列的文章,组件是vue中最强大的功能之一,同样组件化是React的核心思想 相比vue,React的组件更加灵活和多样,按照不同的方式可以分成很多类型的组件…

OpenHarmony,奏响中国基础软件的“光辉岁月”

梦想需要多久的时间,多少血和泪,才能慢慢实现? 天地间任我展翅高飞,谁说那是天真的预言? 《光辉岁月》歌词中的这两个问题,恰好可以送给今天的中国基础软件事业。 曾几何时,我们认为中国基础软件…

AI智能雷达名片平台版小程序源码系统 带完整的搭建教程

大家好啊,今天源码小编来给大家分享一款AI智能雷达名片平台版小程序源码系统。人工智能技术的不断发展和普及,越来越多的企业开始应用AI技术来提高业务效率和提升用户体验。AI智能雷达名片平台版小程序源码系统就是利用人工智能技术,帮助企业…

深入OpenCV Android应用开发

前言 OpenCV是Open Source Computer Vision library(开源的计算机视觉库)的缩写。它是使用最广泛的计算机视觉库。Opencv是计算机视觉领域常用的操作函数的集合,其自身由C/C编写而成,同时也提供了对Python、Java以及任意JVM语言的封装。考虑到大部分And…

华为防火墙ipsec vpn nat穿越2种场景配置案例

第一种方法,出口有nat设备(这种方法最后电脑能上网,但不能和对端vpn通,配置检测没发现有问题,待以后再解决): 要实现分部电脑既能访问互联网又能和总部vpn连接 FW_A主要配置: acl …