GPU的最佳拍档HBM到底是什么

在AI界,英伟达的大名无人不知,无人不晓。然而即使在AI芯片界占据绝对霸主地位的英伟达,依旧受制于人。

众所周知,算力与带宽是制衡AI应用的两大关键因素,长期以来高速发展的算力受困于有限的带宽限制了其性能的最大发挥。

而带宽往往取决于芯片的性能,因而采用了先进封装从而克服高性能计算应用程序的内存访问障碍的HBM应运而生。作为一种新兴的高带宽内存,它几乎成为了AI芯片的必备搭档。

HBM到底什么来头?

那么何为HBM呢?它是High Bandwidth Memory的缩写,即一种新型的高带宽存储器,通过采用硅通孔(TSV)和微凸块(Microbump)等先进封装方法将各个芯片相互连接,形成一个整体的高带宽内存模块。

图片

简而言之,它改变了常规的DDR(Double Data Rate) 2D平面的堆叠方式而更换成为密度更高的3D立体堆叠技术,它的突破在于在较小的物理空间里实现了大容量、高位宽的DR组合阵列,因此HBM具有更高带宽、更多I/O数量、更低功耗、更小尺寸,同时意味着这将不可避免造成了一定数据延迟以及它的不可扩展性。

AI和高性能领域几乎都是可预测的高并发任务,对于GPU的延迟要求相对不高,相反它对于带宽需求非常敏感,因而它是高端GPU的最佳显存搭档。对比传统的GDDR(Graphics Double Data Rate,即我们常规认识的各类显卡上的核心部件之一显存),HBM可提供高达460GB/s的带宽,是GDDR的4倍多,而功耗仅为GDDR的一半。

HBM发展现状与趋势?

HBM每一次更新迭代都会伴随着处理速度的提高。HBM产品已经从HBM(第一代)迭代到最新的HBM3E(它是HBM3的扩展版本)。如果按照HBM3E目前的速率,下载一部长达163分钟的全高清(Full-HD)电影(1TB)只需不到1秒钟的时间。

尽管DRAM和Flash等作为传统的存储芯片技术在面对AI处理大量数据时显得力不从心,但由于HBM的技术复杂性以及生产难度限制了其在成本敏感的场景应用,因而在整体存储市场占有率较低,目前还不是普及性应用的产品。

HBM最先是由海力士与AMD于2013年联合推出的,但最终入局的玩家是SK海力士、三星和美光。2023年英伟达发布H200芯片,即采用了海力士提供HBM3e内存。同样于2024年推出的地表最强GPU B200,号称配备了192GB内存和高达8TB/S带宽,也是因为其采用了HBM--HBM3e堆叠技术。

HBM的应用领域?

目前,HBM主要应用于需要处理大量数据和高速计算的场景,如HPC用于加速科学研究以及复杂计算任务。

如AI/ML(机器学习),它的出现提升了单位面积的存储器密度,使得AI/深度学习完全放到片上成为可能,带宽不再受制于芯片引脚的互联数量,在一定程度上解决了IO瓶颈。

如数据中心,HBM内存芯片的尺寸相对较小,由于能够在更加紧凑的空间内实现更强大的计算能力,因而是数据中心的理想选择。

如智能驾驶,HBM可以提供快速处理传感器数据所需的带宽。

如虚拟现实(VR)和增强现实(AR),VR和AR应用需要高分辨率和高帧率的图形处理,HBM能够提供所需的内存带宽。

HBM的功耗仅为GDDR5的二分之一,这使得HBM在移动设备和笔记本电脑等功耗受限的环境中具有更广泛的应用前景。

HBM的出现对于AI芯片发展意义非凡。在AI技术领域,HBM作为提升算力的关键因素,正崭露头角。随着对高带宽内存需求增长,人工智能技术的飞速发展,以及5G跟物联网技术的迭代升级,HBM将有广阔的市场发展机遇,预计或将取代传统的存储器成为市场主流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/675576.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

信息系统项目管理师0142:管理新实践(9项目范围管理—9.1管理基础—9.1.2管理新实践)

点击查看专栏目录 文章目录 9.1.2 管理新实践 9.1.2 管理新实践 需求一直是项目管理的关注重点,需求管理过程结束于需求关闭,即把产品、服务或成果移交给接收方,以便长期测量、监控、实现并维持收益。随着全球项目环境变得日益复杂&#xff0…

【人工智能Ⅱ】实验8:生成对抗网络

实验8:生成对抗网络 一:实验目的 1:理解生成对抗网络的基本原理。 2:学会构建改进的生成对抗网络,如DCGAN、WGAN、WGAN-GP等。 3:学习在更为真实的数据集上应用生成对抗网络的方法。 二:实验…

Java反序列化-RMI流程分析

RMI 在反序列化里漏洞里面是很常用的,它是一个分布式的思想。 RMI概述 RMI 通常包含两个独立的程序,一个服务端 和 一个客户端。服务端通过绑定这个远程对象类,它可以封装网络操作。客户端层面上只需要传递一个名字,还有地址。 …

LNMP 环境下使用 Zstd 压缩优化网站备份脚本

网站的备份一直都是网站运营、服务器运维中很重要的一环,明月无论是在自己的服务器还是客户的代运维服务器上都是非常重视网站备份的,尤其热衷于优化网站备份这块儿,毕竟明月自己的服务器配置一直都是最低的 1H1G 呀,就这配置常年…

(函数)空格填充(C语言)

一、运行结果&#xff1b; 二、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>//声明空格填充函数&#xff1b; void space(char a[100]);int main() {//初始化变量值&#xff1b;char a[100] { 0 };//获取用户输入的数据&#xff1b;print…

人工智能学习笔记(1):了解sklearn

sklearn 简介 Sklearn是一个基于Python语言的开源机器学习库。全称Scikit-Learn&#xff0c;是建立在诸如NumPy、SciPy和matplotlib等其他Python库之上&#xff0c;为用户提供了一系列高质量的机器学习算法&#xff0c;其典型特点有&#xff1a; 简单有效的工具进行预测数据分…

Kafka生产者消息异步发送并返回发送信息api编写教程

1.引入依赖&#xff08;pox.xml文件&#xff09; <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>3.6.2</version> </dependency> </depende…

泰中完成潜艇采购谈判:有三个亮点值得关注

泰中完成潜艇采购谈判&#xff1a;有三个亮点值得关注 --如何写好产品采购制造类合同&#xff08;或协议&#xff09;才能有效维护你的利益 据新华网消息&#xff1a;泰国和中国已经完成关于泰国皇家海军购买中国制造的S26T元级潜艇的谈判。这份交易正在等待内阁的最终批准。…

WALT算法简介

WALT(Windows-Assist Load Tracing)算法是由Qcom开发&#xff0c; 通过把时间划分为窗口&#xff0c;对 task运行时间和CPU负载进行跟踪计算的方法。为任务调度、迁移、负载均衡及CPU调频 提供输入。 WALT相对PELT算法&#xff0c;更能及时反映负载变化&#xff0c; 更适用于…

黄金期货与现货黄金有什么区别?

如今&#xff0c;黄金成为了众多投资者的热门选择。在黄金投资市场中&#xff0c;有多种形式可供选择&#xff0c;比如纸黄金、实物黄金、黄金期货以及现货黄金等。其中&#xff0c;纸黄金和实物黄金虽然具有其特点&#xff0c;但所需资金量较大且收益表现相对不明显。相对而言…

哈希重要思想续——布隆过滤器

布隆过滤器 一 概念1.1布隆过滤器的提出2.概念 二 模拟实现2.1 三个仿函数setTest 全代码三 实际应用 一 概念 1.1布隆过滤器的提出 我们在使用新闻客户端看新闻时&#xff0c;它会给我们不停地推荐新的内容&#xff0c;它每次推荐时要去重&#xff0c;去掉那些已经看过的内容…

Java面试八股之守护线程和普通线程的区别

守护线程和普通线程的区别 生命周期差异&#xff1a; 普通线程&#xff08;也称为用户线程&#xff09;&#xff1a;这类线程的生命周期与程序的生命周期独立。它们会一直运行直到完成自己的任务或主动结束&#xff0c;如果一个程序中只剩下普通线程在运行&#xff0c;即使主…

JavaScript、Kotlin、Flutter可以开发鸿蒙APP吗?

自从去年华为宣布推出「鸿蒙Next」版本开始&#xff0c;标志着其操作系统的全面革新。鸿蒙Next将摒弃所有基于AOSP的代码&#xff0c;与Android系统彻底分离&#xff0c;实现完全自主的研发路径。通过精简约40%的冗余代码&#xff0c;鸿蒙Next致力于构建一个更高效、更流畅的系…

混合动力电动汽车介绍(二)

接续前一章内容&#xff0c;本篇文章介绍混合动力汽车串联、并联和混联的系统组成和工作原理。 一、串联混合动力电动汽车的系统组成和工作原理 上图为串联混合动力电动汽车的结构简图。汽车由电动机-发电机驱动行驶&#xff0c;电机控制器的动力来自油箱-发动机-发电机-发电机…

Python画图(多图展示在一个平面)

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

上位机图像处理和嵌入式模块部署(f407 mcu vs f103)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 对于一部分嵌入式场景来说&#xff0c;f103其实已经足够了&#xff0c;特别是要求不高的低速场合。如果开发的代码比较多&#xff0c;还可以选用更…

Java面试八股之线程池中submit和execute方法的区别

线程池中submit和execute方法的区别 接口和返回值类型: execute()方法属于Executor接口&#xff0c;它接收一个实现了Runnable接口的任务&#xff0c;并不返回任何结果。它的主要目的是异步执行任务&#xff0c;不关心任务的执行结果。 submit()方法则是ExecutorService接口…

Vue渲染函数与JSX指南

title: Vue渲染函数与JSX指南 date: 2024/6/3 下午6:43:53 updated: 2024/6/3 下午6:43:53 categories: 前端开发 tags:Vue渲染JSX基础性能优化组件对比React JSX大项目测试策略 第1章&#xff1a;Vue.js入门 Vue.js的历史和背景 Vue.js是一个用于构建用户界面的JavaScript框…

模拟堆-java

模拟堆也是对堆的一次深入理解和一些其它操作&#xff0c;可以了解一下。 文章目录 前言 一、模拟堆 二、算法思路 1.结点上移 2.结点下移 3.插入一个数 4.输出当前集合的最小值 5.删除当前集合的最小值&#xff08;数据保证此时的最小值唯一&#xff09; 6.删除第k个插入的数 …

初识STM32单片机-ADC和DMA

初识STM32单片机-ADC和DMA 一、ADC(模拟数字转换器)简介二、ADC基本结构三、DMA(直接存储器读取)简介四、DMA框图和基本结构五、DMA应用实例5.1 数据转运DMA5.2 ADC扫描DMA 六、程序编码6.1 ADC单通道-电位器6.2 ADC多通道-电位器和光敏\热敏\反射红外传感器6.3 DMA数据转运6.4…