HBM:小贵但AI需要

即将推出的高带宽内存 high-bandwidth memory在散热方面还存在挑战,但可能即将得到改善。

高带宽内存 (HBM) 正在成为算力提供商的首选内存,由于 AI/ML 的需求,使用量也在继续增长,HBM 提供紧凑的 2.5D 外形尺寸,可大幅减少延迟。

HBM 的好处是你可以在非常小的占用空间内获得这些带宽,并且还将获得非常好的能效。缺点是它依赖于昂贵的硅中介层和 TSV 来运行。

576b51f8ebab0db007d469fd997613c9.png

用于最大数据吞吐量的 HBM 堆栈。

目前困扰HBM的一件事是成本。3D堆叠很昂贵。有一个 logic die位于芯片堆栈的底部,这是必须存在的额外一块硅。然后是一个硅中介层silicon interposer,它位于 CPU 或 GPU 以及 HBM 存储器下方。然后,你需要一个更大的package。

成本问题将 HBM 从消费领域中移除,并将其更牢固地放在服务器机房或数据中心中。相比之下,像 GDDR6 这样的图形内存虽然没有 HBM 那么高的性能,但成本要低得多。GDDR6 的单位成本性能实际上比 HBM 好得多,但 GDDR6 设备的最大带宽低于HBM 的最大带宽。

如果你需要如此巨大的带宽,又能承受成本,那么 HBM 就是你的不二之选。

美光预测HBM将贡献比DRAM更高的利润率。

散热挑战
除了成本之外的另一个主要缺点是 HBM 的 2.5D 结构会散发热量,而放置在 CPU 和 GPU 附近会加剧这种情况,说实话这种布局降低延迟和散热存在矛盾性。

如果温度过高,芯片也许就会变得很笨了。任何人都可以设计一堆芯片并将它们全部连接起来,但你无法冷却它。这个时候散热成为主要矛盾。

HBM 和 AI

计算是 AI/ML 中最密集的部分,但如果没有良好的内存架构,这一切都不会发生。数万亿次计算需要内存的存储和检索。在某种程度上,添加更多的 CPU 并不能提高系统性能,因为内存带宽无法支持,这就是知名的“内存墙”瓶颈。

假设模型有 1000 亿字节的数据,对于每次重新训练的迭代,必须从磁盘上取下 1000 亿字节的数据,穿过数据中心的背板并进入计算硬件。在为期两个月的训练中,必须来回移动这批巨大的数据数百万次。

这个事情进行的瓶颈是数据移入和移出,这就是为什么对 HBM 或光纤互连等项目被感兴趣的原因。所有这些事情都是人们投入数十亿美元投资的地方,因为如果你能缩短距离或时间,你就会大大简化和缩短训练过程,这对降低功耗和加快训练速度都很有用。

由于所有这些原因,HBM被认为是AI/ML的首选内存。它提供了其中一些训练算法所需的最大带宽。

这就是为什么人们对 HBM 如此感兴趣的原因。HBM大多数客户都是人工智能客户,他们正在 LPDDR5X 和 HBM 接口之间做出重大的trade-off。

唯一阻碍他们的是成本,否则都会选择HBM,想象一下周围有 6 个 HBM 堆栈的SoC的带宽!

人工智能的需求远不止于此,这反过来又推动了下一代 HBM 的发展。

了解所需要处理的数据尤为重要。数据可能是连续的数据,如视频或语音识别。数据可能是随机的,就像财务数据一样。对于数据的行为了解得越多,可以自定义内存系统设计,以最大限度地提高计算能力和内存带宽。

所以,我们看到越来越多的SoC正在瞄准特定的细分市场,以实现更高效的处理。

降低HBM的成本
降低HBM也有多条技术路线:

1、在封装中不加入一个完整的硅中介层,只在需要的地方嵌入一小块硅,也就是说只是在CPU和HBM之间架起了一座桥梁。

2、解决问题的另一种方法是使用较便宜的材料。

3、通过规模经济来削减成本。随着 HBM 的普及,成本方面将有所缓解,就像DRAM。HBM 已经是成熟的 JEDEC 标准产品,这是一种独特的DRAM技术形式,以比SRAM低得多的成本提供极高的带宽。它还可以封装以提供比SRAM高得多的密度。HDM标准正在以一个惊人的速度迅速发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/565148.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

P1024 [NOIP2001 提高组] 一元三次方程求解

题目描述&#xff1a; AC代码&#xff1a; #include<iostream>using namespace std;double a,b,c,d; int ans 0;double f(double x) {return a * x * x * x b * x * x c * x d; }int main() {scanf("%lf %lf %lf %lf",&a,&b,&c,&d);for…

钉钉报警的优势在哪里?如何配置钉钉机器人进行报警信息推送?

一、常见的报警方式 1、短信或者电话报警 这样的报警方式更适合高级别的报警提醒&#xff0c;用于处理紧急情况。出现级别不高而又频繁地发送短信会让人产生排斥感&#xff0c;而且电话或者短信的报警方式也存在一定的成本。 2、邮件报警 邮件报警更适用于工作时的提醒&…

DSSM 模型技术介绍

转自&#xff1a;git 本文属于新闻推荐实战-召回阶段-DSSM召回模型。区别于策略召回&#xff0c;基于向量召回也是目前工业界常用的一种召回方法。这里我们将介绍一个比较经典的召回模型DSSM&#xff0c;希望读者可以快速掌握模型原理以及细节&#xff0c;同时可以了解具体的实…

第25天:安全开发-PHP应用文件管理包含写入删除下载上传遍历安全

第二十五天 一、PHP文件管理-下载&删除功能实现 1.文件上传&#xff1a; 无过滤机制黑名单过滤机制白名单过滤机制文件类型过滤机制 2.文件删除&#xff1a; unlink() 文件删除函数调用命令删除&#xff1a;system shell_exec exec等 3. 文件下载&#xff1a; 修改HT…

问题带来多少成长,看你挖得有多深多痛

原文: 一次Redis访问超时的“捉虫”之旅 力是相互的&#xff0c;成长与痛苦也是相互的。 01-引言 最近在对一个老项目使用的docker镜像版本升级过程中碰到一个奇怪的问题&#xff0c;发现项目升级到高版本镜像后&#xff0c;访问Redis会出现很多超时错误&#xff0c;而降回之…

stable diffusion Temporal-kit和EbSynth视频转动画学习笔记

1、打开stable diffsuion webui 点击Temporal-kit 页签&#xff0c;再点击预处理pre-processing,上传视频 在工作目录下得到拆分的关键帧,在input目录里 打开图生图&#xff0c;输入正反描述词&#xff0c;其他配置如下 批量生成图片&#xff0c;找到最满意的那一张&#xff0…

如何判别三角形和求10 个整数中最大值?

分享每日小题&#xff0c;不断进步&#xff0c;今天的你也要加油哦&#xff01;接下来请看题------> 一、已知三条边a&#xff0c;b&#xff0c;c能否构成三角形&#xff0c;如果能构成三角形&#xff0c;判断三角形的类型&#xff08;等边三角形、等腰三角形或普通三角形 …

【Interconnection Networks 互连网络】Torus 网络拓扑

1. Torus 网络拓扑2. Torus 网络拓扑结构References 1. Torus 网络拓扑 Torus 和 Mesh 网络拓扑&#xff0c;又可以称为 k-ary n-cubes&#xff0c;在规则的 n 维网格中包裹着 N k^n 个节点&#xff0c;每个维度都有 k 个节点&#xff0c;并且最近邻居之间有通道。k-ary n-c…

数据可视化(八):Pandas时间序列——动态绘图,重采样,自相关图,偏相关图等高级操作

Tips&#xff1a;"分享是快乐的源泉&#x1f4a7;&#xff0c;在我的博客里&#xff0c;不仅有知识的海洋&#x1f30a;&#xff0c;还有满满的正能量加持&#x1f4aa;&#xff0c;快来和我一起分享这份快乐吧&#x1f60a;&#xff01; 喜欢我的博客的话&#xff0c;记得…

关于杰理AC695蓝牙模式下按键处理函数处理

一、杰理蓝牙模式下又分为SYS_KEY_EVENT和SYS_BT_EVENT。SYS_KEY_EVEN主要是对按键的控制事件&#xff0c;SYS_BT_EVENT是蓝牙模式协议栈状态事件、hci事件、对箱事件。 二、按键通过key_event *key &event->u.key; u定义了一个union事件的联合体&#xff0c;通过按键k…

【C++ STL序列容器】array 数组

文章目录 【 1. 基本原理 】【 2. array 的创建 】2.1 不赋初值2.2 赋默认值2.3 赋指定值 【 3. array 的成员函数 】实例 【 1. 基本原理 】 array 是在 C 普通数组的基础上添加了一些成员函数和全局函数。在使用上&#xff0c;它 比普通数组更 安全&#xff0c;且效率并没…

Web3钱包开发获取测试币-Base Sepolia(二)

Web3钱包开发获取测试币-Base Sepolia(二) ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/b0c0ac86b04a496087471388532bc54a.png) 基于上篇 Web3钱包开发获取测试币-Polygon Mumbai(一) &#xff1a;https://suwu150.blog.csdn.net/article/details/137949473 我…

呼市经开区建设服务项目水、电能耗监测 数采案例

一、项目背景及需求 项目地点位于内蒙古呼和浩特市&#xff0c;呼市数字经开区建设服务项目。属于企业用能数据采集、能耗监测板块子项目。 针对水、电能耗数据采集&#xff0c;结合现场客观因素制约&#xff0c;数据采集方面存在较大难度。大多数国网电表485接口由于封签限制…

WordPress 告别 MySQL:Docker SQLite WordPress

本篇文章聊聊&#xff0c;如何将这个持续诞生和维护了 21 年的开源软件“脱离数据库”运行&#xff0c;让它能够更加轻量、适合低成本离线运行。 写在前面 2003 年&#xff0c;Michel Valdrighi 基于 b2/cafelog 创建了开源软件 WordPress&#xff0c;并在 GPL 协议下发布。 …

【ARM Trace32(劳特巴赫) 使用介绍 12.1 -- Trace32 读写 64位地址】

请阅读【Trace32 ARM 专栏导读】 文章目录 Trace32 读写 64位地址读 64 位地址写64位地址Trace32 读写 64位地址 在使用TRACE32进行调试时,有时需要读取或操作64位的地址,特别是在处理64位的处理器或操作系统时。以下是如何在TRACE32中读取64位地址的一般方法。 读 64 位地…

Hadoop大数据处理技术-配置连接篇

​2024/4/17 Hadoop学习前的准备 3&#xff09;连接虚拟机 上一节配置完成了基础的虚拟机配置及网络配置 下面我们开始建立连接 我们为什么要与虚拟机建立链接呢&#xff1f; 连接虚拟机就好像跟亲友联系一样 总得找个便捷又好用的工具才行 Secure CRT就像是一把能打开通向…

高斯过程回归【详细数学推导】

机器学习笔记 第一章 机器学习简介 第二章 感知机 第三章 支持向量机 第四章 朴素贝叶斯分类器 第五章 Logistic回归 第六章 线性回归和岭回归 第七章 多层感知机与反向传播【Python实例】 第八章 主成分分析【PCA降维】 第九章 隐马尔可夫模型 第十章 奇异值分解 第十一章 熵…

AI-数学-高中-39空间向量-2空间向量法(法向量)

原作者视频&#xff1a;【空间向量】【一数辞典】2空间向量法&#xff08;重要&#xff09;_哔哩哔哩_bilibili 法向量&#xff08;高中阶段所有与面的关系&#xff0c;都可以通过法向量去证明和解答&#xff09;&#xff1a; 是空间解析几何的一个概念&#xff0c;垂直于平面…

JAVA学习笔记28(常用类)

1.常用类 1.1 包装类 1.包装类的分类 ​ 1.针对八中基本数据类型相应的引用类型–包装类 ​ 2.有了类的特点&#xff0c;就可以调用类中的方法 2.包装类和基本数据类型的转换 ​ *装箱&#xff1a;基本类型 --> 包装类型 //手动装箱 int n1 100; Integer integer ne…

上市公司-企业数据要素利用水平数据集及参考文献(2010-2022年)

01、数据介绍 企业数据要素利用水平是指企业在其生产经营活动中&#xff0c;对数据的收集、处理、分析和应用的能力及效果。这种利用水平的高低直接反映了企业在数字化时代中的竞争力和创新能力。 本数据参考《中央财经大学学报》史青春&#xff08;2023&#xff09;老师的研…