即将推出的高带宽内存 high-bandwidth memory在散热方面还存在挑战,但可能即将得到改善。
高带宽内存 (HBM) 正在成为算力提供商的首选内存,由于 AI/ML 的需求,使用量也在继续增长,HBM 提供紧凑的 2.5D 外形尺寸,可大幅减少延迟。
HBM 的好处是你可以在非常小的占用空间内获得这些带宽,并且还将获得非常好的能效。缺点是它依赖于昂贵的硅中介层和 TSV 来运行。
用于最大数据吞吐量的 HBM 堆栈。
目前困扰HBM的一件事是成本。3D堆叠很昂贵。有一个 logic die位于芯片堆栈的底部,这是必须存在的额外一块硅。然后是一个硅中介层silicon interposer,它位于 CPU 或 GPU 以及 HBM 存储器下方。然后,你需要一个更大的package。
成本问题将 HBM 从消费领域中移除,并将其更牢固地放在服务器机房或数据中心中。相比之下,像 GDDR6 这样的图形内存虽然没有 HBM 那么高的性能,但成本要低得多。GDDR6 的单位成本性能实际上比 HBM 好得多,但 GDDR6 设备的最大带宽低于HBM 的最大带宽。
如果你需要如此巨大的带宽,又能承受成本,那么 HBM 就是你的不二之选。
美光预测HBM将贡献比DRAM更高的利润率。
散热挑战
除了成本之外的另一个主要缺点是 HBM 的 2.5D 结构会散发热量,而放置在 CPU 和 GPU 附近会加剧这种情况,说实话这种布局降低延迟和散热存在矛盾性。
如果温度过高,芯片也许就会变得很笨了。任何人都可以设计一堆芯片并将它们全部连接起来,但你无法冷却它。这个时候散热成为主要矛盾。
HBM 和 AI
计算是 AI/ML 中最密集的部分,但如果没有良好的内存架构,这一切都不会发生。数万亿次计算需要内存的存储和检索。在某种程度上,添加更多的 CPU 并不能提高系统性能,因为内存带宽无法支持,这就是知名的“内存墙”瓶颈。
假设模型有 1000 亿字节的数据,对于每次重新训练的迭代,必须从磁盘上取下 1000 亿字节的数据,穿过数据中心的背板并进入计算硬件。在为期两个月的训练中,必须来回移动这批巨大的数据数百万次。
这个事情进行的瓶颈是数据移入和移出,这就是为什么对 HBM 或光纤互连等项目被感兴趣的原因。所有这些事情都是人们投入数十亿美元投资的地方,因为如果你能缩短距离或时间,你就会大大简化和缩短训练过程,这对降低功耗和加快训练速度都很有用。
由于所有这些原因,HBM被认为是AI/ML的首选内存。它提供了其中一些训练算法所需的最大带宽。
这就是为什么人们对 HBM 如此感兴趣的原因。HBM大多数客户都是人工智能客户,他们正在 LPDDR5X 和 HBM 接口之间做出重大的trade-off。
唯一阻碍他们的是成本,否则都会选择HBM,想象一下周围有 6 个 HBM 堆栈的SoC的带宽!
人工智能的需求远不止于此,这反过来又推动了下一代 HBM 的发展。
了解所需要处理的数据尤为重要。数据可能是连续的数据,如视频或语音识别。数据可能是随机的,就像财务数据一样。对于数据的行为了解得越多,可以自定义内存系统设计,以最大限度地提高计算能力和内存带宽。
所以,我们看到越来越多的SoC正在瞄准特定的细分市场,以实现更高效的处理。
降低HBM的成本
降低HBM也有多条技术路线:
1、在封装中不加入一个完整的硅中介层,只在需要的地方嵌入一小块硅,也就是说只是在CPU和HBM之间架起了一座桥梁。
2、解决问题的另一种方法是使用较便宜的材料。
3、通过规模经济来削减成本。随着 HBM 的普及,成本方面将有所缓解,就像DRAM。HBM 已经是成熟的 JEDEC 标准产品,这是一种独特的DRAM技术形式,以比SRAM低得多的成本提供极高的带宽。它还可以封装以提供比SRAM高得多的密度。HDM标准正在以一个惊人的速度迅速发展。