深度解读：Etched Sohu与Groq LPU芯片的区别

本文简单讲解一下Etched Sohu与Groq LPU两种芯片的区别。

设计理念的差异

首先，这两款产品在设计理念上完全是两条不同的路线。Etched Sohu芯片的设计理念是围绕Transformer模型进行优化。Transformer模型近年来在NLP任务中表现出色，Etched公司因此为其设计了一款专用的ASIC芯片，名为Sohu。这款芯片集成了大量硬件加速器，专门优化Transformer模型中的关键计算步骤，使其在处理Transformer任务时表现非常出色。Sohu芯片每秒可以处理高达50万个tokens，支持最高100万亿参数的大模型。在推理Llama-3 70B模型时，Sohu的速度比英伟达的H100快至少20倍。

Etched公司能够获得1.2亿的融资，显示出其技术实力。然而，Sohu芯片也有其限制。作为一款ASIC芯片，Sohu的应用范围较窄，除了运行大型Transformer模型外，几乎无法处理其他任务，例如U-Net、CNN等。因此，Etched公司将全部赌注押在了Transformer模型上，希望通过专用芯片的性能提升，在硬件层面上击败其他竞争对手。只要Transformer仍然是最流行的大模型架构，Sohu就有无限潜力。这也是为什么众多投资人看好Etched的原因。但从另一个角度来看，如果有一天Transformer被更强大的模型架构取代，Sohu芯片可能也会随之失去市场。

与Sohu不同，Groq的LPU芯片则采用了另一种设计思路。Groq团队从头设计了一个张量流处理器（Tensor Streaming Processor，简称TSP）架构，这个架构没有采用传统的开发小型可编程内核并进行数百次复制的方法，而是直接构建了一个包含数百个功能单元的处理器。为了组织多个TSP，Groq设计了一个名为Dragonfly的网络，采用多级层次化结构，通过几个层次的路由器连接不同的子组，从而提供高带宽容量和低通信延迟，这对于机器学习任务来说非常重要。

性能与应用场景

简单来说，Groq的TSP技术就像一个交通系统，通过软件控制红绿灯，让同一方向的所有车辆在一条路上快速前进，从而大大提高了效率和速度。在这个基础上，虽然同为ASIC架构，但LPU和Sohu的核心玩法却不同。Groq通过将模型权重和中间数据放在SRAM中，而不是HBM或DRAM，利用空间换时间。这种架构允许Groq在系统中不采用高带宽存储器（HBM），而是使用SRAM，从而避免了频繁的数据重新加载。这种做法不仅大幅提高了推理速度，还避免了HBM短缺的问题。

举个例子，假设你有两个工人，一个是来自Groq的“LPU”，另一个是来自英伟达的GPU，两人的任务是尽快整理完一大堆文件。GPU就像一个速度很快的工人，但依赖于高速的传送系统，例如HBM，不停地把文件快速传送到他的桌子上。虽然这个工人干活能力不错，但由于HBM产能有限，很难招到他。而Groq的LPU则像一群高效组织任务的工人，他们利用身边的小桌子（SRAM）快速获取所需的文件，从而能够立即工作。这意味着他们可以在不依赖快速交付系统的情况下快速工作。这就是LPU的特点——小内存和大算力，适合需要频繁搬运数据的场景。

然而，LPU的速度虽然很快，但单卡的吞吐能力有限，这意味着LPU用户需要购买更多的卡来保证同等的吞吐量。因此，速度对于LPU而言既是优势也是劣势。例如，贾扬清曾在推特上算过一笔账，运行Llama-2 70B模型时，需要305张LPU卡才能把模型塞进去，而用H100只需要8张卡。从目前的价格来看，这意味着在同等吞吐量下，LPU的硬件成本是H100的40倍，能耗成本是H100的10倍。