随着摩尔定律走到极限,Chiplet被行业普遍认为是未来5年算力的主要提升技术。
在和业内人士交流时,有人曾表示:“要么业界采用Chiplet技术,维持摩尔定律的影响继续前进,要么就面临商业市场的损失。”
随着摩尔定律走到极限,Chiplet被行业普遍认为是未来5年算力的主要提升技术。
战场已拉开,纷争开始了
Chiplet不算是新的技术,但是这股浪潮确实是近年来开始火热的。
什么是Chiplet?
Chiplet俗称芯粒,也叫小芯片,它是将一类满足特定功能的die(裸片),通过die-to-die内部互联技术实现多个模块芯片与底层基础芯片封装在一起,形成一个系统芯片,以实现一种新形式的IP复用。
简单来说,可以理解为将每个小的芯片用“胶水”缝合在一起,形成一个性能更强的大芯片。这也不算是一个新鲜的技术,例如:英特尔将两个芯片(一个 CPU 和一个用于 CPU 大型 L2 高速缓存的快速静态内存芯片)放在一起,放入公司于1995年末推出的Pentium Pro CPU 的封装中。
也许去年,大部分厂商还沉浸在Chiplet技术的未来应用上,那到了今天Chiplet已经成为各大厂商的产品中的必选角色。
首先来看AMD,AMD是选择Chiplet最积极的厂商之一。
在2019年的时候,AMD就初次尝试了Chiplet封装,将不同工艺节点的CPU内核且I/O规格不同的芯片封装在一起,显著提高了能效和功能。
之后,AMD又发布了实验性产品,即基于3D Chiplet技术的3D V-Cache。使用的处理器芯片是Ryzen 5000,采用台积电3D Fabric先进封装技术,成功地将包含有64MB L3 Cache的Chiplet以3D堆叠的形式与处理器封装在了一起。
从数据性能来看,采用3D Chiplet的原型芯片将性能平均提高了12%。从这一点上,也能看到3D Chiplet对实际工作负载的提升有实质性的贡献。
不止在CPU,AMD在GPU方面也选择了Chiplet技术。目前,AMD发布的最新MI300系列芯片时,同样采用Chiplet技术,8个GPU Chiplet加4个I/O内存Chiplet的设计,总共12个5nm Chiplet封装在一起,使其集成的晶体管数量达到了1530亿,高于英伟达H100的800亿晶体管。这款芯片在推出时,也是打出了对标英伟达H100的口号。
此外,AMD含Chiplet技术的CPU销量占比也在不断提高。根据德国电脑零售商Mindfactory数据,2021年10月至2022年12月间AMD CPU的销量中,含Chiplet技术的CPU销量占比不断提高,从约80%上升至约97%。
再来看英特尔。英特尔的首次推出基于Chiplet设计的处理器是Sapphire Rapids,时间在2023年1月。
具体来看,通过两组镜像对称的相同架构的building blocks,组合4个Chiplets,获得4倍的性能和互联带宽。每个基本模块包含计算部分(CHA & LLC & Cores mesh, Accelerators)、memory interface部分(controller, Ch0/1)、I/O部分(UPI,PCIe)。通过将上述高性能组件组成基本的building block,再通过EMIB技术进行Chiplet互联,可以获得线性性能提升和成本收益。
最后,来看英伟达。英伟达坐稳GPU领域霸主这一点毋庸置疑,而霸主英伟达在今年推出的“最强”GPU B200也同样采用Chiplet技术。GB200超级芯片是由2颗B200 GPU和1颗Arm架构的Grace CPU(中央处理器)组合而来。
由此可见,英特尔、AMD、英伟达都在自家的CPU、GPU上使用了Chiplet技术。这将Chiplet推入了一个全新的商业化阶段。
Chiplet这一锤,算是重重砸下了。
Chiplet从CPU到GPU
在之前传统的GPU也是由一个中央工作负载处理器,将渲染任务发送到芯片内的多个着色器块之一。每个单元都被赋予一块几何体来处理、转换为像素,然后对它们进行着色。
后来AMD发现,Chiplet 用在CPU上效果很好,并且降低了制造成本。于是在GPU上也选择了放弃中央处理器,用多个小芯片取代单个硅块,每个小芯片处理自己的任务。渲染指令以称为命令列表的长序列发送到 GPU,其中所有内容都称为绘制调用。
AMD 2019年Chiplet专利
该文件于 2019 年 6 月发布,即提交近两年后,该功能已在 RDNA 2 中实现。AMD 于 2020 年开始推广该架构,并于同年 11 月推出了首款配备全新 RT-texture 处理器的产品。
不同制程及封装技术下的芯片良率、成本、面积的关系注:D为缺陷密度,c为负二项分布中的集群参数或Seed’s model中临界值数量
摩尔定律没死,但确实是老了,在14nm之后成本曲线就变了。5nm工艺的成本相比7nm工艺增长了近1倍,3nm工艺相比5nm工艺预计将增长近1倍。在半导体工艺、规模限制越来越大的情况下,传统大芯片的策略确实是寸步难行。
总体来看,Chiplet有四大优点:
第一,通过将功能块划分为小芯片,那么不需要芯片尺寸的持续增加。这就提高了良率并简化了设计和验证的流程。
第二,每个小芯片是独立的,那就可以选择最佳工艺。逻辑部分可以采用尖端工艺制造,大容量SRAM可以使用7nm左右的工艺制造,I/O和外围电路可以使用12nm或28nm左右的工艺制造,这就大大降低了制造的成本。
第三,组合多样,适合定制化,轻松制造衍生类型。比如说采用相同的逻辑电路但是不一样的外围电路,或相同外围电路但不同的逻辑电路。
第四,不同制造商的小芯片可以混合使用,而不仅仅是局限在单个制造商内。
这些特点都非常适合用在大算力芯片上。相较于传统消费级芯片,算力芯片面积更大,存储容量更大,对互连速度要求更高。采用Chiplet既可以降低成本提升良率,又可以允许更多计算核心的“堆料”,还能便于引入HBM存储。
越接近摩尔定律极限如5nm、3nm和2nm的芯片走Chiplet设计路线越有意义。
清华大学交叉信息研究院特聘研究员、助理教授马恺声也分析过,到底什么样的芯片适合使用Chiplet:“具体到芯片应用来说,CPU和GPU这种大芯片是适合的,对于大芯片来说,建议是超过200平方毫米,最好是超过400平方毫米的是适合做Chiplet的;如果仅从成本角度看,如MCU这样本身价格较低的芯片目前是没有必要的。”
我们也能看到,Chiplet技术在CPU和GPU上的商用确实比较顺利。
Chiplet时代,代工厂偷偷赚大钱
Chiplet制造步骤相对于封装复杂度大幅提升,同时考虑到不同的连接方式对于精度的要求和工艺要求不同,制造过程分布在IDM、晶圆厂和封装厂。
这给台积电、英特尔带来了商机。
3nm制程技术占据了台积电晶圆总收入的6%,5nm和7nm分别占晶圆总收入33%和19%。先进制程(7nm及以下)占台积电晶圆总收入的比重达到了58%。
前文提到的AMD发布的3D V-Cache实验性产品背后,是台积电的先进半导体工艺技术和先进封装技术。台积电作为同时掌握了最先进半导体工艺和封装技术的代工厂,其全球最顶尖代工厂的地位得到了巩固,同时其在先进技术领域也将变得更加强势。
那么台积电的7m、5nm可以得到更好地利用。如果仔细来看台积电的营收,在先进制程方面的收入使得其业绩一路高升。
不过,对于台积电来说,Chiplet也带来了新的挑战。通过采用Chiplet,台积电避免了传统的垄断模式,使客户理论上能够从多个来源获得其芯片。这增加了客户的选择自由度,促使了更加竞争激烈的市场环境。
不同于AMD和英伟达,英特尔一直在发展其IDM 2.0的战略,将晶圆代工看得非常重要。
从代工这方面来看,Chiplet对于英特尔也有不一样的影响。
一方面,英特尔承诺过的4年交付5个工艺节点(intel 7、intel 4、intel 3、intel 20A、intel 18A),如果使用Chiplet,那么英特尔可以避免为复杂的CPU或GPU执行完整工艺所需的困难。
另一方面,英特尔还可以利用混合制造厂商(使用来自多个代工厂的Chiplet并将其打包)的概念来获得代工厂商机。在去年,英特尔宣布与台积电携手打造全球首款符合Chiplet互连产业联盟(UCIe)标准的多芯片封装芯片,当中包含英特尔与台积电各自生产的IC。
值得注意的是,英特尔是第一个主动选择,多源代工业务模式的厂商。
结语
Chiplet的探索正在围绕着CPU和GPU这两大领域,但从长远来看,随着Chiplet产业链更加成熟,Chiplet的发展将不局限于这类大芯片,而是会有更广阔的运用空间。
Chiplet的风行,也让半导体产业必须有所调整,以建构出对应的完善生态系统。目前市场上的Chiplet产品,是各家大厂自行发展出来的成果,故目前半导体业内存在多种不相通的Chiplet互连技术,导致Chiplet生态系呈现碎片化的局面。
目前在底层封装层面, 已经有台积电、英特尔等厂商提供CoWOS、EMIB等先进封装,可以提供超高速、超高密度和超低延时的Chiplet互联;在标准协议层面,也有众多大厂领衔发布的UCIe 1.0版本,提供了跨片接口设计的指导和约束。
Chiplet的春风在吹了。