大算力芯片,正在拥抱Chiplet

随着摩尔定律走到极限,Chiplet被行业普遍认为是未来5年算力的主要提升技术。

在和业内人士交流时,有人曾表示:“要么业界采用Chiplet技术,维持摩尔定律的影响继续前进,要么就面临商业市场的损失。”

随着摩尔定律走到极限,Chiplet被行业普遍认为是未来5年算力的主要提升技术。

战场已拉开,纷争开始了

Chiplet不算是新的技术,但是这股浪潮确实是近年来开始火热的。

什么是Chiplet?

Chiplet俗称芯粒,也叫小芯片,它是将一类满足特定功能的die(裸片),通过die-to-die内部互联技术实现多个模块芯片与底层基础芯片封装在一起,形成一个系统芯片,以实现一种新形式的IP复用。

简单来说,可以理解为将每个小的芯片用“胶水”缝合在一起,形成一个性能更强的大芯片。这也不算是一个新鲜的技术,例如:英特尔将两个芯片(一个 CPU 和一个用于 CPU 大型 L2 高速缓存的快速静态内存芯片)放在一起,放入公司于1995年末推出的Pentium Pro CPU 的封装中。

也许去年,大部分厂商还沉浸在Chiplet技术的未来应用上,那到了今天Chiplet已经成为各大厂商的产品中的必选角色。

首先来看AMD,AMD是选择Chiplet最积极的厂商之一。

在2019年的时候,AMD就初次尝试了Chiplet封装,将不同工艺节点的CPU内核且I/O规格不同的芯片封装在一起,显著提高了能效和功能。

之后,AMD又发布了实验性产品,即基于3D Chiplet技术的3D V-Cache。使用的处理器芯片是Ryzen 5000,采用台积电3D Fabric先进封装技术,成功地将包含有64MB L3 Cache的Chiplet以3D堆叠的形式与处理器封装在了一起。

从数据性能来看,采用3D Chiplet的原型芯片将性能平均提高了12%。从这一点上,也能看到3D Chiplet对实际工作负载的提升有实质性的贡献。

不止在CPU,AMD在GPU方面也选择了Chiplet技术。目前,AMD发布的最新MI300系列芯片时,同样采用Chiplet技术,8个GPU Chiplet加4个I/O内存Chiplet的设计,总共12个5nm Chiplet封装在一起,使其集成的晶体管数量达到了1530亿,高于英伟达H100的800亿晶体管。这款芯片在推出时,也是打出了对标英伟达H100的口号。

此外,AMD含Chiplet技术的CPU销量占比也在不断提高。根据德国电脑零售商Mindfactory数据,2021年10月至2022年12月间AMD CPU的销量中,含Chiplet技术的CPU销量占比不断提高,从约80%上升至约97%。

再来看英特尔。英特尔的首次推出基于Chiplet设计的处理器是Sapphire Rapids,时间在2023年1月。

具体来看,通过两组镜像对称的相同架构的building blocks,组合4个Chiplets,获得4倍的性能和互联带宽。每个基本模块包含计算部分(CHA & LLC & Cores mesh, Accelerators)、memory interface部分(controller, Ch0/1)、I/O部分(UPI,PCIe)。通过将上述高性能组件组成基本的building block,再通过EMIB技术进行Chiplet互联,可以获得线性性能提升和成本收益。

最后,来看英伟达。英伟达坐稳GPU领域霸主这一点毋庸置疑,而霸主英伟达在今年推出的“最强”GPU B200也同样采用Chiplet技术。GB200超级芯片是由2颗B200 GPU和1颗Arm架构的Grace CPU(中央处理器)组合而来。

由此可见,英特尔、AMD、英伟达都在自家的CPU、GPU上使用了Chiplet技术。这将Chiplet推入了一个全新的商业化阶段。

Chiplet这一锤,算是重重砸下了。

Chiplet从CPU到GPU

在之前传统的GPU也是由一个中央工作负载处理器,将渲染任务发送到芯片内的多个着色器块之一。每个单元都被赋予一块几何体来处理、转换为像素,然后对它们进行着色。

后来AMD发现,Chiplet 用在CPU上效果很好,并且降低了制造成本。于是在GPU上也选择了放弃中央处理器,用多个小芯片取代单个硅块,每个小芯片处理自己的任务。渲染指令以称为命令列表的长序列发送到 GPU,其中所有内容都称为绘制调用。

AMD 2019年Chiplet专利

该文件于 2019 年 6 月发布,即提交近两年后,该功能已在 RDNA 2 中实现。AMD 于 2020 年开始推广该架构,并于同年 11 月推出了首款配备全新 RT-texture 处理器的产品。

不同制程及封装技术下的芯片良率、成本、面积的关系注:D为缺陷密度,c为负二项分布中的集群参数或Seed’s model中临界值数量

摩尔定律没死,但确实是老了,在14nm之后成本曲线就变了。5nm工艺的成本相比7nm工艺增长了近1倍,3nm工艺相比5nm工艺预计将增长近1倍。在半导体工艺、规模限制越来越大的情况下,传统大芯片的策略确实是寸步难行。

总体来看,Chiplet有四大优点:

第一,通过将功能块划分为小芯片,那么不需要芯片尺寸的持续增加。这就提高了良率并简化了设计和验证的流程。

第二,每个小芯片是独立的,那就可以选择最佳工艺。逻辑部分可以采用尖端工艺制造,大容量SRAM可以使用7nm左右的工艺制造,I/O和外围电路可以使用12nm或28nm左右的工艺制造,这就大大降低了制造的成本。

第三,组合多样,适合定制化,轻松制造衍生类型。比如说采用相同的逻辑电路但是不一样的外围电路,或相同外围电路但不同的逻辑电路。

第四,不同制造商的小芯片可以混合使用,而不仅仅是局限在单个制造商内。

这些特点都非常适合用在大算力芯片上。相较于传统消费级芯片,算力芯片面积更大,存储容量更大,对互连速度要求更高。采用Chiplet既可以降低成本提升良率,又可以允许更多计算核心的“堆料”,还能便于引入HBM存储。

越接近摩尔定律极限如5nm、3nm和2nm的芯片走Chiplet设计路线越有意义。

清华大学交叉信息研究院特聘研究员、助理教授马恺声也分析过,到底什么样的芯片适合使用Chiplet:“具体到芯片应用来说,CPU和GPU这种大芯片是适合的,对于大芯片来说,建议是超过200平方毫米,最好是超过400平方毫米的是适合做Chiplet的;如果仅从成本角度看,如MCU这样本身价格较低的芯片目前是没有必要的。”

我们也能看到,Chiplet技术在CPU和GPU上的商用确实比较顺利。

Chiplet时代,代工厂偷偷赚大钱

Chiplet制造步骤相对于封装复杂度大幅提升,同时考虑到不同的连接方式对于精度的要求和工艺要求不同,制造过程分布在IDM、晶圆厂和封装厂。

这给台积电、英特尔带来了商机。

3nm制程技术占据了台积电晶圆总收入的6%,5nm和7nm分别占晶圆总收入33%和19%。先进制程(7nm及以下)占台积电晶圆总收入的比重达到了58%。

前文提到的AMD发布的3D V-Cache实验性产品背后,是台积电的先进半导体工艺技术和先进封装技术。台积电作为同时掌握了最先进半导体工艺和封装技术的代工厂,其全球最顶尖代工厂的地位得到了巩固,同时其在先进技术领域也将变得更加强势。

那么台积电的7m、5nm可以得到更好地利用。如果仔细来看台积电的营收,在先进制程方面的收入使得其业绩一路高升。

不过,对于台积电来说,Chiplet也带来了新的挑战。通过采用Chiplet,台积电避免了传统的垄断模式,使客户理论上能够从多个来源获得其芯片。这增加了客户的选择自由度,促使了更加竞争激烈的市场环境。

不同于AMD和英伟达,英特尔一直在发展其IDM 2.0的战略,将晶圆代工看得非常重要。

从代工这方面来看,Chiplet对于英特尔也有不一样的影响。

一方面,英特尔承诺过的4年交付5个工艺节点(intel 7、intel 4、intel 3、intel 20A、intel 18A),如果使用Chiplet,那么英特尔可以避免为复杂的CPU或GPU执行完整工艺所需的困难。

另一方面,英特尔还可以利用混合制造厂商(使用来自多个代工厂的Chiplet并将其打包)的概念来获得代工厂商机。在去年,英特尔宣布与台积电携手打造全球首款符合Chiplet互连产业联盟(UCIe)标准的多芯片封装芯片,当中包含英特尔与台积电各自生产的IC。

值得注意的是,英特尔是第一个主动选择,多源代工业务模式的厂商。

结语

Chiplet的探索正在围绕着CPU和GPU这两大领域,但从长远来看,随着Chiplet产业链更加成熟,Chiplet的发展将不局限于这类大芯片,而是会有更广阔的运用空间。

Chiplet的风行,也让半导体产业必须有所调整,以建构出对应的完善生态系统。目前市场上的Chiplet产品,是各家大厂自行发展出来的成果,故目前半导体业内存在多种不相通的Chiplet互连技术,导致Chiplet生态系呈现碎片化的局面。

目前在底层封装层面, 已经有台积电、英特尔等厂商提供CoWOS、EMIB等先进封装,可以提供超高速、超高密度和超低延时的Chiplet互联;在标准协议层面,也有众多大厂领衔发布的UCIe 1.0版本,提供了跨片接口设计的指导和约束。

Chiplet的春风在吹了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/520072.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用ADS确定元器件的等效感值与等效容值

使用ADS确定元器件的等效感值与等效容值 使用Win家的ADS的PDK,里面有一些微带电感结构,但是居然没有标注感值,给设计带来了一定的不便。 那么对于一个电路结构,如微带线、微带螺旋电感,我们如何知道其实际的感值、容…

磁盘压力测试工具(vdbenchfio)

磁盘压力测试工具(vdbench&fio) 最近有遇到对象挂载为文件系统的需求,为了测试挂载后的读写性能,有了解了一些测试工具。下面给大家分享下我使用的工具vdbench和fio。 1 vdbench 官网文档:https://www.oracle.com/…

【三十五】【算法分析与设计】综合练习(2),22。 括号生成,77。 组合,494。 目标和,模拟树递归,临时变量自动维护树定义,递归回溯,非树结构模拟树

22. 括号生成 数字 n 代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。 示例 1: 输入:n 3 输出:["((())&#xff0…

软件杯 深度学习二维码识别

文章目录 0 前言2 二维码基础概念2.1 二维码介绍2.2 QRCode2.3 QRCode 特点 3 机器视觉二维码识别技术3.1 二维码的识别流程3.2 二维码定位3.3 常用的扫描方法 4 深度学习二维码识别4.1 部分关键代码 5 测试结果6 最后 0 前言 🔥 优质竞赛项目系列,今天…

电商数据API接口|主流电商平台数据采集的主要方式:电商API接口接入实现大量级数据采集

item_get-获得淘宝商品详情 API测试注册KEY taobao.item_get 公共参数 名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_nameString是API接口名称(包括在请求地址中)[item_search,it…

机器学习模型——K—Means算法

目录 无监督学习概念: 有监督学习与无监督学习: 无监督学习 - 聚类分析 : 聚类算法应用场景: 常用聚类算法介绍: 对不同的聚类算法应用选择原则: 基于原型聚类: K-Means聚类算法概念及步…

通过电机转速计算主轴旋转单圈所需时间(CODESYS ST代码)

1、伺服丝杠系统常用算法功能块 伺服丝杠系统常用算法功能块-CSDN博客文章浏览阅读353次。这篇博客主要介绍伺服、丝杠系统常用的运算功能块,其它相关运算可以查看下面文章链接:信捷PLC脉冲频率、位移、转速相关计算(C语言编程应用)_RXXW_Dor的博客-CSDN博客。https://rxxw-…

UE4_如果快速做出毛玻璃效果_假景深

UE4_如果快速做出毛玻璃效果_假景深 2022-08-20 15:02 一个SpiralBlur-SceneTexture材质节点完成效果,启用半透明材质通过修改BlurAmount数值大小调整效果spiralBlur-SceneTexture custom节点,HLSL语言float3 CurColor 0;float2 BaseUV MaterialFloa…

系统思考—领导者

“组织是船,领导者是什么角色?” 对于这个看似简单的问题,很多人可能会直观地想到船长或舵手。但学习型组织的倡导者彼得圣吉给出了另一种视角:如果组织是一艘船,那么领导者首先应该是这艘船的设计师。 在我近期与各个…

Linux:进程等待究竟是什么?如何解决子进程僵尸所带来的内存泄漏问题?

Linux:进程等待究竟是什么?如何解决子进程僵尸所带来的内存泄漏问题? 一、进程等待的概念二、进程等待存在的意义三、如何进行进程等待3.1 wait()是实现进程等待1、wait()原型2. 验证wait()能回收僵尸子进程的空间 3.2 waitpid()实现进程等待…

电子积木方案开发商

东莞市酷得智能科技有限公司电子积木方案开发商 提供消费电子解决方案、提供IC技术支持,全国线上线下服务 积木小车底层驱动开发过程主要涉及到以下几个方面: 首先,需要对小车底盘结构、硬件、模块等有深入的了解。底盘承载着机器人定位、导…

Kubernetes(k8s):Pod 的 Node Selector详解

Kubernetes(k8s):Pod 的 Node Selector详解 1、什么是Node Selector?2、Node Selector的工作原理3、Node Selector的用法1、例如:给node01 、node02 分别打上标签2、使用标签调度Pod3、删除节点的标签 💖Th…

java面试题(Redis)

事情干的差不多了,开刷面试题和算法,争取在短时间内快速成长,理解java面试的常见题型 一、redis使用场景: 缓存:穿透、击穿、雪崩 双写一致、持久化 数据过期、淘汰策略 分布式锁:setnx、redisson 计数…

武汉星起航推出亚马逊一站式孵化平台,助力合作伙伴快速成长

武汉星起航电子商务有限公司,自2020年正式成立以来,凭借其专业的运营团队和丰富的行业经验,在跨境电商领域取得了显著的成绩。为了进一步满足市场需求,武汉星起航决定推出亚马逊一站式孵化平台,旨在为合作伙伴提供更全…

网盘分享链接

点击打开下面这条链接,保存文件 https://pan.xunlei.com/s/VNuDMRtfBQvmfqqwjsBAIg2pA1?pwdhqd3 网盘里文件太多,找不到,怎么办? 进入我的B站主页【I泠霖I的个人空间-哔哩哔哩】 https://b23.tv/VYxaiJb,点击右上角的…

PC发送指令给单片机控制LED(与上一篇文章相反)

此时要重新配置寄存器 ,实现电脑往单片机传输数据 1、配置SCON寄存器的REN 即 REN 1 2、有TI(发送中断)就有RI(接收中断) 3、优化 发现发送 o 时,D5亮灯会有延迟 下面就是做到真正的无延迟的全双工通信 …

JVM基础

初识JAM JVM就是JAVA虚拟机,本质上是一个运行在计算机上的程序,他的职责是运行JAVA字节码文件. 下面是java代码执行过程 JVM的功能 1.解释和运行 对字节码文件中的指令实时的解释成机器码 2.内存管理 自动为对象,方法等分配内存自动的垃圾回…

27.WEB渗透测试-数据传输与加解密(上)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:26.WEB渗透测试-BurpSuite(五) BP抓包网站网址:http:…

IIC协议——OLED(128*64)外设

IIC协议(Inter-Integrated Circuit Protocol),也被称为I2C(Inter-Integrated Circuit),是一种串行通信协议,通常用于连接集成电路(IC)和外部设备,例如传感器、…

AWS入门实践-利用S3构建一个静态网站

使用Amazon S3托管静态网站是一个流行的选择,因为它简单、成本效益高,并且易于维护。静态网站由不含服务器端脚本的文件组成,如HTML、CSS和JavaScript文件。下面是使用S3托管静态网站的操作步骤: 如果大家没有AWS免费账号&#x…