论文解析——Review of chiplet-based design: system architecture and interconnection

作者

Liu Yafei1, Li Xiangyu2, YIN ShouYi1, Review of chiplet-based design: system architecture and interconnection, SCIENCE CHINA Information Sciences, 2024, ISSN 1674-733X, https://doi.org/10.1007/s11432-023-3926-8.

1School of Integrated Circuit, Tsinghua University, Beijing 100084, China;
2Laboratory of Integrated Circuits and Intelligence Systems, Research Institute of Tsinghua University in Shenzhen,
Shenzhen, 518057, China

摘要

正文

业界尚未提出通用的和清晰的系统级架构设计方法。

设计挑战

封装-设计的协同优化对获取chiplet系统良好的PPAC很关键。

选择合适的chiplet划分方案,以减少由于划分导致的潜在的性能损失

这种性能损失包括带宽和延迟。
除了普遍要考虑的访存瓶颈和掩模版限制,同构的多核处理器主要关心规模化和非一致性访问延迟,异构多处理机SoC(MPSoC)主要关心计算效率;
额外的成本考虑,包括接口电路的硅面积、额外的封装成本、额外的掩膜成本、以及接口电路的功耗。
chiplets的可复用性也影响了整体系统的成本。

带宽/延迟的损失和碎片化的片上网络导致互联设计的困难

由于物理限制,inter-chiplet相比intra-chiplet有更低的带宽和更高的延迟
chiplet方法使设计更加碎片化,而各个部分独立设计和验证导致额外的“通信跳跃”和传输的不确定性,比如死锁问题。

封装方案决定了D2D接口的带宽和链路上的延迟,封装成本也在考虑之内

系统架构分类

系统架构可以分成两个类别,封装集成和SoC分解。
封装集成是将板级设计的集成映射到封装种,比如处理器和存储的集成,不同架构处理器的集成。
SoC分解是将大芯片的SoC分成多个chiplet。
在这里插入图片描述

封装集成

包括处理器和存储的集成,CPU和GPU等异构处理器的集成。

为了解决日益增长的处理器内存带宽需求,使用嵌入式存储或者封装集成存储,比如Intel Haswell 处理器将eDRAM和CPU通过on-package-IO集成在一个封装种;AMD在RadeonTM Fury芯片中通过silicon interposer技术将GPU和high bandwidth memory(HBM)堆叠在一起。

异构处理器在同一封装中集成提升系统性能。例如Intel的Kaby Lake-G处理器在同一封装中通过PCIe接口集成了AMD的显卡,性能相比板级连接提升了40%,并节省了50%的板级空间。此外,网卡设备、DPU等也受益于封装集成技术的高带宽接口。

通过同构chiplets连接拓扑的SoC分解

通过计算/架构划分的SoC分解

通过一个架构die,即通常所说的IO die,作为系统的互联中心,连接计算和存储chiplets。

中心化的互联促进了chiplet间通信延迟的一致性,减少了NUMA影响;fabric die和计算die可以使用不同的工艺节点,减少了系统成本。同时由于路由逻辑转移到fabric die中,简化了计算die的设计难度;fabric die也简化了封装设计难度。

通过多处理器划分的SoC分解

将MPSoC基于功能单元分解为多个异构处理器。
例如志强可扩展平台“Granite Rapids”,使用计算性能核(P-core)+ IO chiplet的架构,性能核可以达到8个。
在这里插入图片描述

基于tile分布架构

Nvidia SIMBA深度神经网络加速器

特殊的chiplets系统设计

cache chiplets技术促进了内存设计的进化

Intel的Ponte Vecchio处理器的RAMBO作为额外的三级cache节点。
在这里插入图片描述AMD的3D V-cache技术可以灵活的扩展cache的容量。

封装平台和可复用的基板降低了开发成本,减少了开发时间

自动化设计工具辅助设计空间探索和架构仿真

互联拓扑

ring互联设计简单,序属性简化了cache一致性的实现

AMD Zen2

更高半径、可扩展的mesh互联可解决大量chiplets互联的问题

Nvidia SIMBA深度神经网络加速器
SIAM in-memory-compute计算架构

互联拓扑的优化

silicon interposer相比传统的MCM方案可获得更高的带宽和更低的功耗

active相比passive interposer可以有更好的性能和链路长度

有源中阶层需要更大的面积,但通常导致更低的良率。

自定义的拓扑结构相比标准的拓扑有更好的能效和性能

无死锁路由

虽然单独的die被设计的无死锁,但当不同的die互联后,新的死锁会产生。
根据路由实现的特征,有两种路由策略:分布式和集中式。

中心化路由通过控制网络获取网络中每个节点的工作状态,软件根据路由信息灵活的自适应路由

software-defined NoC(SDNoC),控制网络和数据网络分离。

参考文献

本文主要介绍了当前主要chiplet系统的分解方案及其优劣,对异构chiplets系统的互连拓扑做了详细分析,介绍了chiplets间的死锁原因和解锁策略,同时对不同chiplets系统的封装方案也做了辅助介绍,也特别强调了架构-封装设计的协同。整体来说,是一篇对chiplets架构设计做了全面论述的好文章。

网络直径diameter:top中任意两点之间最短路径集合的最大值
跳数hop count:一个路由节点到下一个路由节点称为一跳

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/409439.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

来看大厂如何设计运营后台系统的?

0 背景 重运营的应用。对于App里的顶导航、我的页面、弹窗等,需要根据模式、版本、平台、语言、渠道等不同的维度进行运营管理。随着业务快速发展,版本快速迭代,如何: 保持运营资源能够被高效、稳定和灵活地配置高效稳定的为新的…

软件游戏显示d3dx9_42.dll丢失的5种解决方法,快速解决dll问题

当计算机系统中d3dx9_42.dll文件丢失时,可能会引发一系列运行问题和功能异常,具体表现形式多样且影响范围较广。首先,对于依赖于DirectX 9.0c版本的各类应用程序,尤其是部分经典的老款游戏,由于d3dx9_42.dll是其中不可…

深度解析:Integer.parseInt() 源码解读

深度解析:Integer.parseInt() 源码解读 关键要点 解析字符:用于将字符转换为对应的数字值 Character.digit(s.charAt(i),radix) 确定limit:根据正负号分别设定 int limit -Integer.MAX_VALUE;【正】 limit Integer.MIN_VALUE;【负】 负数…

【卷积神经网络中用1*1 卷积有什么作用或者好处呢?】

🚀 作者 :“码上有前” 🚀 文章简介 :深度学习 🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬 1*1 卷积有什么作用或者好处呢 作用降维和增加非线性特征组合和交互网络的宽度和深度调整全连接替代增强…

matlab滤波器设计

1、内容简介 略 51-可以交流、咨询、答疑 2、内容说明 略 3、仿真分析 略 matlab滤波器设计-butter、ellip、cheby1、cheby2_哔哩哔哩_bilibili 4、参考论文 略

C语言中的宏定义与内联函数的使用

大家好,今天给大家介绍C语言中的宏定义与内联函数的使用,文章末尾附有分享大家一个资料包,差不多150多G。里面学习内容、面经、项目都比较新也比较全!可进群免费领取。 一、宏定义(Macro Definition) 宏定…

英伟达狂飙,上演大象坐火箭

英伟达市值破 2W 亿 这两天全球资本市场最大的事情就是英伟达(NVDA)公布了财报。 本来市场(分析师)的预期就高,结果财报公布比预期还要高出不少。 NVDA 直接上演「大象坐火箭」,在财报公布后的第一个交易日…

【数据结构与算法】(19)高级数据结构与算法设计之 图 拓扑排序 最短路径 最小生成树 不相交集合(并查集合)代码示例

目录 6) 拓扑排序KahnDFS 7) 最短路径DijkstraBellman-FordFloyd-Warshall 8) 最小生成树PrimKruskal 9) 不相交集合(并查集合)基础路径压缩Union By Size 图-相关题目 6) 拓扑排序 #mermaid-svg-MQhLsXiMwnlUL3q4 {font-family:"trebuchet ms"…

语音转字幕:Whisper模型的功能和使用

🍁 作者:知识浅谈,CSDN签约讲师,CSDN博客专家,华为云云享专家,阿里云专家博主 📌 擅长领域:全栈工程师、爬虫、ACM算法 💒 公众号:知识浅谈 🤞语音…

【k8s资源调度-HPA(自动扩缩容)】

1、HPA可以做什么? 通过观察pod的cpu、内存使用率或自定义metrics指标进行自动的扩容或缩容pod的数量。通常用于Deployment,不适用于无法扩/缩容的对象,如DaemonSet。控制管理器每隔30s(可以通过-horizontal-pod-autoscaler–sync-period修改…

信息系统项目管理师论文分享(质量管理)

水一篇文章。我发现身边考高项的朋友很多都是论文没过,我想着那就把我的论文分享出来,希望能有帮助。 质量管理 摘要 2020年5月,我作为项目经理参加了“某市某医联体的互联网诊疗(互联网医院和远程医疗)平台”的建设…

多表联合分页查询(二)---- springboot整合MybatisPlus分页代码

目录 一、分页配置代码解读(使用MP自带分页)二、Controller层代码解读三、service层代码解读四、Mapper层代码解读五、结果展示 一、分页配置代码解读(使用MP自带分页) package com.minster.yanapi.Config;import com.baomidou.m…

Python 读取txt中的汉字报错

Python读取txt中的汉字报错:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xa7 in position 4: illegal multibyte sequence 举例: fileE:/0_MyWork/python_programm/children_name/strich7.txtwith open(file, "r") as file_7str…

LeetCode 1637.两点之间不包含任何点的最宽垂直区域

给你 n 个二维平面上的点 points ,其中 points[i] [xi, yi] ,请你返回两点之间内部不包含任何点的 最宽垂直区域 的宽度。 垂直区域 的定义是固定宽度,而 y 轴上无限延伸的一块区域(也就是高度为无穷大)。 最宽垂直区…

基于jmeter的性能全流程测试

01、做性能测试的步骤 1、服务器性能监控 首先要在对应服务器上面安装性能监控工具,比如linux系统下的服务器,可以选择nmon或者其他的监控工具,然后在jmeter模拟场景跑脚本的时候,同时启动监控工具,这样就可以获得jm…

抖音视频下载工具|视频内容提取软件

引言部分: 针对抖音视频下载需求,我们团队自豪推出一款功能强大的工具,旨在解决用户获取抖音视频繁琐问题的困扰。我们通过基于C#开发的工具,让用户能够轻松通过关键词搜索实现自动批量抓取视频,并根据需求进行选择性批…

Linux——缓冲区封装系统文件操作

📘北尘_:个人主页 🌎个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上,不忘来时的初心 文章目录 一、FILE二、封装系统接口实现文件操作1、text.c2、mystdio.c3、mystdio.h 一、FILE 因为IO相…

谷歌收购域名花费了100万美元的确让大家眼红

谷歌斥资100万美元购买了该域名。 卖个好价钱确实让大家眼红,但能不能卖到高价就是另一回事了。 首先,据统计,截至2008年底,我国域名总数达到1680万多个,可用的域名资源几乎无法统计,因为英文的组合太多了…

2024.2.25 在centos8.0安装docker

2024.2.25 在centos8.0安装docker 安装过程比较简单,按顺序安装即可,简要步骤: 一、更新已安装的软件包: sudo yum update二、安装所需的软件包,允许 yum 通过 HTTPS 使用存储库: sudo yum install -y …

经典枚举算法

解析: 首先答案肯定是字符串的某个前缀,然后简单直观的想法就是枚举所有的前缀来判断,我们设这个前缀串长度为 lenx ,str1 的长度为 len1,str2 的长度为 len2,则我们知道前缀串的长度必然要是两个字符串长…