On-Chip-Network之router微架构的物理实现

Low-Power Microarchitecture

        自20世纪90年代以来,功耗一直是嵌入式芯片和高性能芯片面临的一个挑战。自2000年代中期以来,它已经成为大多数设计的主要约束。多核解决了功耗问题,由此产生的communication substrate,namely the on-chip network,对多核的总功耗起着积极的作用——both dynamic and leakage。

        图6 - 18a给出了一个最先进的mesh router和四个VCs的功率分布。这些数字来自32nm的芯片。在低负载时,buffer和other state(VCs和credits)的动态功耗主要是由clocked latches造成的,而不是流量本身。在饱和状态下(即高负载状态),buffer的贡献为55%的动态功率,而交crossbar and links贡献34%。静态功耗在低负载时占router总功耗的75%以上,在高负载时占53%。 

        在本节中,我们讨论acrosson-chipnetworks使用的降低功耗的技术。关于core和cache使用的低功耗技术的更详细描述,请参阅计算机体系结构技术的综合讲座。

 Dynamic Power

        动态功耗的方程是,其中α是activity factor,C是capacitance being switched,V是工作电压,f是工作频率。为了降低功耗,有两类技术。

  • 第一种方法通过动态降低V和f来降低功耗,
  • 而第二种方法通过动态降低a和C来降低功耗。

DVFS

        Dynamic voltage and frequency scaling(DVFS), 动态电压频率调节是目前最常用的降低数字电路功耗的设计技术。DVFS可应用于on-chip networks,其思想是在不影响整体性能的前提下,使流量较少的路由器工作在较低的电压频率状态。

        将DVFS应用于on-chip network结构的两个关键挑战如下。

  • 对于multiple voltage-frequency islands,bi-synchronous FIFOs需要在每对不同电压岛的接口上使用,这带来了额外的延迟。
  • 现有方案大多假设the use of multiple supply lines for accessing different voltages。然而,多电压轨的使用需要芯片外的多个电压转换器,以及多个配电网络的面积开销。high bandwidth integrated voltage regulators的引入可以通过允许快速(sub 50 ns)电压跃迁来缓解这个问题。

        由于与tile/core 相关联的on-chip network不仅服务于从该core注入的flits,而且服务于来自不同core的flits,因此片上网络结构的DVFS策略必须与内核的DVFS策略进行不同的处理。

        现有的片上网络DVFS策略研究主要是利用average queue utilization、average return time to memory requests等静态网络参数来决定router新的V-F (voltage-frequency)状态。通常,DVFS控制器将执行以下任务:监控合适的网络参数,根据先前的状态和目标值计算状态反馈值,并更新V-F状态。本章后面将讨论一些最近关于片上网络DVFS的论文。

Power-Efficient Designs

        第二类技术试图通过减少电容或switching activety来降低功耗。

        通过减小effective capacitance being switched,可以降低片上网络的动态功耗。由于线电容比栅电容大得多,因此线电容占网络功率的主导地位。

        在这方面已经研究了低摆幅和均衡链路形式的节能信令。router的功耗也可以通过减少流水线阶段的数量和优化buffer、crossbar和arbiter circuits/micro architecture来降低。例如:

  • 在实现缓冲区时,sram比触发器和register files更节能
  • 而mesh风格的crossbar通常比基于mux的crossbar更高效。
  • crossbar可以进一步segmented or designed with low-swing links,以减少遍历期间的功耗。
  • 复杂的arbiters可以拆分为多个简单的仲裁器,以进一步降低功耗。

        降低switching activity是降低动态功耗的另一种技术。Clock gating is a popular method to reduce the amount of switching activity of latches between inactive circuits。例如,在图6 - 18a中,低负载时的动态功耗主要是时钟造成的,而不是实际流量,这为降低功耗提供了机会。从一个router发送到另一个router的比特的有效编码也可以被利用来减少bit-toggles的数量,从而减少动态功耗。

 Leakage  Power

        在亚纳米技术中,晶体管不再是理想的switches,即使在“关断”时也会漏电流。这导致即使在低活动或无活动期间也会消耗高功率。如图6.18a所示,在现代技术中,片上网络中的泄漏功耗对总功耗有显著影响。原因是大量的锁存器/触发器/ sram用于实现缓冲区、输入VC状态和输出credit状态。

Power-Gating.

        Leakage power可以通过power gating来减轻。它是当今across chips使用的标准技术。在本书中,我们不会深入讨论电路细节以及通过添加电源门控晶体管来创建功率域的影响。相反,我们将列出一些片上网络电源门控解决方案需要担心的挑战。

  • Whatshould be the granularity of power-domains?

        片上网络的power-domain可能是router中的各种模块(input ports, arbiters,  crossbar),或每个router本身,或整个片上网络。

        原则上,细粒度的power-domain将是最有效的,但将power-domain电路添加到数百个模块并控制它们是不实际的。当今大多数商用芯片将整个片上网络视为一个功率域。

  • How to decide which routers to turn on/off

        如果连接到router的tiles处于活动状态,则必须非常频繁地唤醒router,从而增加了大量的latency overhead。此外,关闭某些router可能导致某些关键IP块,例如memory controller,变得不可访问,这是不允许的,而电源管理控制器也需要特别处理一些事情。

  • Howto handle deadlocks on irregular topologies

        关闭某些router会使底层拓扑变得不规则;这可能会导致路由死锁,因为某些路径可能变得不可访问,迫使flit使用导致循环依赖的其他路径。

    

    一些最近关于片上网络电源门控的论文将在本章后面的参考书目中进行讨论。

后续还有一些Router floorplanning相关的内容,此处不做描述;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/929044.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

路径规划之启发式算法之四:蚁群算法(Ant Colony Optimization,ACO)

蚁群算法(Ant Colony Optimization,ACO)是一种模拟蚂蚁觅食行为的启发式搜索算法,由Marco Dorigo于1992年在他的博士论文中提出。该算法适用于解决组合优化问题,如旅行商问题(TSP)、车辆路径问题…

LabVIEW密码保护与反编译的安全性分析

在LabVIEW中,密码保护是一种常见的源代码保护手段,但其安全性并不高,尤其是在面对专业反编译工具时。理论上,所有软件的反编译都是可能的,尽管反编译不一定恢复完全的源代码,但足以提取程序的核心功能和算法…

RabbitMQ消息可靠性保证机制6--可靠性分析

在使用消息中间件的过程中,难免会出现消息错误或者消息丢失等异常情况。这个时候就需要有一个良好的机制来跟踪记录消息的过程(轨迹溯源),帮助我们排查问题。 在RabbitMQ中可以使用Firehose实现消息的跟踪,Firehose可…

工业—使用Flink处理Kafka中的数据_ProduceRecord1

1 、 使用 Flink 消费 Kafka 中 ProduceRecord 主题的数据,统计在已经检验的产品中,各设备每 5 分钟 生产产品总数,将结果存入Redis 中, key 值为

前端上传后端接收参数为null

记录一下工作中的问题 前端明明把文件传到后台了,但是后台接收参数为null 原因: 前端上传文件的name和后端接收参数名称不匹配 前端 后端 把前端上传的name由upfile改为file即可 本来是很基本的小问题,但因为自己钻了牛角尖一直没搞定&…

CSS3 布局样式及其应用

深入探讨 CSS3 布局样式及其应用 引言 在现代网页设计中,CSS(层叠样式表)不仅是设计视觉样式的工具,也是布局的核心技术。CSS3引入了新的布局模型,其中Flexbox与Grid布局在满足复杂布局需求方面表现尤为出色。本文将…

spark sql 环境安装,java 默认路径和 安装配置!

yum安装java 查看默认路径 update-alternatives --config java # Java 环境变量 export JAVA_HOME/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.412.b08-1.el7_9.x86_64/jreexport PATH$JAVA_HOME/bin:$PATH# Spark 环境变量 export SPARK_HOME/home/vagrant/soft/sparkexport PATH…

第32天:安全开发-JavaEE应用Servlet路由技术JDBCMybatis数据库生命周期

时间轴: 32天主要学习内容: 1、JavaEE-HTTP-Servlet技术 2、JavaEE-数据库-JDBC&Mybatis java技术使用历史(2023 ): JavaEE-HTTP-Servlet&路由&周期: java学习范围: 3、Java: 功能:数据…

Android渗透环境配置教程

工具 模拟器 ADB brew install android-platform-tools set import cert # cer 证书转为 pem 证书 openssl x509 -inform DER -in cacert.der -out cacert.pem# 获取证书的 hash 值 hash$(openssl x509 -inform PEM -subject_hash_old -in cacert.pem | head -n 1)# 将 pem…

基于遗传优化SVM的电机参数预测matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 数据收集与预处理 4.2模型构建与训练 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 输入:电机结构参数x1 x2 x3 x4 x5(分别是铁心高度 铁心厚度 绕组…

【开源代码】图像水印移除-依赖python-tensorflow

下载源码 git clone https://github.com/zuruoke/watermark-removal创建conda环境 conda create -n tensorflow_gpu python=3.7 conda activate tensorflow_gpu conda install tensorflow-gpu==1.15

汇编语言学习-二

好吧,已经隔了两天,下完班看了两天,在电脑上装了虚拟机版的MS_DOS,主要是怕折腾坏我的电脑系统; 这个第二天应该是称为第二章更为合适,目前第二章已经看完,基本的命令也是敲了敲; 下面就进行一…

开源即时通讯与闭源即时通讯该怎么选择,其优势是什么?

在选择即时通讯软件时,应根据企业的经营领域来选择适合自身需求的开源或闭源方案。不同领域对开源和闭源即时通讯的理念存在差异,因此总结两个点简要分析这两种选择,有助于做出更明智的决策。 一、开源与闭源的根本区别在于软件的源代码是否…

【算法】图论——树的重心

目录 题目解析 算法原理 图的存储 算法实现 题目解析 题目解析 给定一颗树,树中包含n个结点(编号)和n-1条无向边。请找到树的重心,并输出将重心删除后,剩余各个连通块中点数的最大值。 什么是重心? 重…

【Vue3 ElementUI开发环境搭建】

VUE搭建关系系统 1. 安装vue脚手架工具2. 使用脚手架创建项目2.1 选择VUE版本2.2 启动demo2.3 vue工程搭建完的目录 3. 安装Element UI3.1 测试ElementUI3.1.1 更换Demo页面的内容3.1.2 引入ElementUI的样式表 1. 安装vue脚手架工具 npm install -g vue/cli执行命令后等他跑一…

Redis常见问题总结

Redis常见问题总结 1.Redis分布式存储方案 分布式存储核心特点主从(Master/Slave)模式一主多从,故障时手动切换。哨兵(Sentinel)模式有哨兵的一主多从,主节点故障自动选择新的主节点。集群(Cl…

Yeeco成长型一体化数智赋能平台:科技矩阵重塑企业数字生态

随着科技的飞速发展,我们正在步入一个被称为“数智化时代”的新时代。在这个时代中,数据处理和分析的能力被提升到一个前所未有的高度,而这种变化背后的重要推动力量就是各种新兴的技术趋势。 为了在激烈的市场竞争中脱颖而出,Yee…

STM32 DMA直接存储器存取原理及DMA转运模板代码

DMA简介: 存储器映像: 注意:FLASH是只读的,DMA不能写入,但是可以读取写到其他存储器里 变量是存在运行内存SRAM里的,常量(const)是放在程序存储器FLASH里的 DMA框图: …

保护数字资产:iOS 加固在当前安全环境中的重要性

随着互联网和手机的发展,APP在我们的日常生活中已经变得无处不在,各大平台的应用程序成为了黑客攻击的主要目标。尤其在 2024 年,随着数据泄露和隐私侵犯事件的频发,手机应用的安全问题再次成为公众关注的焦点。近期,多…

【数据结构】动态规划-基础篇

针对动态规划问题,我总结了以下5步: 确定dp数组以及下标的含义; 递推公式; dp数组如何初始化; 遍历顺序; 打印dp数组(用来debug); 以上5步适用于任何动态规划问题&#x…