RTL设计指导原则

RTL设计指导原则

一、面积与速度互换原则

1. 电路设计中的面积与速度

面积:设计所消耗的目标器件的硬件资源数量或者ASIC芯片的面积。

  • FPGA:所消耗的触发器(FF)和查找表(LUT)数量来衡量;

  • ASIC:设计的面积、门数等衡量。

速度:设计在芯片上稳定运行时所能够达到的最高频率。

与众多时序特征向量密切相关:

  • 设计满足的时钟周期
  • PAD to PAD Time
  • Clock Set up Time
  • Clock Hold Time
  • Clock-to-Output Dela

面积和速度这两个指标贯穿于RTL设计的始终,是衡量设计质量的终极标准。

2. 面积和速度的平衡与互换原则

面积和速度是对立统一的矛盾体,要求设计面积最小,运行速率最高是不现实的。

2.1 科学的设计目标

面积:在满足设计时序要求(包含对设计最高频率的要求)的前提下,占用最小的芯片面积;

速度:在所规定的面积下,使设计的时序余量更大,频率更高。

如果设计的时序余量比较大,运行的频率比较高,

  • 设计的健壮性更强

  • 整个系统的质量更有保证

设计所消耗的面积更小

  • 在单位芯片上实现的功能模块更多

  • 需要的芯片数量更少

  • 成本大幅度削减

满足时序、工作频率的要求更重要一些,当两者发生冲突时,应采用速度优先的原则。

2.2 面积和速度的互换理论

用速度的优势对换面积的节约。

若设计时序余量大,能跑的频率远远高于设计要求

设计方法:通过功能模块复用减少整个设计所消耗的芯片面积,

用面积复制换取速度的提高。

若设计时序要求高,普通方法达不到设计频率

设计方法:

  • 将数据流串并转换

  • 并行复制多个操作模块,

  • 对整个设计采取"乒乓操作"和"串并转换"的思想进行处理

  • 在芯片输出模块处再对数据进行"井串转换"

面积和速度互换的操作技巧

  • 模块复用
  • 乒乓操作
  • 串井转换

实例:

输入数据流的速率450Mbit/s,数据处理模块的处理速度最大为150Mbit/s,处理模块的数据吞吐量满足不了要求。

解决方案:

  • 利用“面积换速度”的思想,至少复制3个处理模块;

  • 首先将输入数据进行“串并转换”;

  • 然后利用这3个模块并行处理分配的数据;

  • 最后将处理结果“并串转换"以满足数据速率的要求。

设计示意图如所示:

在这里插入图片描述

二、乒乓操作

“乒乓操作”是一个常常应用于数据流控制的处理技巧。

典型乒乓操作如同所示:

在这里插入图片描述

1. 乒乓操作的流程

输入数据流通过输入数据流选择单元,将输入数据流等分配到两个数据缓存区

数据缓冲模块,为任何存储模块。

常用的存储单元为:

  • 双口RAM(DPRAM)

  • 单口RAM(SPRAM)

  • FIFO

在第1个缓冲周期

将输入的数据流缓存到数据缓冲模块1

在第2个缓冲周期

  • 通过数据选择单元的切换,将输入的数据流缓存到数据缓冲模块2中

  • 同时将数据缓冲模块1缓存的第1个周期的数据,通过输出数据选择单元的选择送到数据流运算处理模块进行运算处理

在第3个缓冲周期

  • 通过数据选择单元的再次切换,将输入的数据流缓存到数据缓冲模块1中

  • 同时将数据缓冲模块2缓存的第2个周期的数据,通过输出数据选择单元的选择切换送到数据流运算处理模块进行运算处理

如此循环,完成数据输入

2.乒乓操作的优点

1、应用于流水线式算法,完成数据的无缝缓冲与处理。

乒乓操作的最大特点是通过“输入数据选择单元”和“输出数据选择单元”按节拍、相互配合的切换。将经过缓冲的数据流没有停顿地送到“数据流运算处理模块”进行运算与处理。

把乒乓操作模块当做一个整体,站在这个模块的两端看数据,输入数据流和输出数据流都是连续不断的,没有任何停顿,因此非常适合对数据流进行流水线式处理。所以乒乓操作常常应用于流水线式算法,完成数据的无缝缓冲与处理。

2、节约缓冲区空间。

例子:WCDMA基带应用

1个帧是有15个时隙组成,需要将1整帧的数据延时一个时隙后处理。

解决方案:

比较直接的方法:帧数据缓存起来,然后延时1个时隙进行处理

这时缓冲区的长度是一整帧的长,假设数据速率为3.84Mbps,1帧长10ms,此时需要缓冲区的长度为38400位。

采用乒乓操作

只需定义两个能缓冲1个时隙数据的RAM(单口RAM即可)。

在这里插入图片描述

当向一块RAM写数据的时候,从另一块RAM来读取数据,然后送到处理单元进行处理

此时,每块RAM的容量为:38400/15=2560

两个RAM加起来的容量只要5120位。

3、巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。

例子:

假设端口输入A的数据流的速率为100Mbps,乒乓操作的缓冲周期10ms,以下分析各个节点端口的数据速率

在这里插入图片描述

数据缓冲模块采用双口RAM(DPRAM),在DPRAM之后,引入了一级数据预处理模块

数据预处理,可以根据需要的各种数据运算(如,在WCDMA设计中,对输入数据流进行解扩、解扰、去旋转等)

解决方案:

在第1个缓冲周期10ms内

通过输入数据选择单元,从B1到达DPRAM1,B1处的数据速率也是100Mbps,所以DPRAM1要在10ms内写入1Mb数据。

在第2个缓冲周期10ms内

数据流切换到DPRAM2,端口B2处的数据速率也是100Mbps,DPRAM2在第2个10ms被写入1Mb数据。

在第3个缓冲周期10ms内

数据流切换到DPRAM1,DPRAM1被写入1Mb数据。

到第3个周期时,留给DPRAM1读取数据,并送到数据预处理模块1的时间,一共是20ms。

所以端口C1的数据速率为1Mb/20ms=500Mbps

因此,数据预处理模块1的最低数据吞吐能力也仅仅要求为500Mbps,

同理,数据预处理模块2的最低数据吞吐能力也仅仅要求为500Mbps.

数据读取过程:

在第2个缓冲周期,向DPRAM2写数据的10ms内,DPRAM1是可以进行读操作的。

在第1个缓冲周期的第5ms起(绝对时间为5ms时刻),DPRAM1就可以一边向500K以后的地址写数据,一边从地址0读数,到达10ms时,DPRAM1刚好写完了1Mb数据,并且读了500K数据,这个缓冲时间内DPRAM1读了5ms。

在第3个缓冲周期的第5ms起(绝对时间为35ms时刻),同理可以一边向500K以后的地址写数据一边从地址0读数,又读取了5个ms,所以截止DPRAM1第一个周期存入的数据被完全覆盖以前,DPRAM1最多可以读取20ms时间,而所需读取的数据为1Mb。

换言之,通过乒乓操作,数据预处理模块的时序压力就减轻了。仅仅为输入速率的二分之一。

三、流水线

电路的最高频率,取决于最长组合逻辑链的延迟值。

1. 组合逻辑链的串行闲置

如果将这条最长组合逻辑路径,划分为很多小的逻辑,就可以看到,在数据向前传播的过程中,每个时刻,大部分的组合逻辑单元,总是处于闲置状态,电路效率很低。

在这里插入图片描述

在这里插入图片描述

例子:计算log(|a+b|)

在这里插入图片描述

使用组合逻辑进行计算,整条路径上的延迟=加法器+求绝对值+求对数,三个部分组合逻辑之和。

如果在电路中插入两级寄存器,那么电路的工作频率取决于加法器、求绝对值、求对数,三者的最大值。而且,每个时刻,三个部分都在运行。

在这里插入图片描述

这种插入寄存器的形式,来提高电路运行频率的方法,叫做流水线。

对比发现,流水线的方式,可以充分提高电路工作频率,理想情况下,本例中运行的频率,可以提升为原来的三倍。

2. 典型四级流水线的结构

通过四级触发器,把一条组合逻辑划成4部分

注意:这个划分是根据延迟来划分的,不是根据功能。

在这里插入图片描述

四级流水线比较
相比流水线划分之前,流水线方法可以充分提高系统的工作频率,但是评价一个电路的运算性能,通常是考虑其单位时间的计算量或者是一定计算总量下的处理时间。

如果是以一组N个顺序输入数据的运算时间作为衡量,非流水线计算时间为NT,流水线为(N+3)pipeline的时间。

哪个更好,需要通过具体情况判断。绝大部分情况,流水线更好。

非流水线四级流水线
逻辑链延迟时间 T T T T p i p e T_{pipe} Tpipe
系统最高时钟频率 f = 1 / T f=1/T f=1/T f p i p e = 1 / T p i p e f_{pipe}=1/T_{pipe} fpipe=1/Tpipe
一组 N 个顺序输入数据的运算时间 N T NT NT 4 T p i p e + ( N − 1 ) T p i p e = ( N − 3 ) T p i p e 4T_{pipe}+(N-1)T_{pipe}=(N-3)T_{pipe} 4Tpipe+(N1)Tpipe=(N3)Tpipe

3. 流水线特点与好处:

特点:

  • 通过插入寄存器,将长的串行逻辑链分成较小的部分

  • 当系统运算是串行的时候,利用时钟控制,使运算依照顺序按续进行

  • 在任何给定时刻,大部分电路都在工作

好处:

  • 每一部分延时较小→可使用更快的时钟

  • 大部分电路同时进行运算→可提高数据通过量

4. 流水线参数设计

流水线的参数设计中,系统时钟取决于最慢的流水线级的延时。

流水线分割点及级数的确定要考虑的因素包括:

  • 单元延迟时间及时钟频率的大小决定了数据通过速率
  • 过多的级数不一定能产生最快的结果
  • 太多寄存器的插入会导致芯片面积增加,布线困难,时钟偏差增加

参考资料:

芯动力——硬件加速设计方法

RTL设计指导原则

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/542811.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【免安装的MATLAB--MATLAB online】

目录: 前言账号的注册图片处理的示例准备图片脚本函数 总结 前言 在计算机、数学等相关专业中,或多或少都会与MATLAB产生藕断丝连的联系,如果你需要使用MATLAB,但是又不想要安装到自己的电脑上(它实在是太大了啊&#…

华为海思数字芯片设计笔试第四套

声明 下面的题目作答都是自己认为正确的答案,并非官方答案,如果有不同的意见,可以评论区交流。 这些题目也是笔者从各个地方收集的,感觉有些题目答案并不正确,所以在个别题目会给出自己的见解,欢迎大家讨论…

L1-041 寻找250

对方不想和你说话,并向你扔了一串数…… 而你必须从这一串数字中找到“250”这个高大上的感人数字。 输入格式: 输入在一行中给出不知道多少个绝对值不超过1000的整数,其中保证至少存在一个“250”。 输出格式: 在一行中输出第一次…

【架构-8】Lambda和Kappa架构

Lambda架构? Lambda架构(三层架构): (1)将数据处理分为实时和离线两部分。离线部分通过批量计算处理数据,实时部分则通过增加追加方式将数据合并到批处理中。 (2)批处理…

js canvas实现裁剪图片并下载

简历上给自己挖的坑,面试被拷打,早就该填了T.T 参考:【js canvas实现图片裁剪】 https://www.bilibili.com/video/BV1QK411d7n1/?share_sourcecopy_web&vd_sourcebf743b20b76eab11028ba2fb05f056b4 效果 思路 组成: 上传文…

基于Springcloud可视化项目:智慧工地可视化大数据云平台源码

目录 技术架构 智慧工地系统在实际推行过程中遇到的问题 智慧工地接纳程度较低 基础设施条件有待完善 智慧工地整体生态尚未完善 智慧工地平台各功能模块 施工过程工信程息信管息理管模理块 人员管理模块 生产管理模块 技术管理模块 质量管理模块 安全管理模块 绿…

记录一个Kafka客户端Offset Explore连不上的问题

我昨天把集群重装了一下,再连这个工具就连不上了(你先把zk和kafka在集群启起来),报错截图如下: 英文翻译过来大概就是说遍历zk指定路径不存在,我还以为zk的问题,回去又把zk的文档翻了一遍&#…

多线程代码案例之阻塞队列

目录 1.生产者消费者模型 2.使用标准库中的阻塞队列 3.模拟实现阻塞队列 在介绍阻塞队列之前,会先介绍一些前置知识,像队列:有普通队列、优先级队列、阻塞队列、和消息队列。前面两个是线程不安全的,而后面两个是线程安全的。本…

FFmpeg: 自实现ijkplayer播放器--03UI界面设计

文章目录 UI设计流程图UI设计界面点击播放功能实现 UI设计流程图 UI设计界面 主界面 控制条 播放列表 画面显示 标题栏 设置界面 提示框 点击播放功能实现 槽函数实现: connect(ui->ctrlBarWind, &CtrlBar::SigPlayOrPause, this, &Main…

软件杯 深度学习卷积神经网络垃圾分类系统 - 深度学习 神经网络 图像识别 垃圾分类 算法 小程序

文章目录 0 简介1 背景意义2 数据集3 数据探索4 数据增广(数据集补充)5 垃圾图像分类5.1 迁移学习5.1.1 什么是迁移学习?5.1.2 为什么要迁移学习? 5.2 模型选择5.3 训练环境5.3.1 硬件配置5.3.2 软件配置 5.4 训练过程5.5 模型分类效果(PC端) 6 构建垃圾…

InnoDB中高度为3的B+树最多可以存多少数据?

参考: 🔥我说MySQL每张表最好不超过2000万数据,面试官让我回去等通知? - 掘金 考虑到磁盘IO是非常高昂的操作,计算机操作系统做了预读的优化,当一次IO时,不光把当前磁盘地址的数据,…

QtCreater 使用

QtCreater 创建项目 1.刚进入 QtCreater 的界面是这样的一个界面 ① 创建一个新的文件,那么我们就选择左上角的 “文件” ② 点击新建文件,或者也可以直接使用快捷键 CtrlN 此时就会弹出对话框,让我们选择想要创建的文件: Appli…

stm32f103---按键控制LED---代码学习

目录 一、总体代码 二、LED端口初始化分析 ​编辑 三、LED灭的控制 四、LED亮 五、按键初始化 ​ 六、按键控制LED的功能 一、总体代码 这里使用到了LED灯和按键,实现效果是当按键按下时灯的亮灭转化 #include "stm32f10x.h" #include "bsp_led…

Notion2024年最新桌面端安装+汉化教程,支持MAC和WIN版本

Notion 是一个多功能的协作工具,可以用于个人和团队的知识管理、项目管理、笔记记录和协同编辑等。它提供了灵活的页面和数据库功能,可以根据不同需求进行自定义和组织。Notion 能够帮助用户更高效地组织和共享信息,提升工作效率和团队合作。…

ThingsBoard通过服务端获取客户端属性或者共享属性

MQTT基础 客户端 MQTT连接 通过服务端获取属性值 案例 1、首先需要创建整个设备的信息,并复制访问令牌 ​2、通过工具MQTTX连接上对应的Topic 3、测试链接是否成功 4、通过服务端获取属性值 5、在客户端查看对应的客户端属性或者共享属性的key 6、查看整个…

改进YOLOv8系列:结合自研注意力模块MultiScaleAttentiveConv (MSAConv)

改进YOLOv8注意力系列七:结合空间关系增强注意力SGE、SKAttention动态尺度注意力、全局上下文信息注意力Triplet Attention 代码MultiScaleAttentiveConv (MSAConv)本文提供了改进 YOLOv8注意力系列包含不同的注意力机制以及多种加入方式,在本文中具有完整的代码和包含多种更…

蓝桥杯嵌入式(G431)备赛笔记——DMA+ADC(单通道+多通道)

单通道&#xff1a; 开启循环模式&#xff0c;两个参数设为word u32 adc_tick0; u32 r37_value0; u32 r38_value0; float r37_volt0; float r38_volt0;//DMAADCvoid DMA_ADC() {if(uwTick-adc_tick<100) return;adc_tick uwTick;HAL_ADC_Start_DMA(&hadc2, &r37_v…

vivado ila 运行触发器、停止触发器、使用自动重新触发

运行触发器 您可在 2 种不同模式下运行或装备 ILA 核触发器 &#xff1a; • “ Run Trigger ” &#xff1a; 选择要装备的 ILA 核 &#xff0c; 然后单击“ ILA 仪表板 (ILA Dashboard) ”窗口或“硬件 (Hardware) ”窗口 工具栏上的“ Run Trigger ”按钮即可装备 IL…

013:vue3 Pinia详解使用详解

文章目录 1. Pinia 是什么2. Pinia 功能作用3. 手动添加Pinia到Vue项目4. Pinia基础使用5. getters实现6. action异步实现7. storeToRefs工具函数8. Pinia的调试9. 总结 1. Pinia 是什么 Pinia 是 Vue 的专属的 最新状态管理库是 Vuex 状态管理工具的替代品和 Vuex 一样为 Vue…

Django处理枚举(枚举模型)以及source的使用

Django处理枚举-枚举模型 1、定义模型类、序列化器类2、对上面这些场景使用source参数3、支持连表查询4、自定义序列化输出方法5、案例5 1、定义模型类、序列化器类 定义模型类models.py&#xff1b;项目模型类、接口模型类、用例模型类 from django.db import modelsclass T…