数字IC前端学习笔记:脉动阵列的设计方法学(以串行FIR滤波器为例)

相关阅读数字IC前端_日晨难再的博客-CSDN博客icon-default.png?t=O83Ahttps://blog.csdn.net/weixin_45791458/category_12173698.html?spm=1001.2014.3001.5482


引言

        脉动结构(也称为脉动阵列)表示一种有节奏地计算并通过系统传输数据的处理单元(PEs)网络。这些处理单元有规律地泵入泵出数据以保持规则的数据流。因此,脉动阵列的特征是模块化和规则化,这对于VLSI设计来说是一个重要的性质。脉动阵列可以作为与主机配合的协处理器,从主机接收数据进行计算并将最终结果返回主机。这个操作类似心脏的血液流动,因此被称为“脉动”。

        典型情况下,脉动阵列的所有处理单元是相同的,且全流水的(即PE包含寄存器等延时单元),通常只包含局部互联。然而,为了增加脉动阵列的实用性,一些设计也存在放宽。这些放宽包括:不仅使用局部互连,还使用邻近(接近,但不是最近的)互连,使用数据广播操作,以及在系统中使用不同的处理单元,特别是在边界处。通过这些放宽措施,可以为数字信号处理(DSP)应用设计一系列模块化、规则和高效的数据驱动阵列架构。

        本文以串行FIR滤波器为例介绍了脉动阵列设计方法学,其中可以使用线性映射或投影技术为任何给定的规则迭代算法设计多种流线架构。

脉动阵列设计方法学

        流线架构是通过在规则依赖图上使用线性映射技术来设计的。依赖图中的边表示前置约束。一个依赖图(DG)如果在任何节点中某个方向上的边的存在,意味着在依赖图中的所有节点在同一方向上都有相应的边,那么该依赖图被称为规则依赖图。

        作为一个例子,考虑如下所示的3抽头FIR滤波器的依赖图,如图1所示。

y(n) = \omega _{0}x(n) + \omega _{1}x(n - 1) + \omega _{2}x(n - 2)

图1 FIR滤波器的依赖图(空间表示)

        这个依赖图有3个基本的边(用\boldsymbol{e}表示):输入用向上的边用向量表示为(0, 1),系数用向右的边用向量表示为(1, 0),输出用下右下角移动的边用向量表示为(1, -1)。由于依赖图中的所有节点都包含这3种边,因此该依赖图是规则的。

        该依赖图对应于一个空间表示,因为其中没有为任何计算分配时间不。映射技术将空间表示转换为空间-时间表示,在空间-时间表示中,每个节点被映射到某个处理单元,并且被调度到某个时间步。

        脉动阵列设计方法学将一个N维的依赖图映射到一个低维的脉动阵列。在本文中,只考虑一级映射,即将一个N维的依赖图映射到一个(N-1)维的脉动阵列(对于FIR滤波器而言是将2维依赖图映射到1维脉动阵列)。

        下面定义脉动阵列设计中的基本向量:

  • 投影向量(也称迭代向量):\boldsymbol{d} = (d_{1}, d_{2}),如果两个节点间的距离为投影向量的整数倍,则他们由同一个处理单元计算。
  • 处理器空间向量:\boldsymbol{p} = (p_{1}, p_{2}),任何坐标为\boldsymbol{I} = (i, j)的节点由处理单元\boldsymbol{p} \cdot \boldsymbol{I}计算。
  • 调度向量:\boldsymbol{s} = (s_{1}, s_{2}),任何坐标为\boldsymbol{I} = (i, j)的节点在时间步\boldsymbol{s} \cdot \boldsymbol{I}计算。
  • 硬件利用率:\boldsymbol{HUE} = 1 / ( \boldsymbol{s} \cdot \boldsymbol{d}),这是因为同一个处理单元的两次计算相隔\boldsymbol{s} \cdot \boldsymbol{d}

        对于给定的问题,可以通过选择不同的投影向量、处理器空间向量和调度向量来设计多种脉动阵列,但这些向量必须满足以下推导出的两个可行性约束。

        1、处理器空间向量和投影向量必须彼此正交(内积为0)。如果节点A和B间的距离等于投影向量的整数倍,即\boldsymbol{I_{A}} - \boldsymbol{I_{B}} = n\boldsymbol{d},则这两个节点由同一个处理单元计算,所以\boldsymbol{p} \cdot \boldsymbol{I_{A}} = \boldsymbol{p} \cdot \boldsymbol{I_{B}},即\boldsymbol{p} \cdot (\boldsymbol{I_{A}} - \boldsymbol{I_{B}}) = 0 \rightarrow n\boldsymbol{p} \cdot \boldsymbol{d} = 0

        2、如果节点A和B被映射到同一个处理器,那么它们不能同时计算,所以\boldsymbol{s} \cdot \boldsymbol{I_{A}} \neq \boldsymbol{s} \cdot \boldsymbol{I_{B}},即\boldsymbol{s} \cdot (\boldsymbol{I_{A}} - \boldsymbol{I_{B}}) \neq 0 \rightarrow n\boldsymbol{s} \cdot \boldsymbol{d} \neq 0

        将空间表示转换为空间-时间表示时,引入处理器轴\boldsymbol{j^{'} }= \boldsymbol{p} \cdot \boldsymbol{I},时间步轴\boldsymbol{t^{'}} = \boldsymbol{s} \cdot \boldsymbol{I}。 

        将依赖图映射到脉动阵列时,每个依赖图中的边\boldsymbol{e}对应脉动阵列中的一个延时边,方向\boldsymbol{p} \cdot \boldsymbol{e},延时值为\boldsymbol{s} \cdot \boldsymbol{e}

设计1(输入广播、权重保持、输出移动)

        设计1通过选择如下投影向量、处理器向量和调度向量得到:

\boldsymbol{d} = (1, 0)\, \, \, \, \, \boldsymbol{p} = (0, 1)\, \, \, \, \, \boldsymbol{s} = (1, 0)

        可以很容易地验证,这些向量满足提到的两个可行性约束,并且可得到:

  • 任何坐标为\boldsymbol{I} = (i, j)的节点由处理单元\boldsymbol{p} \cdot \boldsymbol{I} = j计算,即同一条水平线上的节点由同一个处理单元计算。
  • 任何坐标为\boldsymbol{I} = (i, j)的节点在时间步\boldsymbol{s} \cdot \boldsymbol{I} = i计算。
  • 硬件利用率为\boldsymbol{HUE} = 1 / ( \boldsymbol{s} \cdot \boldsymbol{d}) = 1

        在空间-时间表示中,处理器轴\boldsymbol{j^{'} }= \boldsymbol{p} \cdot \boldsymbol{I}对应空间表示中的\boldsymbol{j}轴,时间步轴\boldsymbol{t^{'}} = \boldsymbol{s} \cdot \boldsymbol{I}对应空间表示中的\boldsymbol{i}轴,如图2所示。

图2 FIR滤波器的依赖图(空间-时间表示)

        由图2可以看出,输入在同一时间步会被广播到所有的处理单元,权重会保持在相应处理单元中而输出则出现在不同的处理单元和时间步。

        将依赖图映射到脉动阵列时,边映射的情况如表1所示。

表1 设计1的边映射情况

\boldsymbol{e}\boldsymbol{p}\boldsymbol{s}\boldsymbol{p} \cdot \boldsymbol{e}(方向)\boldsymbol{s} \cdot \boldsymbol{e}(延迟)

输入:(0, 1)

(0, 1)(1, 0)10
权重:(1, 0)01
输出:(1, -1)-11

        图3给出了设计1的脉动阵列框图,其中D代表有延时单元(如寄存器)的边。

图3 设计1的脉动阵列框图

        设计1的具体实现如图4所示。

图4 设计1的具体实现

Verilog实现

module PE #(
    parameter WEIGHT = 8'shA5   // 定义参数,默认为8位有符号常数A5
)(
    input wire clk,                    // 时钟信号
    input wire rst,                    // 重置信号
    input wire signed [7:0] data_in,   // 8位有符号输入数据
    input wire signed [31:0] sum_in,   // 32位有符号加法输入值
    output wire signed [31:0] sum_out  // 32位有符号输出结果
);

    reg signed [7:0]  weight = WEIGHT;   // 使用参数传递的值来代替内部常数
    reg signed [31:0] mul_result;        // 存储乘法结果
    reg signed [31:0] add_result;        // 存储加法结果
    reg signed [31:0] reg_out;           // 存储输出寄存器的值

    // 乘法操作(组合逻辑)
    always @(*) begin
        mul_result = data_in * weight;    // 乘法操作,乘以PE内部的常数值
    end

    // 加法器操作
    always @(*) begin
        add_result = mul_result + sum_in; // 乘法结果与加法输入相加
    end

    // 输出寄存器
    always @(posedge clk or posedge rst) begin
        if (rst) begin
            reg_out <= 32'b0;      // 复位时清零输出寄存器
        end else begin
            reg_out <= add_result; // 输出加法器的结果
        end
    end

    // 输出信号
    assign sum_out = reg_out;

endmodule

module FIR_ststolic_arrays (
    input wire clk,                   // 时钟信号
    input wire rst,                   // 重置信号
    input wire signed [7:0] data_in,  // 顶层输入数据
    output wire signed [31:0] sum_out // PE0的输出
);

    // 中间信号
    wire signed [31:0] sum_out_1_wire;  // PE1的sum_out连接到PE0的sum_in
    wire signed [31:0] sum_out_2_wire;  // PE2的sum_out连接到PE1的sum_in

    // 实例化PE0
    PE #(
        .WEIGHT(8'shA5)  // 设置PE0的weight值
    ) PE0 (
        .clk(clk),
        .rst(rst),
        .data_in(data_in),        // 顶层的data_in连接到PE0的data_in
        .sum_in(sum_out_1_wire),  // PE0的sum_in连接到PE1的sum_out
        .sum_out(sum_out)         // PE0的sum_out输出到顶层sum_out_0
    );

    // 实例化PE1
    PE #(
        .WEIGHT(8'shB7)  // 设置PE1的weight值
    ) PE1 (
        .clk(clk),
        .rst(rst),
        .data_in(data_in),       // 顶层的data_in连接到PE1的data_in
        .sum_in(sum_out_2_wire), // PE1的sum_in连接到PE2的sum_out
        .sum_out(sum_out_1_wire) // PE1的sum_out输出到PE0的sum_in
    );

    // 实例化PE2
    PE #(
        .WEIGHT(8'shC3)  // 设置PE2的weight值
    ) PE2 (
        .clk(clk),
        .rst(rst),
        .data_in(data_in),       // 顶层的data_in连接到PE2的data_in
        .sum_in(32'b0),          // PE2的sum_in设为0
        .sum_out(sum_out_2_wire) // PE2的sum_out输出到PE1的sum_in
    );

endmodule

        本文参考《VLSI Digital Signal Processing Systems Design and Implementation》,作者为
Keshab K.Parhi。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/929218.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

图片预处理技术介绍4——降噪

图片预处理 大家好&#xff0c;我是阿赵。   这一篇将两种基础的降噪算法。   之前介绍过均值模糊和高斯模糊。如果从降噪的角度来说&#xff0c;模糊算法也算是降噪的一类&#xff0c;所以之前介绍的两种模糊可以称呼为均值降噪和高斯降噪。不过模糊算法对原来的图像特征的…

【数据中心建设资料】数据中心安全建设解决方案,数据中心整理解决方案,数据中心如何做到安全保障,数据中台全方案(Word全原件)

第一章 解决方案 1.1 建设需求 1.2 建设思路 1.3 总体方案 信息安全系统整体部署架构图 1.3.1 IP准入控制系统 1.3.2 防泄密技术的选择 1.3.3 主机账号生命周期管理系统 1.3.4 数据库账号生命周期管理系统 1.3.5 双因素认证系统 1.3.6 数据库审计系统 1.3.7 数据脱敏系统 1.3.8…

十,[极客大挑战 2019]Secret File1

点击进入靶场 查看源代码 有个显眼的紫色文件夹&#xff0c;点击 点击secret看看 既然这样&#xff0c;那就回去查看源代码吧 好像没什么用 抓个包 得到一个文件名 404 如果包含"../"、"tp"、"input"或"data"&#xff0c;则输出"…

UE5 C++ 不规则按钮识别,复选框不规则识别 UPIrregularWidgets

插件名称&#xff1a;UPIrregularWidgets 插件包含以下功能 你可以点击任何图片&#xff0c;而不仅限于矩形图片。 UPButton、UPCheckbox 基于原始的 Button、Checkbox 扩展。 复选框增加了不规则图像识别功能&#xff0c;复选框增加了悬停事件。 欢迎来到我的博客 记录学习过…

【数据结构】手搓链表

一、定义 typedef struct node_s {int _data;struct node_s *_next; } node_t;typedef struct list_s {node_t *_head;node_t *_tail; } list_t;节点结构体&#xff08;node_s&#xff09;&#xff1a; int _data;存储节点中的数据struct node_s *_next;&#xff1a;指向 node…

【Win11的Bug】无法在文件夹中创建txt文件

问题 右键只能新建文件夹 , 无法新建txt文本文档 解决办法 将注册表中的一个参数从1改为0即可. 具体内容: WinR输入regeditHKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Policies\System 将1改为0(下面这张图我已改过) 4.然后重新启动电脑即可 小技…

基于Matlab三点雨流计数法的载荷时间历程分析与循环疲劳评估

随着工程领域中机械设备和结构系统的复杂性不断增加&#xff0c;疲劳分析成为评估其可靠性与使用寿命的关键环节。载荷时间历程数据在疲劳分析中扮演着重要角色&#xff0c;而雨流计数法作为经典的循环计数方法&#xff0c;能够有效地从载荷时间历程中提取疲劳载荷循环信息。本…

二、部署docker

二、安装与部署 2.1 安装环境概述 Docker划分为CE和EE&#xff0c;CE为社区版&#xff08;免费&#xff0c;支持周期三个月&#xff09;&#xff0c;EE为企业版&#xff08;强调安全&#xff0c;付费使用&#xff09;。 Docker CE每月发布一个Edge版本&#xff08;17.03&…

python + PPT

ppt转化为word 对于PPT中的文本内容&#xff0c;如何转化为word内容呢&#xff1f;下面的代码可以实现如下功能 代码如下&#xff1a; from pptx import Presentation from docx import Documentdef clean_text(text):"""清理文本&#xff0c;移除控制字符&quo…

linux运维命令

防火墙相关命令 防火墙规则查看 firewall-cmd --list-all 禁ping firewall-cmd --permanent --add-rich-rulerule protocol valueicmp drop firewall-cmd --reload 执行完以上命令后&#xff0c;通过firewall-cmd --list-all查看规则生效情况 firewall-cmd --list-all 其…

论文笔记:Asymptotic Midpoint Mixup for Margin Balancing and Moderate Broadening

1. Motivation 在特征空间中&#xff0c;特征之间的collapse会导致representation learning 中的关键问题&#xff0c;这是因为特征之间不可区分。基于线性插值的增强方法&#xff08;例如 mixup&#xff09;已经显示出它们在缓解类间塌陷&#xff08;称为inter-class collaps…

Elasticsearch之索引的增删改查(6.x版本)-yellowcong

1. 节点信息查看 #查看集群健康情况 curl -X GET localhost:9200/_cat/health?v&pretty#查看节点信息 curl -X GET localhost:9200/_cat/nodes?v&pretty 2. 索引管理 在es中&#xff0c;索引就相当于是mysql中的库了。 #查看索引列表 curl -X GET localhost:9200/…

Linux红帽认证有哪些等级?RHCE含金量如何?

工 仲 好&#xff1a;IT运维大本营哈喽&#xff0c;大家好&#xff01; 红帽认证&#xff0c;作为一个备受瞩目的认证体系&#xff0c;其完善程度在行业内有口皆碑。 它清晰地划分为三个等级&#xff0c;分别是初级、中级和高级&#xff0c;每个等级都具有独特的要求和价值。…

ArcGIS求取多个点距离线要素的最近距离以及距离倒数

本文介绍在ArcMap软件中&#xff0c;对于点要素中的每一个点&#xff0c;求取其距离最近的道路的距离、距离倒数的方法。 首先&#xff0c;看一下本文的需求。现在已知一个点要素&#xff0c;其中含有多个点&#xff0c;假设每一个点表示城市中的一家商店&#xff1b;同时&…

大数据实验E5HBase:安装配置,shell 命令和Java API使用

实验目的 熟悉HBase操作常用的shell 命令和Java API使用&#xff1b; 实验要求 掌握HBase的基本操作命令和函数接口的使用&#xff1b; 实验平台 操作系统&#xff1a;Linux&#xff08;建议Ubuntu16.04或者CentOS 7 以上&#xff09;&#xff1b;Hadoop版本&#xff1a;3…

跑一下pyapp

文档&#xff1a;How-to - PyApp 首先没有rust要安装 安装 Rust - Rust 程序设计语言 查看是否安装成功 然后clone下pyapp https://github.com/ofek/pyapp/releases/latest/download/source.zip -OutFile pyapp-source.zip 进入目录中&#xff0c;cmd&#xff0c;设置环境…

Python_Flask01

所有人都不许学Java了&#xff0c;都来学Python&#xff01; 如果不来学的话请网爆我的老师---蔡老师 Flask的前世姻缘 我不知道&#xff0c;没啥用&#xff0c;要学好这个框架&#xff0c;其实多读书&#xff0c;多看报就行了&#xff0c;真心想了解的话&#xff01; Welcom…

Unity性能优化---动态网格组合(一)

网格组合是将 Unity 中的多个对象组合为一个对象的技术。因此&#xff0c;在多物体的场景中&#xff0c;使用网格组合&#xff0c;会有效的减少小网格的数量&#xff0c;最终将得到一个包含许多小网格的大网格游戏对象&#xff0c;这将提高游戏或模拟器的性能。在Unity 的 “St…

Docker 逃逸突破边界

免责声明 本博客文章仅供教育和研究目的使用。本文中提到的所有信息和技术均基于公开来源和合法获取的知识。本文不鼓励或支持任何非法活动&#xff0c;包括但不限于未经授权访问计算机系统、网络或数据。 作者对于读者使用本文中的信息所导致的任何直接或间接后果不承担任何…

Kafka知识体系

一、认识Kafka 1. kafka适用场景 消息系统&#xff1a;kafka不仅具备传统的系统解耦、流量削峰、缓冲、异步通信、可扩展性、可恢复性等功能&#xff0c;还有其他消息系统难以实现的消息顺序消费及消息回溯功能。 存储系统&#xff1a;kafka把消息持久化到磁盘上&#xff0c…