脉冲扩散模型

论文 Spiking Diffusion Models 主要内容是提出了“脉冲扩散模型(Spiking Diffusion Models, SDMs)”,一种基于脉冲神经网络(SNN)的生成模型,旨在解决传统人工神经网络(ANN)在图像生成领域中的高能耗和计算强度问题。脉冲神经网络因其生物学上的合理性和低能耗特性而受到广泛关注。

对最先进的SNN模型进行比较。FID采用log2尺度,标记的大小对应于IS指标。与其他SNN生成模型相比,我们的模型在使用较少时间步长的情况下表现出更好的FID。

一、引言

本论文提出了一种名为“脉冲扩散模型(Spiking Diffusion Models, SDMs)”的新型生成模型。SDMs结合了脉冲神经网络(Spiking Neural Networks, SNNs)的低能耗特性与扩散模型(Diffusion Models)的强大生成能力,旨在解决传统人工神经网络(Artificial Neural Networks, ANNs)在图像生成任务中面临的高能耗和计算强度问题。脉冲神经网络因其生物学上的合理性和高效的能量利用率,近年来在神经计算领域受到广泛关注。然而,现有的SNN生成模型在图像质量和生成性能方面尚未达到ANN模型的水平。为此,本文提出了两项核心创新,以提升SNN在生成任务中的表现。

二、相关工作

2.1 脉冲神经网络(SNNs)

SNNs模拟生物神经元的脉冲传递机制,通过离散的脉冲(spikes)进行信息传递,具有低能耗和高效处理时序信息的优势。近年来,随着硬件技术的发展,SNNs在图像识别、目标检测等任务中取得了一定的成果。

2.2 扩散模型(Diffusion Models)

扩散模型是一类基于概率模型的生成方法,通过逐步去噪生成高质量的图像。近年来,扩散模型在图像生成任务中表现出色,成为GANs的有力竞争者。然而,扩散模型通常需要大量的计算资源,限制了其在低能耗设备上的应用。

2.3 SNN与扩散模型的结合

尽管SNN在能耗和时序信息处理上具有优势,但将其应用于生成任务尚处于起步阶段。现有工作主要集中在SNN与GANs的结合上,而将SNN应用于扩散模型的研究较为有限。因此,本文旨在填补这一研究空白,提出适用于扩散模型的SNN架构。

三、方法

3.1 SDMs的总体架构

SDMs结合了扩散模型的去噪过程与SNN的脉冲传递机制。具体来说,SDMs使用SNN-UNet作为去噪网络,通过脉冲神经元的时序活动来逐步生成图像。为了提升生成质量和能效,本文引入了两项关键机制:时间脉冲机制(Temporal-wise Spiking Mechanism, TSM)和阈值引导策略(Threshold Guidance, TG)。

我们脉冲扩散模型的概述。SDM的学习过程分为两个阶段:(1)训练阶段,和(2)微调阶段。在训练阶段,我们的脉冲UNet采用标准的前脉冲残差块(左下,见第IV-A节),然后在微调阶段将前脉冲块转换为TSM块(右下,见第IV-B节)。给定一个随机高斯噪声输入\(x_t\),它首先通过脉冲编码器转换为脉冲表示,然后与时间嵌入一起输入到脉冲UNet中。该网络仅传递由0/1向量(属于\(Z{0,1}\))表示的脉冲。最终,输出的脉冲通过解码器获得预测的噪声ϵ,并计算损失来更新网络。在微调阶段,我们加载训练阶段的权重,并用TSM块替换前脉冲块,此时时间参数p初始化为1.0。此阶段将继续优化网络参数,以获得更好的生成性能。

3.2 时间脉冲机制(TSM)

TSM模块旨在增强SNN在时间维度上的信息处理能力。传统SNN的脉冲传递通常依赖于固定的突触权重,限制了信息的动态传递。TSM通过动态调整神经元的膜电位,使得SNN-UNet能够在每个时间步捕捉更多的动态信息,从而提升生成图像的细节和质量。

 

时间脉冲机制概述。当脉冲神经元触发脉冲后,脉冲将在突触前被转换为输入电流\(I\)。为了获取更多动态信息,时间参数\(P\)将作用于电流,形成时间自适应电流\(Iˆ\)。

3.3 阈值引导策略(TG)

TG是一种无需额外训练的策略,通过在推理阶段微调神经元的阈值来优化生成过程。具体而言,TG通过调整脉冲神经元的激活阈值,可以在不增加训练成本的情况下,显著提升生成图像的质量。实验表明,适当的阈值调整能够有效降低生成图像的FID分数,同时提升IS分数。

四、实验

4.1 实验设置

  • 数据集:MNIST、Fashion-MNIST、CIFAR-10、CelebA和LSUN-bed。

  • 评价指标:FID(Frechet Inception Distance)和IS(Inception Score),以及能耗测量。

  • 模型对比:与传统ANN扩散模型以及现有SNN生成模型进行对比,评估SDMs的生成性能和能耗优势。

  • 不同数据集的结果。在所有数据集中,SDMs(我们的模型)在样本质量方面优于所有SNN基线模型,甚至超过了一些ANN模型,样本质量主要通过FID和IS进行评估。▽的结果来自文献[30],♮的结果来自文献[46]。ema表示使用了EMA [75]方法。为了公平比较,我们重新评估了DDPM [16]和DDIM [32]的结果,使用了与SDMs相同的UNet架构。∗表示仅对MNIST、Fashion-MNIST和CelebA使用FID评分,因为它们的数据分布与ImageNet差异较大,使得Inception Score无意义。排名前两位的结果分别用粗体和下划线表示。

4.2 无条件图像生成结果

在MNIST、Fashion-MNIST、CIFAR-10、CelebA和LSUN-bed数据集上,SDDMs通过直接训练方法展示了优异的生成能力。表中展示了不同时间步长下SDDPM的FID和IS分数,结果表明,随着时间步长的增加,生成质量提升明显。

使用ANN-SNN方法在CIFAR-10和FFHQ64上的无条件图像生成结果。

4.3 时间脉冲机制的有效性

通过对比使用和不使用TSM模块的CIFAR-10生成结果,实验结果(图5)显示,TSM模块显著提升了生成图像的质量,表现为图像轮廓更清晰、背景更明确、纹理细节更丰富。这证明了TSM在增强SNN动态信息处理能力方面的有效性。

4.4 阈值引导策略的有效性

表III展示了不同阈值引导下CIFAR-10的生成结果。通过轻微调整脉冲神经元的阈值,TG策略显著降低了FID分数并提升了IS分数,证明了TG在推理阶段优化生成质量的有效性。

4.5 TSM方法的分析

图6展示了各层时间脉冲机制参数p[t]的平均值,结果表明,随着时间步长的增加,p[t]呈上升趋势,表明后期时间步长在信息传递过程中具有更高的重要性。TSM通过动态调整这些参数,有效提升了SNN对时序动态的理解和生成图像的质量。

4.6 计算成本评估

表IV对比了SDDPM与其对应的ANN模型在FID分数和能耗上的表现。结果显示,SDDPM在保持竞争性FID分数的同时,能耗显著降低。例如,在时间步长为4时,SDDPM的能耗仅为ANN模型的37.5%,且FID分数仅略高于ANN模型,表明SDDPM在能效和生成性能之间实现了良好的平衡。

4.7 消融实验

  • 表V:在CIFAR-10上,分别评估了TSM和TG对SDDIM的影响。结果表明,TSM和TG各自提升了生成质量,二者结合使用时,FID分数进一步显著下降,达到最佳效果。

  • 表VI:评估了SDM在不同扩散求解器上的表现,结果显示SDDIM和Analytic-SDPM在不同时间步长下均表现出色,尤其是Analytic-SDPM在FID分数上达到了新的最优水平,证明了SDM在多种扩散求解器上的通用性和优越性。

相关信息

  • 代码: https://github.com/andycao1125/sdm

  • 论文: https://arxiv.org/abs/2408.16467v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/895125.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

5G NR:UE初始接入信令流程浅介

UE初始接入信令流程 流程说明 用户设备(UE)向gNB-DU发送RRCSetupRequest消息。gNB-DU 包含 RRC 消息,如果 UE 被接纳,则在 INITIAL UL RRC MESSAGE TRANSFER 消息中包括为 UE 分配的低层配置,并将其传输到 gNB-CU。IN…

2012年国赛高教杯数学建模C题脑卒中发病环境因素分析及干预解题全过程文档及程序

2012年国赛高教杯数学建模 C题 脑卒中发病环境因素分析及干预 脑卒中(俗称脑中风)是目前威胁人类生命的严重疾病之一,它的发生是一个漫长的过程,一旦得病就很难逆转。这种疾病的诱发已经被证实与环境因素,包括气温和湿…

怎么开发一款app软件

我们公司想要做一个app软件,老板就让我多了解几家,我就总计一下相关的市场行业。 8月份我一共了解了6家的软件开发公司,也见识了什么叫软件开发公司,6套下来我也挑花了眼,老板也就更不用说了。老板只差让我做选择了…

Linux操作系统切换设置系统语言

随着工作环境中变化,我们在使用电脑时,可能要使用不同的系统语言环境,那计算机如何切换成我们需要的系统语言呢,针对Linux操作系统,这里有两种方法。一是通过桌面图形化界面切换,这种方法操作起来直观、但是…

R语言复杂抽样调查数据统计描述和分析

gtsummary包中tbl_svysummary提供了统计描述&#xff1b;tableone包中的svyCreateTableOne提供了统计比较&#xff1b;原始描述和比较可以是有table1包。 #测试数据 library(survey) setwd("F://") data(Titanic) sur_des<-survey::svydesign(~1, data as.data.…

mongoDB基础知识

文章目录 为什么使用mongoDB&#xff1f;数据模型 想了解什么mongoDB首先我们得先知道什么事“三高”&#xff1f;三高什么呐&#xff1f;具体的应用场景&#xff1f;在这些应用场景中&#xff0c;数据操作方面共同特点是&#xff1a; 什么时候选择mongoDB&#xff1f;mySQL和m…

React基础知识(一) - React初体验

React是在2013年&#xff0c; 由Faceboo开源的&#xff0c;用于构建用户界面的 JavaScript 库。总所周知啊,React是前端三大框架之一啊现在前端领域最为流行的是三大框架&#xff1a; ReactVueAngular 前端三大框架 React开发的特点&#xff1a; &#xff08;1&#xff09;声明…

编程考古-计算机发展(上)

计算机/器现在是我们日常生活中的重要工具&#xff0c;它的发展历程见证了人类数学计算能力的不断提升。 什么是计算 计算的本质在于基于规则对符号串进行变换。简言之&#xff0c;从一个初始的符号串&#xff08;输入&#xff09;出发&#xff0c;依据既定的法则逐步改变这个…

NewStarCTF2024-Week2-Misc-WP

目录 1、wireshark_checkin 2、wireshark_secret 3、字里行间的秘密 4、你也玩原神吗 5、Hertas Study 6、用溯流仪见证伏特台风 7、热心助人的小明 1、wireshark_checkin 直接字符串搜 flag flag{ez_traffic_analyze_isnt_it} 2、wireshark_secret 查看原始数据 导出十…

STM32应用详解(2)GPIO之LED闪烁——学习使用寄存器操作方法编写延时函数

文章目录 前言一、笔记1.GPIO控制LED闪烁的两种方法&#xff1a;2.系统时钟3.延时函数的实现(us) 二、代码1.main函数2.延时函数3.固件库函数4.毫秒和秒延时函数5.整体函数结构 前言 学习使用寄存器操作方法编写延时函数。 一、笔记 1.GPIO控制LED闪烁的两种方法&#xff1a;…

C语言小游戏--猜数字

游戏过程&#xff1a; 由电脑随机在某个范围内生成一个数字&#xff0c;玩家猜数字并且输入&#xff0c;电脑判断是否正确&#xff0c;正确则游戏结束&#xff0c;错误则给出提示&#xff0c;直到玩家所给的答案正确为止 思路分析&#xff1a; 1.生成随机数 2.玩家可以多次…

springboot037基于SpringBoot的墙绘产品展示交易平台的设计与实现(论文+源码)_kaic

毕 业 设 计&#xff08;论 文&#xff09; 题目&#xff1a;墙绘产品展示交易平台设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本墙绘产品展示…

Golang | Leetcode Golang题解之第479题最大回文数乘积

题目&#xff1a; 题解&#xff1a; func largestPalindrome(n int) int {if n 1 {return 9}upper : int(math.Pow10(n)) - 1for left : upper; ; left-- { // 枚举回文数的左半部分p : leftfor x : left; x > 0; x / 10 {p p*10 x%10 // 翻转左半部分到其自身末尾&…

CMOS 图像传感器:像素寻址与信号处理

CMOS image sensor : pixel addressing and signal processing CMOS image sensor 对于寻址和信号处理有三种架构 pixel serial readout and processingcolumn parallel readout and processingpixel parallel readout and processing 其中&#xff0c;column parallel reado…

香港举办AIHCIR 2024国际学术会议,领先人工智能、人机交互和机器人技术

第三届人工智能、人机交互和机器人国际学术会议 &#xff08;AIHCIR 2024&#xff09;将于2024年11月在中国香港举行&#xff0c;聚焦AI、人机交互与机器人领域&#xff0c;邀请知名学者演讲&#xff0c;促进学术交流。论文经评审后提交EI检索&#xff0c;投稿需全英文&#xf…

《宗喀大慈宏觉寺——唐蕃古道上的千年古刹》新书发布会在京举行

10月18日&#xff0c;《宗喀大慈宏觉寺——唐蕃古道上的千年古刹》新书发布会在中国藏学研究中心举行 发布会现场 2024年10月18日上午&#xff0c;由中国藏学研究中心科研业务办公室主办、中国藏学出版社承办的《宗喀大慈宏觉寺——唐蕃古道上的千年古刹》新书发布会在中国藏学…

【算法】哈希表:49.字母异位词分组

目录 1、题目链接 2、题目介绍 3、解法 初始化设定--图解 步骤图解 4、代码 1、题目链接 49. 字母异位词分组 - 力扣&#xff08;LeetCode&#xff09; 2、题目介绍 3、解法 字母异位词的本质是字符相同但排列不同。因此&#xff0c;我们可以对字符串进行排序&#xf…

Lucas带你手撕机器学习——线性回归

什么是线性回归 线性回归是机器学习中的基础算法之一&#xff0c;用于预测一个连续的输出值。它假设输入特征与输出值之间的关系是线性关系&#xff0c;即目标变量是输入变量的线性组合。我们可以从代码实现的角度来学习线性回归&#xff0c;包括如何使用 Python 进行简单的线…

Thread的基本用法

创建线程 方法一 继承Thread类 继承 Thread 来创建一个线程类. class MyThread extends Thread {Overridepublic void run() {System.out.println("这里是线程运行的代码");} } 创建 MyThread 类的实例 MyThread t new MyThread(); 调用 start 方法启动线程 t…

《深空彼岸》TXT完整版下载,知轩藏书校对版!

【内容简介】&#xff1a;   浩瀚的宇宙中&#xff0c;一片星系的生灭&#xff0c;也不过是刹那的斑驳流光。仰望星空&#xff0c;总有种结局已注定的伤感&#xff0c;千百年后你我在哪里&#xff1f;家国&#xff0c;文明火光&#xff0c;地球&#xff0c;都不过是深空中的一…