本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。
原文链接:DuoDiff: 提升浅层 Transformer 性能的扩散模型, 双 Backbone 件扩散模型在图像处理中的应用 !
扩散模型在图像生成方面取得了前所未有的性能,但由于其迭代采样过程,推理速度较慢。
为了解决这个问题,最近提出了早期终止(Early-exiting)的方法,其中,去噪网络的深度根据每个采样步骤的(估计)难度进行自适应。
在这里,作者发现在当前自适应扩散模型的采样过程中存在一个有趣的“相变”:在初始采样步骤中,去噪网络始终过早地退出,直到突然切换到使用整个网络。
基于这个发现,作者提出了一种加速生成的方法:在初始采样步骤中使用较浅的去噪网络,而在后续步骤中使用较深的网络。
作者在实验中证明了作者的双骨架方法 DuoDiff 在推理速度和生成质量上都优于现有的早期终止扩散方法。
重要的是,DuoDiff 易于实现,并且与加速扩散的现有方法相辅相成。
1 Introduction
扩散模型[21]在各种模态的生成任务上近期展现了令人印象深刻的表现,包括图像[6; 3],视频[7; 8],音频[12],以及分子[9]。然而,使用扩散模型生成新样本的过程可能较慢,因为需要多次调用去噪网络[25]。为了提高采样效率[26],一些最具前景的方法关注于减少采样步骤(例如,DDIM[22]和基于蒸馏的方法[19; 15])或改变采样空间(例如,潜在扩散[18])。
为了加速扩散,AdaDiff [23] 中提出了早期终止策略。与上述静态方法不同,AdaDiff 是一种自适应方法,其中使用的去噪网络的深度可以在采样步骤之间变化。具体来说,每个采样步骤t (其中t 从总步骤数 T递减到 0)的难度是通过计算每个层去噪网络的不确定性进行估计。如果不确定性足够低,那么正向传播将在该层终止(即模型 提前终止),从而减少该步骤的计算量。
在这项工作中,作者利用早期退出模型的自适应性质来研究扩散模型中生成过程的动力学。
有趣的是,作者发现生成过程的早期(即,对于大的t),只有去噪网络的少量层处于活动状态,而当t接近0时,整个网络都被利用(如图1所示)。这表明扩散模型中的生成过程开始于一个更容易的阶段,然后是更具有挑战性的阶段。受这些发现启发,作者在每个采样步骤上都消除了动态的早期退出,并引入了一种(静态)双 Backbone 设计,即DuoDiff。
DuoDiff由两个去噪网络组成:在生成过程的初始、更容易的阶段中使用较浅的一个,而在随后的更具有挑战性的阶段中使用更深的一个(如图3所示)。
实验证明,DuoDiff 在各种标准数据集(如 ImageNet 256x256)上的采样延迟和图像生成质量均优于现有的早期退出扩散模型。此外,与早期的退出扩散模型相比,DuoDiff 更适合批处理推理,因为它不需要为每个样本分配计算路径。此外,作者还展示了 DuoDiff 能够有效地与其他流行的效率提升方法(如 [22; 18])结合使用。
2 Background
扩散模型通过逐步向数据中添加噪声并学习如何逆转这一过程,生成高质量的样本。定义为向原始数据中添加噪声的前向过程。
3 Methods
在上述早期退出趋势的基础上,作者提出了一种名为DuoDiff的新颖扩散框架,旨在通过使用双 Backbone 结构加速推理过程。在反向扩散过程的初始时间步长中,输入主要由噪声主导,任务较为简单,此时DuoDiff使用了一个浅层的三层 Backbone ,作为这些时间步中大多数样本的早期退出层,通常低于3(如图1所示)。
随着扩散过程的进行,输入变得更加结构化,DuoDiff将剩余、更复杂的时步切换到完整的 Backbone 。作者用t_s表示浅层模型活跃的时间步数。浅层和完整 Backbone 都从零开始在相同的数据集上使用相同的扩散训练目标进行训练。此外,两种 Backbone 都针对所有t值进行训练,训练完成后,可以根据需要自由选择t_s。
不同于AdaDiff,它依赖于基于每个样本不确定性水平的动态提前终止机制(见公式3),DuoDiff通过在两个 Backbone 之间使用固定转换点来简化此过程。虽然这牺牲了早期退出的适应性(即根据样本的难度而变化的计算),但作者认为这在这一点上是可以谅解的,因为作者在不同的样本之间观察到非常少的退出模式变化(如图1中标准偏差条的小表示)。
此外,静态方法消除了AdaDiff为不同样本设置不同退出点所导致的批处理低效问题,使批处理推理更高效且易于实现。
4 Experiments
5 Conclusion & Future Work
在本文中,作者提出了DuoDiff,它是适应扩散模型的双 Backbone 件的替代品,灵感来源于早期退出趋势的一致性。
作者证明了DuoDiff在降低每个样本推理时间的同时,还能保持图像质量。
DuoDiff还兼容其他扩散技术,包括潜在空间扩散和DDIM采样,为解决扩散模型的缓慢推理速度提供了一种高效解决方案。
未来研究将专注于探索不同的DuoDiff配置,例如增加浅层 Transformer 中的层数以增加。
此外,一个有前途的方向是研究不同扩散参数化中的早期退出趋势,例如预测原始图像而不是添加的噪声。
6 参考文献
[0]. DuoDiff: Accelerating Diffusion Models with a Dual-Backbone Approach.
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。