🚀 作者 :“码上有前”
🚀 文章简介 :深度学习
🚀 欢迎小伙伴们 点赞👍、收藏⭐、留言💬
去噪扩散模型
去噪扩散模型是一类生成模型,最近在各种深度学习问题中引起了极大的兴趣。扩散概率模型定义了一个正向扩散阶段,在这个阶段中,输入数据通过加入高斯噪声在几个步骤中逐渐受到扰动,然后学习反向扩散过程以从有噪声的数据样本中检索所需的无噪声数据。
扩散模型因其强大的模式覆盖率和生成样本的质量而广受欢迎,尽管它们已知的计算负担。利用计算机视觉的进步,医学成像领域也观察到对扩散模型的兴趣日益增长。
过去十年
在过去十年中,使用神经网络的生成建模一直是深度学习的主导力量。自其出现以来,生成模型在图像[1,2]、音频[3,4]、文本[5]和点云[6]等各个领域产生了巨大的影响。从概率建模的角度来看,生成模型的关键定义特征是,它以这样一种方式进行训练,使其样本x ~ pθ(x )来自与训练数据分布x ~ pd(x)相同的分布。
基于能量的模型(EBMs)通过定义状态空间上的非规范化概率密度来实现这一点;然而,这些方法在训练和推理过程中都需要马尔可夫链蒙特卡罗(MCMC)采样,这是一个缓慢的迭代过程[7]。
过去几年
在过去的几年里,由于一般深度学习架构的发展,人们对生成模型的兴趣重新燃起,揭示了视觉保真度和采样速度的提高。具体来说,已经出现了生成对抗网络(GANs)[8]、变分自编码器(VAEs)[9]和归一化流[10]。
除此之外,基于扩散过程的生成模型为现有的VAEs、EBMs、gan和规范化流提供了一种替代方案,这些模型不需要对后验分布进行对齐、估计难以处理的配分函数、引入额外的判别器网络或分别放置网络约束。
迄今为止,已经发现扩散模型在许多领域都很有用,从生成建模任务(如图像生成[11]、图像超分辨率[12]、图像绘制[13])到判别任务(如图像分割[14]、分类[15]和异常检测[16])。
最近,医学影像领域基于扩散的技术数量呈指数级增长(见图1)。如图1所示,大量研究致力于扩散模型在不同医学成像场景中的应用。由于扩散模型最近受到了研究界的极大关注,因此该方向的文献正在大量涌入。我们希望这项工作将指出新的路径,为研究人员提供路线图,并激发视觉社区进一步的兴趣,以利用扩散模型在医学领域的潜力。
2 扩散理论
我们进一步将扩散模型分为两个主要视角:变分视角和分数视角。我们深入研究了它们的细节,并强调了属于它们的特定模型,例如变分视角中的ddpm和分数视角中的ncsn和sde。最后,我们提供了对这些方法背后的潜在理论的全面理解。
2.1扩散模型在哪里适合生成式学习?
随着可用数据集的显著激增,以及一般深度学习架构的进步,生成建模发生了革命性的范式转变。具体来说,三种主流生成框架包括、VAEs和归一化流[10]。生成模型通常包含在现实问题中采用的关键要求。这些要求包括(i)高质量采样,(ii)模式覆盖和样本多样性,以及(iii)快速执行时间和计算成本低廉的采样(参见图3)。
GANs
生成模型经常在这些标准之间做出调整。具体而言,gan能够快速生成高质量的样本,但其模式覆盖率较差,并且容易缺乏采样多样性。相反,尽管在覆盖数据模式中看到了VAEs和归一化流,但它们仍受到低样本质量的固有特性的影响。
gan由两个模型组成:一个生成器和一个评论家(鉴别器),它们相互竞争同时让彼此变得更强大。生成器试图捕获真实示例的分布,而鉴别器(通常是二元分类器)估计来自真实数据集的给定样本的概率。
它可以作为一个批评家,并经过优化以识别合成样品和真实样品。gan的一个常见问题是其训练动态被认为是不稳定的,导致模态崩溃、梯度消失和收敛等缺陷[27]。因此,巨大的兴趣也影响了gan的研究方向,以提出更有效的变体。
VAEs
VAEs通过最大化证据下限(ELBO)来优化数据的对数似然。尽管取得了显著的成就,但由于一些理论和实践上的挑战,如平衡问题[30]和变量崩溃现象[31],VAEs的行为仍然远远不能令人满意。通过一系列可逆变换构造了一个基于流的生成模型。具体来说,归一化流通过应用一系列可逆变换函数将简单分布转换为复杂分布,其中可以使用变量变换定理获得最终目标变量的期望概率分布。
GANs和VAEs
与gan和vae不同,这些模型明确地学习数据分布;因此,它们的损失函数就是负对数似然[32]。
尽管设计可行,但这些生成模型有其特定的缺点。由于基于可能性的方法必须构造一个归一化的概率模型,因此必须使用特定类型的体系结构(自回归模型、流模型),或者在VAE的情况下,不直接为生成的概率分布计算ELBO等替代Loss。
相比之下,由于GAN的对抗性损失的性质,GAN的学习过程本身是不稳定的。最近,扩散模型[33,34]已经成为强大的生成模型,展示了计算机视觉领域的主要主题之一,因此研究人员和从业者可能会发现跟上创新速度是一项挑战。
扩散模型
扩散模型是一类强大的概率生成模型,用于学习复杂的数据分布。这些模型通过利用两个关键阶段:正向扩散过程和反向扩散过程来实现这一点。
前向扩散过程在输入数据中加入噪声,逐渐提高噪声水平,直到数据转化为纯高斯噪声。这个过程系统地扰乱了数据分布的结构。然后应用反向扩散过程,也称为去噪,从扰动数据分布中恢复数据的原始结构。该过程有效地消除了前向扩散过程引起的降解。结果是一个高度灵活和易于处理的生成模型,可以准确地模拟随机噪声中的复杂数据分布。
其次,生成器利用先验输入来增强样本生成性能。©变分自编码器(VAE)[24]是一个独立的网络,它遵循编码器从数据样本到低维潜在空间的投影,并通过解码器路径从数据样本中采样产生。(d)归一化流(Normalizing flow, NF)[25]利用可逆流函数将输入转换为潜在空间,生成具有逆流函数的样本。(e)扩散模型在连续的步骤中将噪声与输入混合,直到它成为噪声分布,然后应用反向过程来中和采样过程中每一步的噪声添加。
变分视角包括使用变分推理来近似目标分布的模型,通常是通过最小化近似分布和目标分布之间的Kullback-Leibler散度来实现的。去噪扩散概率模型(Denoising Diffusion Probabilistic Models, ddpm)[33,34]就是这类模型的一个例子,因为它们使用变分推理方法来估计扩散过程的参数。
2.3评分视角评分
视角模型依赖于基于最大似然的估计方法,使用数据的对数似然的评分函数来估计扩散过程的参数。噪声条件评分网络(ncsn)[35]和随机微分方程(SDEs)[36]都属于这一类的子类别。ncsn侧重于估计不同噪声水平下受扰动数据分布的对数密度函数的导数,而SDEs是先前方法的推广,包括ddpm和ncsn的特征。下面我们将详细阐述每个子类别的细节
2.3.1噪声条件评分网络(ncsn)
某些数据分布p(x)的评分函数定义为对数密度相对于输入的梯度∇x log p(x)。为了估计这个分数函数,我们可以训练一个带有分数匹配的共享神经网络。具体来说,分数网络sθ是一个参数化为θ的神经网络,通过最小化以下目标来训练近似p(x) (sθ(x)≈x log p(x))的分数:
2.3.2随机微分方程(SDEs)
与上述两种方法类似,基于分数的生成模型(SGMs)[36]将数据分布q (x0)转换为噪声。然而,通过将噪声尺度的数量推广到无穷大,可以将以前的概率模型视为SGM的离散化。我们知道,许多随机过程,如扩散过程,都是随机微分方程(SDE)的解,其形式如下: