【论文笔记】利用扩散模型DDPM做变化检测change detection

去噪扩散模型DDPM去年开始在各种视觉任务取得惊人的效果，变化检测领域也不例外，本文介绍两篇关于如何使用扩散模型实现变化检测的论文。第一篇做法较为自然，先利用遥感数据预训练DDPM，然后将预训练好的网络当作变化检测任务的特征提取器；第二篇则更有意思，不再进行像素分类，而是直接利用扩散模型生成变化图。

DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors for Change Detection, arXiv 2206
GCD-DDPM: A Generative Change Detection Model Based on Difference-Feature Guided DDPM, TGRS 2024

DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors for Change Detection, arXiv 2206

论文：https://arxiv.org/abs/2206.11892

代码：https://github.com/wgcban/ddpm-cd

引言

动机：通过预训练的方式将扩散模型引进到变化检测任务当中。通过预训练去噪扩散概率模型DDPM，再将其用作变化检测应用的特征提取器。

贡献：

提出了一种新的遥感图像自监督表示学习方法，该方法从ddpm的扩散过程中学习鲁棒特征。
ddpm可以从遥感图像中生成鲁棒和判别表示。
在从预训练的DDPM获得的多尺度特征表示的基础上微调轻量级变化检测分类器对于变化检测非常有效。
在LEVIR-CD、WHU-CD、DSIFN-CD和CDD四个变化检测数据集上取得好结果。

方法

DDPM-CD包括两个阶段：

DDPM在大量未标记遥感图像上的自监督预训练。这一阶段的目的是在不依赖标记信息的情况下，从航拍图像中学习关键语义。
利用预训练的DDPM进行变化检测涉及对具有监督变化标签的CD分类器进行微调。该分类器利用从预训练DDPM的解码器中提取的预变化和后变化图像的深度特征表示，并输出变化概率图。

实验

训练细节

对比实验

可视化结果

消融实验

不同时间步t的消融实验：

计算复杂度

GCD-DDPM: A Generative Change Detection Model Based on Difference-Feature Guided DDPM, TGRS 2024

论文：https://ieeexplore.ieee.org/abstract/document/10479050

https://arxiv.org/abs/2306.03424

代码：https://github.com/udrs/GCD

翻译：遥感论文 | TGRS | GCD-DDPM：一种生成式遥感图像变化检测方法，代码已开源！ - 知乎 (zhihu.com)

引言

动机：

基于CNN或Transformer的CD方法通过判别像素来识别变化，本文结合diffusion提出一种生成变化检测模型GCD-DDPM，能够直接生成变化图，不用再进行像素分类。

贡献：

本工作提出了一个名为GCD-DDPM的生成变化检测模型，

通过利用去噪扩散概率模型（DDPM）直接生成变化图，而不是将每个像素分类为变化或未变化类别。
设计了差异条件编码器（DCE），通过利用多级差异特征来指导变化图的生成。利用变分推理（VI）过程，GCD-DDPM可以通过迭代推理过程自适应地重新校准CD结果，同时准确地区分多样化场景中的微妙和不规则变化。
特别设计了基于噪声抑制的语义增强器（NSSE），用于减轻CD编码器当前步骤的变化感知特征表示中的噪声。

在CDD、LEVIR-CD、WHU-CD和GVLM四个CD数据集上取得优异性能。

现有方法的局限性：

信息保留的挑战：现有的基于CNN的变化检测方法在连续下采样操作中丢失了精确的详细信息，特别是在保留变化区域的细节方面存在不足。
全局交互与局部信息的平衡：尽管注意力机制的引入有助于捕获长距离依赖性，但现有模型仍难以同时有效利用局部空间信息，尤其是在描述变化边界和边缘细节方面。
生成能力的提升：与判别模型相比，生成模型在变化检测中的应用较少，需要开发能够直接生成变化检测图的方法，以利用生成模型的逐渐细化和迭代改进的能力。
噪声抑制与精度提升：在变化检测的特征表示中，噪声的存在会影响模型的性能，需要特别设计的方法来减轻噪声并提高变化检测的准确性。
模型的自适应校准：现有的CD模型大多采用单次前向传播，缺乏对生成结果进行迭代改进的机制。

方法

GCD-DDPM是一个生成模型，包括两个阶段，即前向扩散阶段和反向扩散阶段。

前向扩散阶段，变化检测标签x0逐渐加入高斯噪声，通过一系列步骤T实现。
反向扩散阶段，训练一个神经网络作为噪声预测器来逆转噪声过程，并随后恢复原始数据。

前向过程

前向扩散过程，会依据初始数据分布 $x_0 \sim q(x_0)$ ，逐步添加高斯噪声，生成一系列数据点 $x_1,x_2,...,x_T$ 。数学公式表示如下：

递归公式可表达为一个高斯分布：均值为 $\sqrt{1-\beta_t}x_{t-1}$ ，方差为 $\beta_tI$ 。

进一步， $x_t$ 与 $x_0$ 之间的数学关系可表述为

$\epsilon$ 为符合 $\mathbb{N}(0,1)$ 的随机高斯噪声。

反向过程

反向过程涉及将潜变量分布 $p_\theta (x_T)$ 转换为参数化 $\theta$ 的数据分布 $p_\theta (x_0)$ 。这种转换由一个马尔可夫链定义，其中学习到的高斯转移以初始分布建模为标准正态分布。

在训练阶段，基于变分推理（VI），目标是优化这些参数 $\theta$ ，使得反向扩散过程能够准确地近似原始数据分布。为此，引入了一个基于神经网络的噪声预测器 $NP(\cdot;\theta)$ 预测噪声，并利用均方误差损失 $\mathcal{L}(\theta)$ ，以减小所添加噪声 $\epsilon$ 和所预测噪声 $\epsilon_\theta$ 之间的差异。