【论文笔记】利用扩散模型DDPM做变化检测change detection

去噪扩散模型DDPM去年开始在各种视觉任务取得惊人的效果,变化检测领域也不例外,本文介绍两篇关于如何使用扩散模型实现变化检测的论文。第一篇做法较为自然,先利用遥感数据预训练DDPM,然后将预训练好的网络当作变化检测任务的特征提取器;第二篇则更有意思,不再进行像素分类,而是直接利用扩散模型生成变化图。

  • DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors for Change Detection, arXiv 2206
  • GCD-DDPM: A Generative Change Detection Model Based on Difference-Feature Guided DDPM, TGRS 2024

DDPM-CD: Denoising Diffusion Probabilistic Models as Feature Extractors for Change Detection, arXiv 2206

论文:https://arxiv.org/abs/2206.11892

代码:https://github.com/wgcban/ddpm-cd

引言

动机:通过预训练的方式将扩散模型引进到变化检测任务当中。通过预训练去噪扩散概率模型DDPM,再将其用作变化检测应用的特征提取器。

贡献:

  • 提出了一种新的遥感图像自监督表示学习方法,该方法从ddpm的扩散过程中学习鲁棒特征。
  • ddpm可以从遥感图像中生成鲁棒和判别表示。
  • 在从预训练的DDPM获得的多尺度特征表示的基础上微调轻量级变化检测分类器对于变化检测非常有效。
  • 在LEVIR-CD、WHU-CD、DSIFN-CD和CDD四个变化检测数据集上取得好结果。

方法

DDPM-CD包括两个阶段:

  1. DDPM在大量未标记遥感图像上的自监督预训练。这一阶段的目的是在不依赖标记信息的情况下,从航拍图像中学习关键语义。
  2. 利用预训练的DDPM进行变化检测涉及对具有监督变化标签的CD分类器进行微调。该分类器利用从预训练DDPM的解码器中提取的预变化和后变化图像的深度特征表示,并输出变化概率图。
旧版框架图

新版框架图

实验

训练细节

对比实验

可视化结果

消融实验

不同时间步t的消融实验: 

计算复杂度

 

GCD-DDPM: A Generative Change Detection Model Based on Difference-Feature Guided DDPM, TGRS 2024

论文:https://ieeexplore.ieee.org/abstract/document/10479050

https://arxiv.org/abs/2306.03424 

代码:https://github.com/udrs/GCD

翻译:遥感论文 | TGRS | GCD-DDPM:一种生成式遥感图像变化检测方法,代码已开源! - 知乎 (zhihu.com)

引言

动机:

基于CNN或Transformer的CD方法通过判别像素来识别变化,本文结合diffusion提出一种生成变化检测模型GCD-DDPM,能够直接生成变化图,不用再进行像素分类。

贡献:

本工作提出了一个名为GCD-DDPM的生成变化检测模型,

  • 通过利用去噪扩散概率模型(DDPM)直接生成变化图,而不是将每个像素分类为变化或未变化类别
  • 设计了差异条件编码器(DCE),通过利用多级差异特征来指导变化图的生成。利用变分推理(VI)过程,GCD-DDPM可以通过迭代推理过程自适应地重新校准CD结果,同时准确地区分多样化场景中的微妙和不规则变化。
  • 特别设计了基于噪声抑制的语义增强器(NSSE),用于减轻CD编码器当前步骤的变化感知特征表示中的噪声。

在CDD、LEVIR-CD、WHU-CD和GVLM四个CD数据集上取得优异性能。

现有方法的局限性:

  • 信息保留的挑战:现有的基于CNN的变化检测方法在连续下采样操作中丢失了精确的详细信息,特别是在保留变化区域的细节方面存在不足。
  • 全局交互与局部信息的平衡:尽管注意力机制的引入有助于捕获长距离依赖性,但现有模型仍难以同时有效利用局部空间信息,尤其是在描述变化边界和边缘细节方面。
  • 生成能力的提升:与判别模型相比,生成模型在变化检测中的应用较少,需要开发能够直接生成变化检测图的方法,以利用生成模型的逐渐细化和迭代改进的能力。
  • 噪声抑制与精度提升:在变化检测的特征表示中,噪声的存在会影响模型的性能,需要特别设计的方法来减轻噪声并提高变化检测的准确性。
  • 模型的自适应校准:现有的CD模型大多采用单次前向传播,缺乏对生成结果进行迭代改进的机制。

方法

GCD-DDPM是一个生成模型,包括两个阶段,即前向扩散阶段反向扩散阶段

  • 前向扩散阶段,变化检测标签x0逐渐加入高斯噪声,通过一系列步骤T实现。
  • 反向扩散阶段,训练一个神经网络作为噪声预测器来逆转噪声过程,并随后恢复原始数据。

前向过程

前向扩散过程,会依据初始数据分布x_0 \sim q(x_0) ,逐步添加高斯噪声,生成一系列数据点x_1,x_2,...,x_T。数学公式表示如下: 

 递归公式可表达为一个高斯分布:均值为\sqrt{1-\beta_t}x_{t-1},方差为\beta_tI

进一步,x_tx_0之间的数学关系可表述为

\epsilon为符合\mathbb{N}(0,1)的随机高斯噪声。

反向过程

反向过程涉及将潜变量分布p_\theta (x_T)转换为参数化\theta的数据分布p_\theta (x_0)。这种转换由一个马尔可夫链定义,其中学习到的高斯转移以初始分布建模为标准正态分布。

  • 在训练阶段,基于变分推理(VI),目标是优化这些参数 \theta,使得反向扩散过程能够准确地近似原始数据分布。为此,引入了一个基于神经网络的噪声预测器NP(\cdot;\theta)预测噪声,并利用均方误差损失\mathcal{L}(\theta),以减小所添加噪声\epsilon和所预测噪声\epsilon_\theta之间的差异。

 

  • 在推理阶段,首先从标准高斯分布中采样。以x_T为起始点,根据由等式(5)和(6)定义的学习转移模型,递归地采样后续数据点x_{T-1},x_{T-2},...,x_0

该过程迭代应用于重建噪声图像,最终在推理阶段产生清晰的分割。

GCD-DDPM网络结构

该方法直接通过端到端训练来生成高质量的变化图,而不需要对扩散模型进行额外的训练。包括两个关键组件:基于encoder-decoder架构的噪声预测器\epsilon_\theta,差分条件编码器(DCE)。

  • 噪声预测器中的CD编码器用于估计噪声特征。
  • 基于噪声抑制的语义增强器NSSE,增强CD编码器的当前步CD噪声特征。
  • 通过逐像素加法和CD解码器中的的跳接,将来自DCE的多尺度变化图与当前步CD噪声特征融合,以获得当前步CD相关噪声,这些噪声将作为下一步迭代的先验信息。

GCD-DDPM算法通过对高斯噪声进行迭代采样,通过准确表征输入图像之间的差异,逐步提高生成变化图的精度。

Noise Predictor 噪声预测器

噪声预测器,是一个包含CD编码器和CD解码器的U-Net。

在GCD-DDPM的噪声预测器的CD编码器中,

  • 输入图像通过一系列灵活的残差块(ResBlocks)进行处理,并进行下采样操作。
  • 然后,CD解码器通过ResBlocks和上采样层将特征升级到原始空间尺寸,并通过跳过连接将它们与DCE模块的输出集成。
  • 在此过程中,来自DCE模块相应层级的特征被合并,以增强特征的细节和质量。
  • CD解码器的最终输出是详细的单通道CD相关的噪声\epsilon_\theta。该噪声用于生成后续的CD图。

DCE  差分条件编码器

DCE模块的开发旨在从扩散模型框架内的每个样本中提取变化信息。

m_k^{I^a}m_k^{I^b}分别表示第k个块中获取的变化前图像和变化后图像的条件特征图。

  • 通过从多层噪声特征中提取信息,将当前步骤的变化图信息整合到DCE中。具体来说,将DCE中提取的多层条件特征与噪声预测器中的当前步骤相应的噪声特征相结合。

因此,提出NSSE模块来增强和校准条件嵌入特征。

NSSE 噪声抑制的语义增强器

NSSE包含一个噪声抑制器模块,旨在通过使用参数化的注意力图消除高频噪声来抑制固有的噪声。

  • 第k层噪声特征m^p_k,由初始噪声特征通过CD编码器架构中的相应卷积块获得。
  • 使用二维快速傅里叶变换(FFT)沿着空间维度转换为频域噪声特征M^p_k

  • 然后,将M^p_k 与参数化的注意力图A_k相乘,再使用逆二维快速傅里叶变换(Inverse 2D FFT)转换回空间域。 通过全局调整滤波频率来学习约束高频分量进行自适应集成。

  • 从噪声特征 p 中提取的 CD 特征\tilde{m}^p_k被输入到两个独立的卷积层。继而,计算增强嵌入。

训练和推理过程的算法

实验

训练细节

对比实验

CDD、WHU-CD、LEVIR-CD、GVLM数据集上的实验结果: 

可视化结果

热力图:

消融实验

计算效率对比 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/619555.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

设计模式-结构型-适配器模式-Adapter

地址类 public class Address {public void street() {System.out.println("普通的街道");}public void zip() {System.out.println("普通的邮政编码");}public void city() {System.out.println("普通的城市");} } 荷兰地址类 public class …

用lobehub打造一个永久免费的AI个人助理

Lobe Chat是一个开源的高性能聊天机器人框架,它被设计来帮助用户轻松创建和部署自己的聊天机器人。这个框架支持多种智能功能,比如语音合成(就是让机器人能说话),还能理解和处理多种类型的信息,不仅限于文字…

关于USB 3.1电气参数的探讨

目录 0 引言 1 抖动预算 2 时钟恢复-CDR 3 测试码型-PRBS16 4 传输码型-128b/132b 5 眼图模板-Eye Mask 6 发射均衡 7 接收均衡 7.1 CTLE均衡 7.2 DFE均衡

Postman历史版本安装与runner测试

前言 实际上就是笔者本地做demo,postman使用了最新版本,本身也没问题,不过postman不支持不登录做runner测试了,很多功能必须登录账号才能使用,否则只能使用http工具发送的能力,而postman本身就是一个简单工…

栈和队列经典练习题

目录 前言: 一、括号匹配问题 1.题目描述 2.解题思路 3.题目链接 二、用队列实现栈 1.题目描述 2.解题思路 3.题目链接 三、用栈实现队列 1.题目描述 2.题目分析 3.题目链接 四、设计循环队列 1.题目描述 2. 题目分析 3.题目链接 最后 前言: 前…

JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测

JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测 目录 JCR一区 | Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预测分类效果基本介绍程序设计参考资料 分类效果 基本介绍 Matlab实现1D-2D-GASF-CNN-BiLSTM-MATT的多通道输入数据分类预…

未授权访问:VNC未授权访问

目录 1、漏洞原理 2、环境搭建 3、未授权访问 防御手段 今天继续学习各种未授权访问的知识和相关的实操实验,一共有好多篇,内容主要是参考先知社区的一位大佬的关于未授权访问的好文章,还有其他大佬总结好的文章: 这里附上大…

修改MTU值解决Linux下运行top命令卡死问题

上周明月的Linux服务器上运行top命令总是莫名的出现卡死现象,甚至是CtrlC都无法终止进程,今天终于抽空找到了解决办法,原来是需要修改Linux的MTU值,将服务器操作系统数据包调小,加上VxLAN数据包小于1500即可。 top命令…

Python-VBA函数之旅-sum函数

目录 一、sum函数的常见应用场景 二、sum函数使用注意事项 三、如何用好sum函数? 1、sum函数: 1-1、Python: 1-2、VBA: 2、推荐阅读: 个人主页: https://myelsa1024.blog.csdn.net/ 一、sum函数的常…

摩苏尔大坝形变监测

摩苏尔大坝,是伊拉克最大的大坝。它位于底格里斯河35公里,北距摩苏尔市,这是一座粘土质地的水坝,高113米,长3.2公里,于1986落成。 大坝建成后不久,大坝就遇到了由软石膏地基造成的一些结构性问题…

jenkins连接ubuntu普通用户节点

1.创建credentials 2.创建node 3.在jenkins服务器还需要进行的操作(jenkins服务器中) mkdir /var/lib/jenkins/.ssh ssh-keyscan -H 192.168.110.204 >> /var/lib/jenkins/.ssh/known_hosts chown -R jenkins:jenkins /var/lib/jenkins/.ssh/ 4.…

试衣不再有界:Tunnel Try-on开启视频试衣应用新纪元

论文:https://arxiv.org/pdf/2404.17571 主页:https://mengtingchen.github.io/tunnel-try-on-page/ 一、摘要总结 随着虚拟试衣技术的发展,消费者和时尚行业对于能够在视频中实现高质量虚拟试衣的需求日益增长。这项技术允许用户在不实际穿…

【实战】算法思路总结

面试过程中,总是被拷打,信心都要没了。但是也慢慢摸索出一些思路,希望对大家有帮助。 (需要多用一下ACM模式,力扣模式提供好了模板,自己在IDEA里面写的话,还是会有些陌生) 0、基本…

MFC重要的初始化函数InitInstance

MFC应用程序最早处理的类的初始化函数通常是CWinApp类的构造函数。CWinApp类是MFC应用程序的主类,负责整个应用程序的初始化和管理。 在MFC应用程序中,通常会创建一个派生自CWinApp类的应用程序类,例如CMyApp。在应用程序启动时,…

【Oracle篇】rman物理备份工具的基础理论概述(第一篇,总共八篇)

☘️博主介绍☘️: ✨又是一天没白过,我是奈斯,DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux,也在扩展大数据方向的知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章&am…

Mujoco仿真【将urdf文件转化为xml文件】

最近开始学习mujoco仿真方面的内容 先前写过一篇博客:强化学习:MuJoCo机器人强化学习仿真入门(1)_mujoco仿真-CSDN博客 简单介绍了mujoco仿真的一些内容,下面想在Mujoco中将urdf转为xml文件,了解到mujoco是…

Docker需要代理下载镜像

systemctl status docker查看docker的状态和配置文件是/usr/lib/systemd/system/docker.service vi /usr/lib/systemd/system/docker.service, 增加如下配置项 [Service] Environment"HTTP_PROXYhttp://proxy.example.com:8080" "HTTPS_PROXYhttp:…

MySQL软件安装基于压缩包

打开mysql官网网址 MySQL :: Download MySQL Community Server 本次针对版本8的安装包方式进行安装,下载成功后接下来对MySQL进行安装 下载后有一个以zip后缀结尾的压缩包文件 对于安装包方式安装,比起可视化安装省去了许多安装步骤,这里直接…

WordPress插件Show IDs by Echo,后台显示文章、页面、分类、标签、媒体库、评论、用户的ID

WordPress的这款Show IDs by Echo插件,可以让我们设置是增加一列ID还是直接在“编辑 |快速编辑 |查看”操作后面增加ID,而且支持展示以下内容的ID: 文章页面类别标签评论自定义帖子类型自定义分类法用户媒体 Show IDs by Echo插件的安装及启…

数据缓存,可以尝试RocksDB了

shigen坚持更新文章的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。记录成长,分享认知,留住感动。 个人IP:shigen shigen在最近的学习中,接触到了一款新的缓存数据库RocksDB&#xff…