RDDM论文阅读笔记

在这里插入图片描述

  • CVPR2024的残差去噪模型。把diffusion 模型的加噪过程分解为残差diffusion和noise diffusion,其中残差diffusion模拟从target image到degraded image的过程,而noise diffusion则是原来的diffusion过程,即从图片到高斯噪声的加噪过程。前者可以看作是对应restoration,后者对应generation。通过这一设计,仅用一个Unet,bs为1,用L1 Loss即可train一个sota的restoration模型。

  • 现有的diffusion image restoration模型通常是把LQ作为diffusion的condition,而diffusion仍然是从噪声开始的,作者认为这是没有必要的,可以直接从LQ开始而没必要从噪声开始。

  • 把DDPM中diffusion的终点 I T = ϵ I_T=\epsilon IT=ϵ 改成 I T = ϵ + I i n I_T=\epsilon+I_{in} IT=ϵ+Iin,把forward的过程中加的0均值高斯噪声改成以scale后的残差为均值的高斯噪声,残差即input image - target image,具体如下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 通过调整beta 和 alpha的大小,可以控制generation的力度和restoration的力度。

  • 那么reverse的过程,用一个 I r e s θ ( I t , t , I i n ) I^\theta_{res}(I_t, t, I_{in}) Iresθ(It,t,Iin) 网络和一个 I ϵ θ ( I t , t , I i n ) I^\theta_{\epsilon}(I_t, t, I_{in}) Iϵθ(It,t,Iin) 网络分别预测残差 I r e s θ I^\theta_{res} Iresθ和噪声 ϵ θ \epsilon^\theta ϵθ,可以从上面的公式7推出对 I 0 I_0 I0的预测:
    在这里插入图片描述
    则reverse的过程是:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 最终推导出的损失函数倒是很简单,采样 ϵ \epsilon ϵ t t t计算 I t I_t It,再送进网络对预测的残差和噪声算L2损失即可:
    在这里插入图片描述

  • 方法差不多就到这里,接下来的内容基本是对一些超参数作用的探究,包括这里的两个lambda,以及alpha 和 beta的设定上。lambda没什么好说其实,就是消融证明了其中一个lambda为0都不能顾全fid和psnr,只有两个都不为零才能有好结果,并且可以设计一个自动算法来设定这些值。其中一个为0时表示对应的网络不生效,也就是说,当 λ ϵ \lambda_\epsilon λϵ为0时,reverse过程不用网络来预测 ϵ \epsilon ϵ,直接用下面的公式推就行,反之亦然:
    在这里插入图片描述

  • alpha 和 beta的设定,即可以按DDIM的alpha来计算(意思是,如果是用下面这个表达式,并且残差为0,那么本模型其实和DDIM是等价的),也可以另外设计schedules:
    在这里插入图片描述

在这里插入图片描述

  • 实验证明,随着t降低alpha增加beta是最好的,解释是这样的,当t很大的时候,图像噪声严重,因此beta应该大一点,去噪嘛,而alpha应该小一点,因为对residual估计不准确,当t比较小的时候,噪声已经去得差不多了,beta就应该小一点,alpha则可以估计得准确了,应该大一点,加快restoration的速度。
  • 文章同时还涉及了一个Partially Path-independent Generation Process。这个的意思是这样的,原先DDPM和DDIM,如果在某个alpha的schedule上train,就固定只能用这个schedule测试,如果用其它的schedule就会失败。但是文章想要改变generation process使得schedule可以改。怎么改,首先把DDIM的schedule改成上面的等价的等式17,也就是加了个beta进来。此时和DDIM还是等价的。然后把alpha的schedule从原先的linear改成P曲线,如下所示
    在这里插入图片描述
    在这里插入图片描述
  • 这样改之后,alpha和beta分别表示denoise的强度和restoration的强度,还需要再改一步,就是把alpha和beta作为网络的输入,这样网络才能根据输入的alpha和beta,自适应地进行denoise和restoration,如下:
    在这里插入图片描述
  • 文章其实还提了一点,说是用两个网络分别来预测残差和噪声,但我想这不是必然的吗,一般不会想用同一个网络来预测两个东西吧。。。反正这样改了之后网络就可以使用不同的schedule了,不过我也不知道这样有什么用,为什么不老实使用训练时候的schedule呢。。
  • 文章还做了其它的探究实验,比如先remove residual再remove noise,会导致前面remove residual不准确从而图像语义发生变化,先remove noise再remove residual导致过渡平滑失去细节,有点平均预测的现象,体现在人脸任务上对不同的人脸都预测了平均脸。

实验结果

  • 文章声称仅用一个UNet,并且没有过度调参就达到了SOTA:
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/638780.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Error:(6, 43) java: 程序包org.springframework.data.redis.core不存在

目录 一、在做SpringBoot整合Redis的项目时,报错: 二、尝试 三、解决办法 一、在做SpringBoot整合Redis的项目时,报错: 二、尝试 给依赖加版本号,并且把版本换了个遍,也不行,也去update过ma…

hls.js实现分片播放视频

前言&#xff1a;hls.js官网&#xff1a;hls.js - npm 一、demo——在HTML中使用 <audio id"audio" controls></audio><script src"https://cdn.jsdelivr.net/npm/hls.jslatest"></script> <script>document.addEventList…

华为鸿蒙认证培训 | 讯方技术成为首批鸿蒙原生应用开发及培训服务商

5月20日&#xff0c;鸿蒙原生应用合作交流推介会-深圳站在深圳中洲万豪酒店隆重举行。讯方技术作为鸿蒙钻石服务商受邀参与此次活动&#xff0c;活动由讯方技术总裁刘国锋、执行副总裁刘铭皓、教学资源部部长张俊豪共同出席。 本次活动由深圳政府指导&#xff0c;鸿蒙生态官方…

AI边缘计算高效赋能,打造智慧社区安防管理解决方案

一、背景需求分析 随着信息技术的飞速发展&#xff0c;智慧社区建设已成为提升社区治理和服务水平的重要方向。通过深度整合大数据、云计算和人工智能等前沿技术&#xff0c;致力于构建信息化、智能化的新型社区治理体系。根据《关于深入推进智慧社区建设的意见》的指引&#…

泰克TBS2204B示波器如何设置存储时间?

示波器是电子测量领域中不可或缺的重要仪器之一。泰克公司生产的TBS2204B数字示波器是一款广受欢迎的中端市场产品&#xff0c;其中存储时间设置是用户需要掌握的关键操作之一。 TBS2204B示波器的存储时间设置涉及以下几个方面&#xff1a; 1. 存储时间基准 存储时间基准决定…

办公楼智慧公厕解决方案云平台,助力办公环境品质提升

在现代化的办公楼中&#xff0c;智慧公厕解决方案云平台正发挥着至关重要的作用&#xff0c;有力地助力办公环境品质的提升。 一、云平台优势 智慧公厕云平台具有高效的集成性&#xff0c;将各种设备和信息整合在一起&#xff0c;实现了统一管理和调度。云平台还可以和海量的设…

Threes 特效 炫酷传送门HTML5动画特效

基于Three.js的HTML5 3D动画&#xff0c;这个动画模拟了游戏中的一个炫酷的3D场景&#xff0c;支持360度视角查看&#xff0c;也支持鼠标滚轮进行缩放。画面中主要展现了一个游戏中传送门的效果&#xff0c;同时还有路两边的围栏、灯笼、石头&#xff0c;以及星光闪闪的萤火虫&…

第52期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区&#xff0c;集成了生成预训练Transformer&#xff08;GPT&#xff09;、人工智能生成内容&#xff08;AIGC&#xff09;以及大语言模型&#xff08;LLM&#xff09;等安全领域应用的知识。在这里&#xff0c;您可以找…

重新夺回控制权!原创始人从Synk回购FossID,致力于解决开源许可合规风险

FossID 于 2022 年 9 月被其原始创始人从 Snyk, Inc. 重新收购。为什么 Snyk 在 2021 年收购了 FossID&#xff0c;又在 2022 年将其分拆&#xff0c;以及为什么 FossID 的创始人&#xff08;Oskar Swirtun 和 Jon Aldama&#xff09;后来又回购了该公司&#xff1f; 公司背景 …

Transformer详解(1)-结构解读

Transormer块主要由四个部分组成&#xff0c;注意力层、位置感知前馈神经网络、残差连接和层归一化。 1、注意力层(Multi-Head Attention) 使用多头注意力机制整合上下文语义&#xff0c;它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构&#…

如何让社区版IDEA变得好用

如何让社区版IDEA变得好用 背景 收费版的idea功能非常强大&#xff0c;但是费用高。社区版的免费&#xff0c;但是功能被阉割了。如何才能让社区版Idea变得好用&#xff0c;就需要各种插件支持了。经过全局配置编码&#xff0c;maven&#xff0c;jdk版本&#xff0c;在加上各…

舵机(结构,原理,控制方法)

介绍 舵机&#xff0c;全称为伺服马达&#xff08;Servo Motor&#xff09;&#xff0c;是一种能够精确控制角度或位置的电动机。它广泛应用于模型制作、机器人技术、工业自动化等领域。舵机通过接收控制信号&#xff0c;将其转化为机械运动&#xff0c;从而实现精确的控制。 …

AI大模型如何赋能智能座舱

AI 大模型如何赋能智能座舱 从上海车展上&#xff0c;我们看到由于智能座舱配置性价比较高&#xff0c;已经成为车企的核心竞争点之一&#xff0c;随着座舱硬件规模化装车&#xff0c;蔚小理、岚图、极狐等新势力开始注重座舱多模态交互&#xff0c;通过集成语音/手势/触控打造…

Cesium与Three相机同步(2)

之前实现了将Three相机同步到Cesium相机Cesium与Three相机同步(1)-CSDN博客 现在是将Cesium相机同步到Three相机,从而实现了相机双向同步。 <!DOCTYPE html> <html lang="en"><head><title>three.js webgl - orbit controls</title&g…

YTM32的flash应用答疑-详解写保护功能

YTM32的flash应用答疑-详解写保护功能 文章目录 YTM32的flash应用答疑-详解写保护功能IntroductionPrincipleOperation & DemonstrationDemo #1 验证基本的写保护功能Demo #2 编程CUS_NVR设定EFM_ADDR_PROT初值Demo #3 启用写保护后试试块擦除操作 Conclusion Introduction…

MySQL中如何知道数据库表中所有表的字段的排序规则是什么?

查看所有表的字段及其排序规则&#xff1a; 你可以查询 information_schema 数据库中的 COLUMNS 表&#xff0c;来获取所有表的字段及其排序规则。以下是一个示例查询&#xff1a; SELECT TABLE_SCHEMA, TABLE_NAME, COLUMN_NAME, COLLATION_NAME FROM information_schema.COL…

小皮面板中访问不了本地的sqli网站---解决方法

今天想在sqli-labs中做题&#xff0c;却发现自己访问不了网站 1、具体的错误原因如下 2、查了一下&#xff0c;可能是因为自己访问的域名不对 3、修改了域名为&#xff1a;http://sqli-labs:81/Less-2/便可以访问了 4、然后接下来我有遇到一个错误&#xff0c;这个问题是php版…

OpenCV:入门(五)

图像梯度 图像梯度计算的是图像变化的速度。对于图像的边缘部分&#xff0c;其灰度值变化较大&#xff0c;梯度值也 较大&#xff1b;相反&#xff0c;对于图像中比较平滑的部分&#xff0c;其灰度值变化较小&#xff0c;相应的梯度值也较小。一般情 况下&#xff0c;图像梯度计…

Linux基础(四):Linux系统文件类型与文件权限

各位看官&#xff0c;好久不见&#xff0c;在正式介绍Linux的基本命令之前&#xff0c;我们首先了解一下&#xff0c;关于文件的知识。 目录 一、文件类型 二、文件权限 2.1 文件访问者的分类 2.2 文件权限 2.2.1 文件的基本权限 2.2.2 文件权限值的表示方法 三、修改文…

Kafka之【生产消息】

消息&#xff08;Record&#xff09; 在kafka中传递的数据我们称之为消息&#xff08;message&#xff09;或记录(record)&#xff0c;所以Kafka发送数据前&#xff0c;需要将待发送的数据封装为指定的数据模型&#xff1a; 相关属性必须在构建数据模型时指定&#xff0c;其中…