AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion (Paper reading)

Yitong Jiang, The Chinese University of Hong Kong, arXiv23, Code, Paper

1. 前言

我们提出了一种具有潜在扩散的一体化图像恢复系统,名为AutoDIR,它可以自动检测和恢复具有多种未知退化的图像。我们的主要假设是,许多图像恢复任务,如超分辨率、运动去模糊、去噪、弱光增强、去雾和去噪,通常可以分解为一些共同的基算子,这些算子可以在不同方向上提高图像质量。AutoDIR旨在通过与多个图像恢复任务的联合训练,学习一个能够执行这些基本算子的统一图像恢复模型。具体而言,AutoDIR由基于CLIP的盲图像质量评估(BIQA)模块、基于潜在扩散的多功能图像恢复(AIR)模块和结构校正模块组成,BIQA模块自动检测输入图像的未知图像退化,AIR模块处理多种类型的图像退化,SCM模块进一步恢复图像结构。广泛的实验评估表明,AutoDIR在更广泛的图像恢复任务中优于最先进的方法。AutoDIR的设计还实现了灵活的用户控制(通过文本提示)和对新任务的泛化,作为图像恢复的基础模型。

2. 整体思想

整体思想就是分类不同降质,然后混合训练的扩散模型+增强模型,每一步根据分类的类型处理不同降质。仅仅扩散模型效果可能不好,也可能图片的condition方式不好。微调整个CLIP感觉有点多余,不如用分类器。思想是普通的,实验不太充分。

3. 方法

在这里插入图片描述
我们提出了AutoDIR,这是一种用于图像恢复的自动一体式模型,能够处理多种类型的图像退化,包括弱光、雾等。左:通过AutoDIR进行多任务图像恢复的管道,其中所述盲图像质量评估(BIQA)模块检测损坏图像的主要退化,并用文本提示指示基于潜在扩散的一体式图像恢复模块(AIR)进行恢复。结构校正模块(SCM)进一步改进了恢复图像的细节。对于退化程度未知的图像,例如以绿色虚线为边界的显示不足的相机图像,AutoDIR会自动将任务分解为多个步骤。右图:AutoDIR可以有效地恢复不同退化的干净图像,并可以处理未知退化的图像。(放大查看详细信息)。AutoDIR由一下结构组成:

  1. 盲图像质量评估(BIQA):该模块自动识别输入图像中存在的主要退化,如噪声、模糊、雾度,并生成相应的文本提示,表示为eauto,随后用于图像恢复过程。
  2. 一体式图像恢复(AIR):该模块基于预先训练的潜在扩散模型进行微调。在来自BIQA(或用户提供)的文本嵌入 e a u t o e_{auto} eauto的指导下,AIR模块输出恢复的图像 I s d I_{sd} Isd
  3. 结构校正模块(SCM):SCM是一个轻量级的卷积网络,旨在进一步恢复图像细节并校正 I s d I_{sd} Isd中的剩余失真。该恢复过程的输出是最终恢复的图像,表示为 I r e s I_{res} Ires

3.1 盲图像质量评估(BIQA)

我们使用CLIP模型作为我们的BIQA骨干。然而,由于CLIP是为强调语义信息而非图像质量的视觉识别任务预先训练的,因此它不能直接用于BIQA。下图左可以看到,原始CLIP对于清晰和有雾的图像无法在空间中分离,作者的目的是得到右边的,即不同任务的图像属于特定的空间。
在这里插入图片描述

为了克服这一点,作者分两个步骤来解决这个问题:(i)我们构建了一个新的图像质量评估任务来微调CLIP。(ii)我们为图像质量感知训练提出了一个新的正则化术语。

在这里插入图片描述

首先,作者冻结文本编码器并全微调图像编码器。作者在这里构建了正则本文输入,也就是固定句式只改变 c i { } c_i\{\} ci{},然后将文本输入到 ϵ T \epsilon_T ϵT中且降质图像输入到 ϵ I \epsilon_I ϵI中,获得的本文和图像编码计算他们的cosine相似性:

在这里插入图片描述

然后通过softmax取最大概率获得相应的text embedding:

在这里插入图片描述
然后作者使用多类保真度损失(multi-class fidelity loss)对图像编码器进行微调:

在这里插入图片描述

其中, y ( c i ∣ I ) y(c_i|I) y(ciI) c i c_i ci属于 I I I图片当降质类型为1,其他为0。这个损失的意思就是最大化 p ^ ( c i ∣ I ) \hat p(c_i|I) p^(ciI)这个概率。这种微调的方式还是无法区分域,如第一张图b所示。作者提出语义不可知损失(semantic-agnostic loss)解决这个问题(见第一张图c):

在这里插入图片描述

这个损失的意思和 L F I D L_{FID} LFID正好相反,这个损失是降质图像对应的GT匹配当前类型的概率尽可能的小,则最后的总损失函数为:
L B I Q A = L F I D + L S A L_{BIQA} = L_{FID} + L_{SA} LBIQA=LFID+LSA

3.2 All in one 图像复原 (AIR)

AIR模块是基于潜在扩散模型设计的,利用文本和图像嵌入条件来恢复具有生成先验的图像 I s d I_{sd} Isd。为了使文本条件能够指导不同的图像恢复,我们结合了交叉注意,将文本条件映射到潜在扩散模型的时间条件UNet主干的中间层。对于图像条件,我们将图像条件 z I z_I zI与噪声潜像 z t z_t zt连接起来,并将它们馈送到UNet主干。

3.3 结构校正模块 (SCM)

具体方法是一个神经网络F,输入是latent diffusion的输出和降质图像concat起来。这么做的话,我们需要先通过扩散采样得到输出 z z z,这是费时的。作者直接用任意时间步预测的 z ~ \tilde z z~来作为扩散采样的输出 z z z,损失函数如下:
L S C M = ∣ ∣ I g t − ( F ( D ( z ~ ) , I ) + D ( z ~ ) ) ∣ ∣ 2 2 L_{SCM} = ||I_{gt}-(F(D(\tilde z), I)+D(\tilde z))||_2^2 LSCM=∣∣Igt(F(D(z~),I)+D(z~))22
这里F是SCM模型,I是降质图像,D是VAE的解码器,其实F就是学习残差。如下图可以看到,他这个扩散模型的效果很差啊!!!没有这个SCM的话效果一定不行,所以他加SCM这个。

在这里插入图片描述

4. 实验

·不知道作者为什么只对比了2个,而且SD不算吧,至少也应该比一比不同任务的baselines啊?
在这里插入图片描述


在这里插入图片描述


在这里插入图片描述


·所谓的多步骤处理不同降质消融实验。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/200734.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis使用教程详解<下>

回顾上一篇博文,我们讲了如何使用注解/XML的方式来操作数据库,实际上,一个Mapper接口的实现,这两种方式是可以并存的. 上一篇博文中,我们演示的都是比较简单的SQL语句,没有设计到复杂的逻辑,本篇博文会讲解复杂SQL的实现及一些细节处理.话不多说,让我们开始吧. 一. #{}和${} …

【Qt之QSqlRelationalTableModel】描述及使用

描述 QSqlRelationalTableModel类为单个数据库表提供了一个可编辑的数据模型,并支持外键。 QSqlRelationalTableModel的行为类似于QSqlTableModel,但允许将列设置为其他数据库表的外键。 左边的屏幕截图显示了QTableView中一个普通的QSqlTableModel。外…

哈希思想应用【C++】(位图,布隆过滤器,海量数据处理面试题)

目录 一,位图 1. 位图概念 2.实现 3. 测试题 位图的优缺点 二,布隆过滤器 1). 布隆过滤器提出 2). 概念 3). 布隆过滤器的查找 4). 布隆过滤器删除(了解) 5). 布隆过滤器优点 6). 布隆过滤器缺陷 三,海量数据面试题 1&#xff…

C语言你爱我么?(ZZULIOJ 1205:你爱我么?)

题目描述 LCY买个n束花准备送给她暗恋的女生,但是他不知道这个女生是否喜欢他。这时候一个算命先生告诉他让他查花瓣数,第一个花瓣表示"爱",第二个花瓣表示"不爱",第三个花瓣表示"爱"..... 为了使最…

【Openstack Train安装】七、glance安装

Glance是为虚拟机的创建提供镜像的服务,我们基于Openstack是构建基本的IaaS平台对外提供虚拟机,而虚拟机在创建时必须为选择需要安装的操作系统,Glance服务就是为该选择提供不同的操作系统镜像。Glance提供Restful API可以查询虚拟机镜像的me…

计算机网络(超详解!) 第二节 物理层(上)

1.物理层的基本概念 物理层考虑的是怎样才能在连接各种计算机的传输媒体上传输数据比特流,而不是指具体的传输媒体。 物理层的作用是要尽可能地屏蔽掉不同传输媒体和通信手段的差异。 用于物理层的协议也常称为物理层规程(procedure)。 2.物理层的主要任务 主要…

Linux处理文本常见命令

目录 1 vim 2 echo 3 tee 4 cat 1 vim 编辑文本类的内容,使用的时候 vim [文件名],比如 vim A.txt 进入vim界面后,按i可以开启编辑模式,按ESC可以关闭编辑模式,关闭编辑模式后:wq!保存并退出 2 echo ech…

PHP:处理数据库查询数据

注: DB_num_rows($result5)可以替换为mysqli_num_rows($result5) DB_fetch_array($result5)可以替换为mysqli_fetch_assoc($result5) 一、查询单个数据 代码解析 1、SQL语句 查询表www_users中当userid等于变量$_SESSION[UserID]时的depart_code值 $sql &qu…

【JavaEE初阶】 HTTP 请求 (Request)详解

文章目录 🍀序言🎄认识URL🚩URL 基本格式🚩query string🚩关于 URL encode 🌴认识 "方法" (method)🚩GET方法🚩POST 方法🚩 GET 和 POST 的区别 🎋…

7 种 JVM 垃圾收集器详解

一、概述 如果说收集算法是内存回收的方法论,那么垃圾收集器就是内存回收的具体实现。Java虚拟机规范中对垃圾收集器应该如何实现并没有任何规定,因此不同的厂商、版本的虚拟机所提供的垃圾收集器都可能会有很大差别,并且一般都会提供参数供用…

如何利用软文打动消费者,媒介盒子支招

软文与一般文案的差别就在于它的目的性十分强烈,写软文不难,但是想要写出打动消费者的软文还需要一定的技巧。它需要根据目标受众来输出,接下来媒介盒子就为大家分享:如何用软文提升产品购买率。 一、 故事打动用户 没人会不爱看…

接口测试【加密解密攻防完整版】实战教程详解

一、对称加密 对称加密算法是共享密钥加密算法,在加密解密过程中,使用的密钥只有一个。发送和接收双方事先都知道加密的密钥,均使用这个密钥对数据进行加密和解密。 数据加密:在对称加密算法中,数据发送方将明文 (原…

1 NLP分类之:FastText

0 数据 https://download.csdn.net/download/qq_28611929/88580520?spm1001.2014.3001.5503 数据集合:0 NLP: 数据获取与EDA-CSDN博客 词嵌入向量文件: embedding_SougouNews.npz 词典文件:vocab.pkl 1 模型 基于fastText做词向量嵌入…

抖音、视频号流行的 Bokeh(虚化) 效果是怎么实现的?

未经作者(微信ID:Byte-Flow)允许,禁止转载 文章首发于公众号:字节流动 什么是 bokeh 效果? Bokeh 效果是指照片中背景模糊而主体清晰的一种摄影效果。这种效果是通过使用大光圈的镜头来实现的,使得光圈外的景物失去焦点,呈现出一种柔和、虚化的效果。 Bokeh 效果的质量…

30万起售的阿维塔12能卖的动吗?

作者 | 魏启扬 来源 | 洞见新研社 今年前十个月,累计交付1.76万辆,这就是阿维塔11交出的成绩单。 作为一个拥有长安汽车和宁德时代作为资源支撑,华为提供技术支持的品牌,阿维塔11平均每个月不到2000辆的销量水平显然有失水准。 …

科研绘图配色

01 配色的基本原则 颜色需要有自身的意义。不同的颜色表示不同的分组,相近的颜色表示同一个分组;配色需要展现数据逻辑关系,突出关键数据,比如重要的数据用深色或暖色表示,不重要的数据用浅色或冷色表示。 色彩种类两…

Redis 基础、字符串、哈希、有序集合、集合、列表以及与 Jedis 操作 Redis 和与 Spring 集成。

目录 1. 数据类型 1.1 字符串 1.2 hash 1.3 List 1.4 Set 1.5 sorted set 2. jedis操作redis 3. 与spring集成 1. 数据类型 1.1 字符串 String是最常用的数据格式,普通的kay-value都归结为此类, value值不仅可以是string,可以是数字…

【c语言:常用字符串函数与内存函数的使用与实现】

文章目录 1. strlen函数1.1使用1.2模拟实现 2.strcmp函数2.1使用2.2模拟实现 3.strncmp函数3.1使用3.2模拟实现 4.strcpy函数4.1 使用4.2模拟实现 5.strcncpy5.1使用5.2模拟实现 6.strcat函数6.1使用6.2模拟实现 7.strncat函数7.1使用7.2模拟实现 8.strstr函数8.1使用8.2模拟实…

ffmpeg 免安装,配置环境变量

1、下载ffmpeg https://download.csdn.net/download/qq284489030/88579595 2、解压 解压ffmpeg-4.4-essentials_build.zip到目标文件夹,比如 d:\apps下; 3、配置环境变量 (1)电脑桌面鼠标右键点击“此电脑”,弹出…

[带余除法寻找公共节点]二叉树

二叉树 题目描述 如上图所示,由正整数1, 2, 3, ...组成了一棵无限大的二叉树。从某一个结点到根结点(编号是1的结点)都有一条唯一的路径,比如从10到根结点的路径是(10, 5, 2, 1),从4到根结点的路径是(4, 2, 1)&#x…