Focal Network for Image Restoration

Focal Network for Image Restoration

用于图像恢复的焦点网络

Yuning Cui1 Wenqi Ren2* Xiaochun Cao2 Alois Knoll1 1Technical University of Munich 2Shenzhen Campus of Sun Yat-sen University {yuning.cui,knoll}@in.tum.de {renwq3,caoxiaochun}@mail.sysu.edu.cn

论文:https://openaccess.thecvf.com/content/ICCV2023/papers/Cui_Focal_Network_for_Image_Restoration_ICCV_2023_paper.pdf

Abstract:

图像恢复的目的是从退化的图像中重建清晰的图像,这在许多领域发挥着重要作用。 最近,Transformer 模型在各种图像恢复任务上取得了可喜的性能。 然而,它们的二次复杂度对于实际应用来说仍然是一个棘手的问题。 本研究的目的是开发一种高效且有效的图像恢复框架。 受损坏图像中的不同区域总是经历不同程度的退化这一事实的启发,我们建议更多地关注重建的重要区域。 为此,我们引入了双域选择机制来强调恢复的关键信息,例如边缘信号和硬区域。 此外,我们分割高分辨率特征以将多尺度感受野插入到网络中,从而提高了效率和性能。 最后,所提出的网络(称为 FocalNet)是通过将这些设计合并到 U 形主干中来构建的。 大量实验表明,我们的模型在十个数据集上实现了三项任务的最先进性能,包括单图像散焦去模糊、图像去雾和图像去雪。 我们的代码可在 https://github.com/c-yn/FocalNet 获取。

Introduction

在这项研究中,我们的目标不是追求大的感受野或探索对 Transformer 架构的修改,而是通过更多地关注用于重建的信息信号(例如边缘信息或难以恢复的区域)来开发一种高效且有效的基于 CNN 的框架。在这个方向上,现有的方法可以大致分为两类:辅助训练和基于注意力的方法。前者主要利用辅助技术或数据,例如语义分割、深度估计和光流估计来定位退化或边缘信息。尽管如此,这些算法总是需要额外的复杂分支和精心设计的训练策略来生成监督信息。关于这个主题的另一条路线是设计注意机制来关注信息区域或控制信息传输。 这些方法大多集中在空间域,而忽略了光谱信息的使用,而光谱信息也可以为重建提供有用的信息。
为了促使模型更多地关注关键区域,我们提出了一种新颖的双域选择机制(DSM),充分利用空间域和光谱域中清晰/退化图像对之间的差异。 具体来说,我们的机制包括两个组件:空间选择模块(SSM)和频率选择模块(FSM)。SSM 将特征作为输入,并通过部署深度卷积层来确定每个通道的退化的一般位置。 然后使用 FSM 通过去除特征中的低频来放大高频信号或硬区域。所提出的网络 FocalNet 是通过将 DSM 合并到 U 形 CNN 主干中而建立的。 为了节省计算开销,我们只将 DSM 插入到 FocalNet 的瓶颈模块中,其中包括最低分辨率的特征。
此外,我们将高分辨率特征在通道维度上分成两部分。 一半特征被下采样到较低的分辨率,这不仅可以降低复杂性,还可以通过为不同尺寸的退化提供多尺度感受野来提高性能。
总的来说,本研究的主要贡献总结如下:
我们提出了一种新颖的双域选择机制(DSM),可以放大重要区域的响应,以帮助恢复干净的特征。
我们开发了一个高效且有效的焦点网络,为图像恢复提供多尺度表示学习。
对十个数据集的大量实验表明,所提出的网络 FocalNet 在三个代表性图像恢复任务上的表现优于最先进的算法。

Related Work

Image Restoration Architectures:

作为一项长期任务,图像恢复旨在消除损坏图像中不需要的退化,这在机器人视觉、医疗应用和监控等许多领域发挥着重要作用。最近,与传统方法相比,基于 CNN 的架构显着提高了性能。 在这些架构中,编码器-解码器范例是学习分层表示的流行解决方案。此外,还开发或借鉴了其他领域的大量功能单元,例如扩张卷积、跳跃连接、动态滤波器和各种注意机制。最近,Transformer 模型已被导入到低级视觉任务中,并提供了有希望的性能。 此后,采取了一些措施,通过限制操作区域或切换操作维度来降低自注意力的计算复杂度。

Spectral Networks:

除了空间表示学习之外,还提出了许多深度框架来弥合清晰/退化图像对之间的频率间隙。 常见的做法是通过小波变换、傅里叶变换、池化技术和传统滤波器等变换工具将特征分解为不同的频率分量,然后分别通过卷积层处理每个分量。 此外,一些研究研究了相位和幅度的不同作用,并提出了分别恢复它们的架构。 在我们的工作中,我们只是从 SSM 的结果特征中删除最低频率信号,为进一步重建提供指导。

Auxiliary Training:

除了在图像恢复任务的训练集中提供真实图像之外,还提出了大量网络来求助于辅助监督。 语义先验已被引入低级任务中以提供颜色、边界或位置信息。然而,全局语义先验对于大深度变化引起的退化效果较差。 因此,已经提出了许多方法来估计深度图以生成用于恢复的边缘和结构信号。 此外,还有许多工作集成了其他辅助信息,例如光流和事件数据。然而,上述解决方案总是需要额外的数据、昂贵的卷积分支和复杂的训练策略。

Method

在本节中,我们首先描述FocalNet的整体架构。 然后我们描述我们的模块:多尺度ResBlock(MResBlock)和双域选择机制(DSM)。 最后,我们详细介绍损失函数。

Overall Pipeline

图 3. 所提出的具有双域选择机制 (DSM) 的 FocalNet 架构,由两个组件组成,即空间选择模块 (SSM) 和频率选择模块 (FSM)。  ResBlock包含n个残差块,包括两个3×3卷积层和中间的激活函数。
如图 3 所示,所提出的 FocalNet 采用流行的编码器-解码器架构来有效地学习分层表示。 编码器和解码器网络都由三个尺度组成。 在我们的论文中,我们将第一个尺度称为涉及最高分辨率特征的子网络。MResBlock构成了第一个尺度的主要部分。 另外两个尺度主要由ResBlock组成,ResBlock由n个残差块组成。 给定大小为 H × W × 3 的退化图像,其中 H × W 和 C 分别表示空间位置和通道数,使用 3 × 3 卷积层来提取大小为 H × W × C 的浅层特征。然后,浅层特征经过三尺度对称编码器-解码器,转换为恢复特征,即解码器第一尺度中MResBlock的输出特征。从最高分辨率的输入开始,编码器逐渐减小空间尺寸并扩大通道数量。 解码器则执行相反的操作,从最深层的特征中恢复干净的特征。在此过程中,解码器特征与编码器特征连接起来以帮助恢复,然后进行 1 × 1 卷积来调整通道维度。最后,通过最后的3×3卷积层和图像级残差连接生成预测的干净图像。 除了MResBlock中的上采样层采用双线性插值之外,上采样(UP)和下采样(DOWN)操作都是通过转置卷积和跨步卷积实现的。所提出的 DSM 被注入瓶颈位置以选择最重要的区域进行重建。 此外,我们应用多输入和多输出策略来缓解先前方法的训练难度。

Multi-scale ResBlock(MResBlock)多尺度ResBlock

最近,追求多尺度感受野是计算机视觉社区的热门话题,特别是基于 Transformer 的模型。 受[11,40,46]的启发,我们在ResBlock中采用多尺度机制,通过分割和下采样操作形成我们的MResBlock,如图3所示。具体来说,给定输入特征,我们首先沿着通道维度将它们平均分成两个部分。 接下来,使用跨步卷积将一半特征减少到原始分辨率的四分之一。得到的特征被输入到 ResBlock 中,然后上采样到原始大小。 另一半直接由ResBlock处理。 MResBlock 的最终输出是通过连接两个分支的结果特征获得的。 MResBlock 有两个主要优势。 首先,它通过实现不同大小的退化的多尺度表示学习来提高性能,并增强不同频率的谱学习。 其次,它通过降低特征分辨率来提高效率。

Dual-domain Selection Mechanism (DSM) 双域选择机制

图 2.我们的双域选择机制 (DSM) 的效果。 从左到右:从 DPDD [1] 获得的模糊图像、地面实况图像、DSM 的输入特征、空间选择的结果以及空间和频率选择的结果。  SSM 有助于关注退化区域,而 FSM 则强调边缘信息。 放大以获得最佳视图。

这项研究的主要目标是通过关注更重要的区域来开发一个有效的图像恢复网络。这一目标是通过所提出的 DSM 实现的,它放大了两个领域的信息的响应(见图 2)。 如图 3 底部所示,它由两个组件组成:空间选择模块 (SSM) 和频率选择模块 (FSM)。 给定输入特征 F ∈ R H × W × C F\in\mathbb{R}^{H\times W\times C} FRH×W×C,依次采用 SSM 和 FSM,可表示为:
F ^ = F S M ( S S M ( F ) ) . \hat{F}=\mathrm{FSM}(\mathrm{SSM}(F)). F^=FSM(SSM(F)).
接下来,我们详细介绍这两个要素。

Spatial Selection Module (SSM):空间选择模块

SSM帮助网络聚焦于空间域中的重要区域,为后续FSM提供严重退化的初始位置。 我们的SSM有3个分支机构。 主路径建立在CBAM [53]的基础上,以生成要关注的退化位置的一般特征表示。 具体来说,给定一个中间特征图F,我们首先通过最大池化和平均池化两种池化技术沿通道维度挤压F,然后通过卷积层生成通用特征图,其形式表示为:
F ′ = C o n v 3 ( [ A v g P o o l ( F ) , M a x P o o l ( F ) ] ) F^{\prime}=\mathrm{Conv}_3([\mathrm{AvgPool}(F),\mathrm{MaxPool}(F)]) F=Conv3([AvgPool(F),MaxPool(F)])
其中[·,·]表示串联; AvgPool、MaxPool 和 C o n v 3 Conv_3 Conv3分别表示平均池化、最大池化和 3 × 3 内核大小的卷积层。 通过这样做, F ′ ∈ R H × W × 1 F^{\prime}\in\mathbb{R}^{H\times W\times1} FRH×W×1包含要聚焦的退化位置。
由于每个通道的退化模式不同,我们通过深度卷积对输入特征 F 进行通道分离变换,进一步生成通道表示,然后用 F ′ F^{\prime} F调制结果特征。 这个过程表述如下:
F s = D C o n v s 5 , 7 ( F ) ⊗ T ( F ′ , C ) + D C o n v 3 ( F ) F_s=\mathrm{DConvs}_{5,7}(F)\otimes\mathrm{T}(F',C)+\mathrm{DConv}_3(F) Fs=DConvs5,7(F)T(F,C)+DConv3(F)
其中 D C o n v s 5 , 7 \mathrm{DConvs}_{5,7} DConvs5,7表示内核大小为 5 × 5 和 7 × 7 的级联深度卷积层; D C o n v 3 DConv_3 DConv3表示具有3×3核的深度卷积; ⊗ 表示逐元素乘法; T ( F ′ , C ) \mathrm{T}(F^{\prime},C) T(F,C)是将 F ′ F^{\prime} F沿通道维度复制C次到 R H × W × C {R}^{H\times W\times C} RH×W×C的平铺函数。 然后,我们将空间选择的特征 F s ∈ R H × W × C F_{s}\in\mathbb{R}^{H\times W\times C} FsRH×W×C馈送到 FSM 进行频率选择。

Frequency Selection Module (FSM):选择模块

我们可以直接利用 F s F_s Fs来辅助恢复过程。 由于退化/清晰图像对具有相似的低频分量,而在高频上有所不同,我们通过所提出的 FSM 去除最低频率来进一步强调包含输入/清晰图像对之间真正差异的区域。为此,我们首先对 F s F_s Fs应用均值滤波器来生成低频特征然后通过从输入中减去得到的低频信号来获得互补的高频特征,其表示为:
F s h = F s − M e a n ( F s ) F_s^h=F_s-\mathrm{Mean}(F_s) Fsh=FsMean(Fs)
在我们的例子中,均值滤波器是通过通道全局平均池实现的。 FSM/DSM的最终输出是使用 F s h F_{s}^{h} Fsh F s F_s Fs之间的逐元素乘法以及残差连接生成的,其表示为:
F ^ = F s h ⊗ F s + F s \hat{F}=F_s^h\otimes F_s+F_s F^=FshFs+Fs
DSM 之后,会强调重要区域,例如图 2 中用于散焦去模糊的边缘信号。

Loss Function:损失函数

为了促进空间域和频域的选择过程,我们采用了如下的双域 l 1 l_{1} l1损失函数 [13, 15]。 对于具有相同分辨率的每个输出/目标图像对,损失函数由下式给出:
L s = 1 P ∥ I ^ − G ∥ 1 L f = 1 P ∥ F ( I ^ ) − F ( G ) ∥ 1 L = L s + λ L f \begin{aligned} \mathcal{L}_{s}& =\frac1P\|\hat{I}-G\|_1 \\ \mathcal{L}_{f}& =\frac{1}{P}\|\mathcal{F}(\hat{I})-\mathcal{F}(G)\|_{1} \\ \text{L}& =\mathcal{L}_s+\lambda\mathcal{L}_f \end{aligned} LsLfL=P1I^G1=P1F(I^)F(G)1=Ls+λLf
其中 I ^ \hat{I} I^和 G 分别表示输出图像和真实图像; P表示归一化的总元素; F \text{F} F表示快速傅立叶变换; 为了平衡双域训练,λ 根据经验设置为 0.1。

Ablation Studies:消融实验

我们通过在 RESIDEIndoor上训练微型模型并在 SOTS-Indoor上进行测试来进行消融研究,以证明我们模块的有效性。 所有ResBlock中残差块的数量设置为1。 该模型仅训练了 300 个 epoch,初始学习率为 1e−4,批量大小为 4。其他设置与我们最终的去雾模型相同。 基线网络是通过用 ResBlock 替换 MResBlock 并从微型模型中删除 DSM 获得的。 补充材料中提供了更多消融研究。

Order of FSM and SSM:FSM 和 SSM 的顺序

当我们交换 FSM 和 SSM 的使用顺序时,性能从 35.60 dB(表 5g)下降到 35.17 dB PSNR。 这种现象验证了我们设计的有效性,我们首先应用 SSM 来处理一般退化区域,然后利用 FSM 来强调更重要的部分,例如图 2 中的边缘信号和图 8 中的硬区域。
表 5. SOTS-Indoor [27] 数据集上 FocalNet 不同组件的消融研究。

Conclusion

在这项研究中,我们提出了一种用于图像恢复的焦点网络,称为 FocalNet,它非常有效且计算效率高。 我们工作的核心思想是聚焦重点地区重建。 为此,我们提出两个模块:SSM和FSM。 SSM 建立在空间注意力的基础上,以检测退化区域以进行后续的频率选择。 FSM进一步强调了难以恢复的边缘信号或区域。 通过连续部署两个模块,网络能够更多地关注对重建真正重要的区域。 此外,我们通过降低输入特征一半通道的分辨率,将多尺度机制插入到网络中。 这种设计不仅提高了性能,还降低了复杂性。 对 10 个数据集的实验表明,我们的模型在多个图像恢复任务中实现了最先进的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/730777.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【python】OpenCV——Color Correction

文章目录 cv2.aruco 介绍imutils.perspective.four_point_transform 介绍skimage.exposure.match_histograms 介绍牛刀小试遇到的问题 参考学习来自 OpenCV基础(18)使用 OpenCV 和 Python 进行自动色彩校正 cv2.aruco 介绍 一、cv2.aruco模块概述 cv2.…

【2024德国工作】外国人在德国找工作是什么体验?

挺难的,德语应该是所有中国人的难点。大部分中国人进德国公司要么是做中国业务相关,要么是做技术领域的工程师。先讲讲人在中国怎么找德国的工作,顺便延申下,德国工作的真实体验,最后聊聊在今年的德国工作签证申请条件…

网络与协议安全复习 - 电子邮件安全

文章目录 PGP(Pretty Good Privacy)功能 S/MIME(Secure/Multipurpose Internet Mail Extensions)DKIM(Domain Keys Identified Mail) PGP(Pretty Good Privacy) 使用符号: Ks:会话密钥、KRa:A 的私钥、KUa:A 的公钥、EP&#xff…

Android开发系列(六)Jetpack Compose之Box

Box是一个用来组合和控制子元素布局的组件。它可以在一个矩形区域内排列一个或多个子元素,并根据所提供的参数来控制它们的位置、大小和样式。 Box的功能类似传统的FrameLayout。 下面通过示例了解Box的使用方法,首先看一个最简单的示例,如下…

永磁同步电机驱动死区补偿

1 死区效应及补偿 1. 1 死区效应 在本文的电机控制嵌入式系统中,逆变器为三 相电压型桥式逆变电路,如图 1 所示。 在理想状态 下,上桥臂和下桥臂的控制信号满足互补通断原则, 即上桥臂开通时,下桥臂关断,反之亦然。 而在实际 应用中,开关管的通断需要一定的开通时…

大语言模型-Transformer

目录 1.概述 2.作用 3.诞生背景 4.历史版本 5.优缺点 5.1.优点 5.2.缺点 6.如何使用 7.应用场景 7.1.十大应用场景 7.2.聊天机器人 8.Python示例 9.总结 1.概述 大语言模型-Transformer是一种基于自注意力机制(self-attention)的深度学习…

如何使用Windows备份轻松将数据转移到新电脑?这里有详细步骤

序言 我们都知道那种买了一台新电脑,就想直接上手的感觉。我记得在过去的日子里,要花几个小时传输我的文件,并试图复制我的设置。在当今传输数据的众多方法中,Windows备份提供了一个简单可靠的解决方案。 登录到你的Microsoft帐户 Microsoft在传输过程中使用其云存储来保…

NGINX_六 nginx 日志文件详解

六 nginx 日志文件详解 nginx 日志文件分为 **log_format** 和 **access_log** 两部分log_format 定义记录的格式,其语法格式为log_format 样式名称 样式详情配置文件中默认有log_format main $remote_addr - $remote_user [time_local] "req…

二,SpringFramework

二、SpringFramework实战指南 目录 一、技术体系结构 1.1 总体技术体系1.2 框架概念和理解 二、SpringFramework介绍 2.1 Spring 和 SpringFramework概念2.2 SpringFramework主要功能模块2.3 SpringFramework 主要优势 三、Spring IoC容器和核心概念 3.1 组件和组件管理概念3…

超越GPT-4o!新王Claude 3.5 Sonnet来啦!免费使用

目录 01 比GPT-4o更智能,比Claude 3 Opus快两倍 02 最强视觉Model 03 使用Claude的新方式:Artifacts 04 安全性和透明度 Anthropic刚刚发布了全新大模型Claude 3.5 Sonnet,号称是迄今为止最智能的模型。一文几步教你注册使用Claude 3.5 S…

硬件开发笔记(二十一):外部搜索不到的元器件封装可尝试使用AD21软件的“ManufacturerPart Search”功能

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/139869584 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

英文字母表

目录 一 设计原型 二 后台源码 一 设计原型 二 后台源码 namespace 英文字母表 {public partial class Form1 : Form{public Form1(){InitializeComponent();}private void Form1_Load(object sender, EventArgs e){foreach (var item in panel1.Controls){if (item ! null)…

数据仓库的实际应用示例-广告投放平台为例

数据仓库的数据分层通常包括以下几层: ODS层:存放原始数据,如日志数据和结构化数据。DWD层:进行数据清洗、脱敏、维度退化和格式转换。DWS层:用于宽表聚合值和主题加工。ADS层:面向业务定制的应用数据层。…

【大数据】—二手车用户数据可视化分析案例

项目背景 在当今的大数据时代,数据可视化扮演着至关重要的角色。随着信息的爆炸式增长,我们面临着前所未有的数据挑战。这些数据可能来自社交媒体、商业交易、科学研究、医疗记录等各个领域,它们庞大而复杂,难以通过传统的数据处…

掌握数据魔方:Xinstall引领ASA全链路数据归因新纪元

一、引言 在数字化时代,数据是App推广和运营的核心驱动力。然而,如何准确获取、分析并应用这些数据,却成为了许多开发者和营销人员面临的痛点。Xinstall作为一款专业的App全渠道统计服务商,致力于提供精准、高效的数据解决方案&a…

Linux开发讲课8--- linux的5种IO模型

一、这里IO是什么 操作系统为了保护自己,设计了用户态、内核态两个状态。应用程序一般工作在用户态,当调用一些底层操作的时候(比如 IO 操作),就需要切换到内核态才可以进行 服务器从网络接收的大致流程如下&#xff1…

拍卖商城开发要点源码及功能分析

要创建一个正规的拍卖商城平台,需要遵循一系列步骤,确保平台的合法性、专业性和用户体验。以下是一个详细的步骤指南: 一、明确平台定位与规划 确定拍卖商城平台的目标市场、用户群体和主要拍卖品类。 制定平台的发展规划和战略目标&#…

gorm 学习笔记 五:自定义数据类型和枚举

一:Json类型 Info保存到数据库时,通过Value()转化为json,读取出来的时候 json字符串自动转成结构体Info type Info struct {Status string json:"status"Addr string json:"addr"Age int json:"age"…

无人机比赛有哪些?

无人机比赛项目可是多种多样,精彩纷呈呢! 常见的比赛项目包括S形绕桩赛、平台起降赛、应用航拍、投掷物品和定点飞行等。这些项目不仅考验无人机的性能,更考验飞行员的操控技巧。 在S形绕桩赛中,飞行员需要操控无人机快速而准确…