Activating More Pixels in Image SuperResolution Transformer

摘要

基于 Transformer 的方法在低级别视觉任务中表现出了令人印象深刻的性能,例如图像超分辨率。然而,我们通过归因分析发现,这些网络只能利用有限的输入信息空间范围。这意味着transformer 的潜力在现有网络中仍未得到充分利用。为了激活更多的输入像素进行更好的重建,我们提出了一种新的混合注意力Transformer( HAT )。它结合了信道注意和基于窗口的自注意方案,从而利用了它们能够利用全局统计和强大的局部拟合能力的互补优势。此外,为了更好地聚合跨窗口信息,我们引入了重叠的交叉注意力模块来增强相邻窗口特征之间的交互。在训练阶段,我们还采用了相同的任务预训练策略,以利用模型的潜力进行进一步改进。
总结
提出了一种 新的混合注意力 Transformer HAT 。它结合了信道注意和基于窗口的自注意方案,从而利用了它们能够利用全局统计和强大的局部拟合能力的互补优势。
为了更好地聚合跨窗口信息, 引入了重叠的交叉注意力模块来增强相邻窗口特征之间的交互

1、介绍

率图像。基于 Transformer 的方法也被开发用于低级别视觉任务以及 SR 。特别是,一个新设计的网络,SwinIR,在这项任务中获得了突破性的改进。一个直观的解释是,这种网络可以受益于自我关注机制,并利用远程信息。因此,我们采用属性分析方法LAM 来检查 SwinIR 中用于重建的所涉及的信息范围。有趣的是,我们发现在超分辨率中,SwinIR 并没有比基于 CNN 的方法 ( 例如 RCAN) 利用更多的输入像素, 如图 2 所示
此外,尽管 SwinIR 平均获得了更高的定量性能,但由于所利用的信息范围有限,它在某些样本中产生的结果不如RCAN 。这些现象表明, Transformer 对局部信息建模的能力更强,但其利用信息的范围需要扩大。此外,我们还发现,在SwinIR 的中间特征中会出现阻塞伪影,如图 3 所示。说明移位窗口机制不能很好地实现跨窗口信息交互。
为了解决上述限制并进一步开发 Transformer SR 中的潜力,我们 提出了一种混合注意力转换器,即 HAT 。我们的 HAT 结合了通道注意力和自注意力方案,以利用前者使用全局信息的能力和后者强大的代 表能力 。此外,我们 引入了一个重叠的交叉注意模块,以实现相邻窗口特征之间更直接的交互 。得益于这些设计,我们的模型可以激活更多的像素进行重建,从而显著提高性能。
由于 Transformer 不像细胞神经网络那样具有电感偏差,因此大规模的据预训练对于释放此类模型的潜力非常重要。在这项工作中我们提供了一个有效的相同任务预训练策略 。与 IPT 使用多个恢复任务进行预训练和EDT 使用多个退化级别进行预训练不同,我们直接在同一任务上使用大规模数据集进行预训练。 我们相信,大规模的数据对预训练来说才是真正重要的,实验结果也表明了我们策略的优越性。

贡献

1 、我们设计了一个新的混合注意力 Transformer HAT ),它 结合了自我注意力、通道注意力和新的重 叠交叉注意力 ,以激活更多的像素进行更好的重建。
2 、我们 提出了一种有效的同任务预训练策略,以进一步挖掘 SR Transformer 的潜力 ,并表明大规模数据预训练对任务的重要性。

2、相关工作

2.1 用于图像超分辨率的深度网络

LAM 采用积分梯度法来探索哪些输入像素对最终性能的贡献最大。 DDR 揭示了基于深度特征降维和可视化的SR 网络中的深层语义表示。FAIG[62]旨在为盲 SR 中的特定退化找到判别滤波器。 RDSR[23] 引入了信道显著性图,以证明 Dropout 可以帮助防止对真实SR 网络的协同适应。 SRGA[38] 旨在评估 SR 方法的泛化能力。在这项工作中,我们利用LAM[15] 来分析和理解 SR 网络的行为。

2.2 Vision Transformer

SwinIR 提出了一种基于 [39] 的图像恢复转换器。 VRT 将基于 Transformer 的网络引入了视频恢复。
EDT[27] 采用自注意力机制和多相关任务预训练策略来进一步刷新 SR 的最新技术。然而,现有的工作仍然不能充分利用Transformer 的潜力,而我们的方法可以激活更多的输入像素来进行更好的重建。

3、方法

3.1Motivation

LAM ,我们可以判断哪些输入像素对所选区域的贡献最大。如图 2 所示,红色标记点是有助于重建的信息像素。直观的说,利用的信息越多,性能就越好。比较RCAN[68] EDSR[32] 时,基于 CNN 的方法也是如此。然而,对于基于Transformer 的方法 ——SwinIR ,其 LAM 并没有显示出比 RCAN 更大的范围。这与我们以为的相矛盾,但也可以为我们提供更多的见解。首先,这意味着SwinIR CNN 具有更强的映射能力,因此可以使用更少的信息来获得更好的性能。其次,由于使用的像素范围有限,SwinIR 可能会恢复错误的纹理,我们认为如果它能够利用更多的输入像素,它可以得到进一步的改进。因此,我们的目标是设计一种网络,在激活更多像素进行重建的同时,可以利用类似的自注意。如图2 所示,我们的HAT 可以看到几乎整个图像的像素,并恢复正确清晰的纹理。
此外,我们可以在 SwinIR 的中间特征中观察到明显的阻塞伪影,如图 3 所示。这些伪影是由窗口分区机制引起的,这表明移位窗口机制在构建跨窗口连接方面效率低下 。一些针对高级视觉任务的工作也指出,增强窗口之间的连接可以改进基于窗口的自注意方法。 因此,在设计我们的方法时,我们 加强了跨 窗口信息交互,并且通过 HAT 获得的中间特征中的阻塞伪影得到显著缓解。

3.2网络结构

3.2.1 整体结构
如图 4 所示,网络由三部分组成,包括浅层特征提取、深层特征提取和图像重建。Architecture设计在以前的任务中被广泛使用。具体来说,对于给定的低分辨率输入 先利用一个卷积层来提取浅层特征
其中 Cin C 表示输入的通道数和中间特征。然后,利用一系列残差混合注意力组 RHAG 和一个 3x3 卷积层 HConv(.) 进行深度特征提取。 然 后,我们添加全局残差连接来融合浅特征F0和深特征
然后通过重建模块 重建高分辨率结果 。如图 4 所示。 每一个 RHAG 都包含几个混合注意力块( HAB )、一个重叠交叉注意力 块( OCAB )和一个具有残差连接的 3x3 卷积层 。对于重建模块 ,采用像素混洗方法对融合特征进行上采 。我们简单地使用 L1 损失来优化网络参数。
3.2.2 混合注意力块
如图 2 所示,当采用通道注意力时,更多的像素被激活,因为全局信息被用于计算通道注意力权重。此外,许多工作表明,卷积可以帮助Transformer 获得更好的视觉表示或实现更容易的优化。因此,我们 在标准 Transformer 块中加入了基于通道注意力的卷积块 ,以增强网络的表示能力。如图 4 所示, 通道 注意力块( CAB )与基于窗口的多头自注意( W-MSA) 模块并行地插入到第一层规范( LN )层之后的标 Swin-Transfomer 块中 。请注意,在类似于 [31,39] 连续 HAB 中,每隔一段时间就会采用基于移位 窗口的自注意( SW-MSA) 。为了避免 CBA MSA 在优化和视觉表示方面可能发生的冲突, 将小常数乘以 CAB 的输出。对于给定的输入特征 X,HAB 的整个过程计算为
其中
表示中间特征, Y 表示 HAB 的输出 。特别是,我们将每个像素视为嵌入的令牌(即,在[31] 之后将补丁嵌入的补丁大小设置为 1 )。 MLP 表示多层感知器,用于计算自我注意模 型,给定大小为HXWXC 的输入特征,首先将其划分为大小为MxM的
局部窗口,然后,在每 个窗口内计算自注意。对于局部窗口特征,通过Q K V 的线性映射计算查询矩阵、键矩阵和值矩阵。然后,窗口的自注意被公式化为(就是 self-attention 的公式) ;
来计算自关注,因为我们发现它显著扩大了所用像素的范围,如第 4.2 节所示。此外,为了在相邻的非重 叠窗口之间建立连接,我们还利用移位窗口划分方法,并将移位大小设置为窗口大小的一半。 CAB 由两个标准卷积层组成,具有 GELU 激活和通道注意力( CA )模块 ,如图 4 所示。由于基于 Transformer的结构通常需要大量的通道来嵌入令牌,因此, 直接使用具有恒定宽度的卷积会产生很大的计算成本。因此,我们用常数\beta
压缩两个卷积层的通道数。对于具有 C 个通道的输入特征,第一个卷积层之后的输出特征的通道数被压缩为\frac{C}{\beta}, 然后通过第二层将特征扩展到 C 个通道。接下来,利用标 准CA模块自适应地重新缩放信道特征.
3.2.3 重叠交叉注意(OCAB

我们引入 OCAB 来直接建立跨窗口连接,并增加窗口自注意的表示能力。我们的 OCAB 由重叠交叉注意 OCA )层和 MLP 层组成 ,类似于标 Swin Transformer 块。但是对于 OCA ,如图 5 所示,我们 使用 不同的窗口大小来划分投影的特征。具体来说,对于输入特征XX_QX_Q,X_K,X_V \in R^{H\times W \times C}被划分为大小为M×M的\frac{HW}{M^2}的重叠窗口,计算如下:
M_o = (1+\gamma) \times M
其中\gamma 是控制重叠大小的常数 。为了更好地理解这个操作, 标准窗口分区可以被认为是一个滑动分
区,其内核大小和步长都等于窗口大小 M。相反,重叠窗口分区可以被视为内核大小等于M_o
的滑动分区,而步长等于M。使用大小为\frac{\gamma M}{2}
0填充来确保重叠窗口的大小一致性。注意力矩阵计算为Equ2。并且还采用了相对位置偏置B \in R^{M\times M} WSA 不同, WSA 的查询、键和值 是根据相同的窗口特征设置的。OCA 从一个较大的字段中计算 key/value ,在该字段中可以使用更多有 用的信息进行查询 。请注意,尽管 [44] 中的多分辨率重叠注意力( MOA )模块执行类似的重叠窗口划 分,但我们的OCA MOA 有根本不同,因为 MOA 使用窗口特征作为令牌计算全局注意力,而 OCA 使用 像素令牌计算每个窗口特征内的交叉注意力。

3.3相同的任务预训练

IPT 强调使用各种低级别任务,如去噪、超分辨率等,而 EDT 则利用特定任务的不同退化级别进行预训练。这些工作的重点是研究多任务预训练对目标任务的影响。相比之下,我们基于相同的任务直接在更大规模的数据集上进行预训练,表明预训练的有效性更多地取决于数据的规模和多样性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/437658.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年最新阿里云服务器地域选择方法,以及可用区说明

阿里云服务器地域和可用区怎么选择?地域是指云服务器所在物理数据中心的位置,地域选择就近选择,访客距离地域所在城市越近网络延迟越低,速度就越快;可用区是指同一个地域下,网络和电力相互独立的区域&#…

Qt 绘制中的视口(setViewport)和窗口(setWindow)

重点 : 1.绘制(QPainter)可以设置视口,视口下设置窗口,而绘制的构件是以窗口为坐标系进行绘画。 2.先根据绘图设备的物理坐标系的矩形位置,设置视图视口setViewport,然后在以视口为区域去设置…

vue基础教程(4)——深入理解vue项目各目录

博主个人微信小程序已经上线:【中二少年工具箱】。欢迎搜索试用 正文开始 专栏简介1. 总览2. node_modules3.public4.src5.assets6.components7.router8.stores9.views10.App.vue11.main.js12.index.html 专栏简介 本系列文章由浅入深,从基础知识到实战…

【开源物联网平台】使用MQTT.fx模拟设备接入FastBee物联网平台

​🌈 个人主页:帐篷Li 🔥 系列专栏:FastBee物联网开源项目 💪🏻 专注于简单,易用,可拓展,低成本商业化的AIOT物联网解决方案 目录 一、接入步骤 1.1 创建产品&#xff…

HTTP Cookie 你了解多少?

Cookie是什么? 先给大家举个例子,F12 打开浏览器的页面之后,我们能在 Response Headers 的字段里面看到一个header 叫做 Set-Cookie,如下所示 图中包含的 Set-Cookie 为 Set-Cookie:uuid_tt_dd10_20293537580-1709432565344-232…

【C++】string类的基础操作

💗个人主页💗 ⭐个人专栏——C学习⭐ 💫点击关注🤩一起学习C语言💯💫 目录 导读 1. 基本概述 2. string类对象的常见构造 3. string类对象的容量操作 4. string类对象的访问及遍历操作 5. 迭代器 6.…

【智能家居入门1之环境信息监测】(STM32、ONENET云平台、微信小程序、HTTP协议)

作为入门本篇只实现微信小程序接收下位机上传的数据,之后会持续发布如下项目:①可以实现微信小程序控制下位机动作,真正意义上的智能家居;②将网络通讯协议换成MQTT协议再实现上述功能,此时的服务器也不再是ONENET&…

IPSEC VPN 网关模式实验

要求:FW1与FW3建立IPSEC通道,保证10.0.2.0/24网段能访问192.168.1.0/24网段 因为FW1与FW3都处于边界,所以使用网关部署模式来建立IPSEC VPN FW1 这里选择主模式跟隧道模式 FW3与FW1配置类似,与FW1的源目地址反过来,…

-bash: unzip: 未找到命令的解决方案

遇到 -bash: unzip: 未找到命令 这样的错误信息,表示你的系统中没有安装 unzip 工具。unzip 是一个常用的解压工具,用于解压缩 .zip 文件。你可以通过系统的包管理器安装它。 根据你使用的 Linux 发行版,安装 unzip 的命令会有所不同。下面是…

图形系统开发实战课程:进阶篇(上)——10.应用实例:交通路网

图形开发学院|GraphAnyWhere 课程名称:图形系统开发实战课程:进阶篇(上)课程章节:“图形样式”原文地址:https://www.graphanywhere.com/graph/advanced/2-10.html 第十章 应用实例:交通路网 \quad 在前面几…

老师如何发布已点评的学生在校表现,并让家长留言反馈?

教师想要在线上发布已点评过的成绩单,同时想让家长在线留言反馈,还要做到只能查自己孩子的成绩,应该如何实现? 可以使用易查分制作一个学生在校表现查询系统,家长自主查询,有问题可留言向班主任反馈&#x…

什么是工业协议网关?作用是什么?

在工业自动化和智能制造领域,数据的采集、传输和处理是实现设备监控、远程控制和优化的关键。而工业协议网关,作为连接工业设备与上层管理系统的桥梁,发挥着至关重要的作用。今天,我们就来深入解析一下HiWoo Box这一工业协议网关的…

银行数字化转型导师坚鹏:银行数字化转型案例研究

银行数字化转型案例研究 课程背景: 数字化背景下,很多银行存在以下问题: 不清楚银行科技金融数智化案例? 不清楚银行供应链金融数智化案例? 不清楚银行普惠金融数智化案例? 不清楚银行跨境金融数智…

ACM题解Day10|总结篇|进制转化,GCD ,LCM ,二分答案

🔥博客介绍: 27dCnc [Cstring中find_first_not_of()函数和find_last_not_of()函数-CSDN博客] 方差,期望 概率 今日打卡: 算法周总结 ACM题解Day3| To Crash or not To Crash,Integer Prefix ,I don’t want to pay for the Late Jar-CSDN博客 第3题:…

温室气体排放控制中的DNDC模型建模技术及双碳应用

由于全球变暖、大气中温室气体浓度逐年增加等问题的出现,“双碳”行动特别是碳中和已经在世界范围形成广泛影响。国家领导人在多次重要会议上讲到,要把“双碳”纳入经济社会发展和生态文明建设整体布局。同时,提到要把减污降碳协同增效作为促…

蓝牙 | 软件: Qualcomm BT Audio 问题分析(4)----检查MIPS使用情况

大家好! 我是“声波电波还看今朝”成员的一位FAE Devin.wen,欢迎大家关注我们的账号。 今天给大家大概讲解“如何排查Qualcomm BT Audio”的疑难杂症(四):MIPS检查。 如果大家还没有注册我们大大通的账号&#xff0c…

彻底理解Java并发:乐观锁、悲观锁和CAS

一、悲观锁与乐观锁 锁的一种宏观分类方式是悲观锁和乐观锁。悲观锁与乐观锁并不是特指某个锁(Java 中没有哪个 Lock 实现类就叫 PessimisticLock 或 OptimisticLock),而是在并发情况下的两种不同策略。 1、乐观锁(Optimistic L…

RK3568平台 USB数据包的收发格式

一.USB硬件拓扑结构 compound device :多个设备组合起来,通过HUB跟Host相连composite device :一个物理设备有多个逻辑设备(multiple interfaces) 在软件开发过程中,我们可以忽略Hub的存在,硬件拓扑图简化如下&#x…

git revert 撤回之前的几个指定的提交

文章目录 Intro操作命令-n 选项 参考 Intro 在开发过程中,有的时候一开始只是一个小需求,可以改着改着事情超出了控制,比如说我一开始只是想调整一个依赖包的版本,可是改到后来类库不兼容甚至导致项目无法启动。 这个时候我就想&…

(二十二)devops持续集成开发——jenkins服务代理Agent搭建

前言 在Jenkins 中,代理(Agent)是一种用于执行构建、部署和其他任务的计算节点。代理节点可以是物理机器、虚拟机或容器,它们负责接收 Jenkins 主控节点委派的任务并执行这些任务。通过使用代理节点,可以有效地分担Je…