摘要
基于
Transformer
的方法在低级别视觉任务中表现出了令人印象深刻的性能,例如图像超分辨率。然而,我们通过归因分析发现,这些网络只能利用有限的输入信息空间范围。这意味着transformer
的潜力在现有网络中仍未得到充分利用。为了激活更多的输入像素进行更好的重建,我们提出了一种新的混合注意力Transformer(
HAT
)。它结合了信道注意和基于窗口的自注意方案,从而利用了它们能够利用全局统计和强大的局部拟合能力的互补优势。此外,为了更好地聚合跨窗口信息,我们引入了重叠的交叉注意力模块来增强相邻窗口特征之间的交互。在训练阶段,我们还采用了相同的任务预训练策略,以利用模型的潜力进行进一步改进。
总结
提出了一种
新的混合注意力
Transformer
(
HAT
)
。它结合了信道注意和基于窗口的自注意方案,从而利用了它们能够利用全局统计和强大的局部拟合能力的互补优势。
为了更好地聚合跨窗口信息,
引入了重叠的交叉注意力模块来增强相邻窗口特征之间的交互
。
1、介绍
率图像。基于
Transformer
的方法也被开发用于低级别视觉任务以及
SR
。特别是,一个新设计的网络,SwinIR,在这项任务中获得了突破性的改进。一个直观的解释是,这种网络可以受益于自我关注机制,并利用远程信息。因此,我们采用属性分析方法LAM
来检查
SwinIR
中用于重建的所涉及的信息范围。有趣的是,我们发现在超分辨率中,SwinIR
并没有比基于
CNN
的方法
(
例如
RCAN)
利用更多的输入像素,
如图
2
所示
。
此外,尽管
SwinIR
平均获得了更高的定量性能,但由于所利用的信息范围有限,它在某些样本中产生的结果不如RCAN
。这些现象表明,
Transformer
对局部信息建模的能力更强,但其利用信息的范围需要扩大。此外,我们还发现,在SwinIR
的中间特征中会出现阻塞伪影,如图
3
所示。说明移位窗口机制不能很好地实现跨窗口信息交互。
为了解决上述限制并进一步开发
Transformer
在
SR
中的潜力,我们
提出了一种混合注意力转换器,即
HAT
。我们的
HAT
结合了通道注意力和自注意力方案,以利用前者使用全局信息的能力和后者强大的代
表能力
。此外,我们
引入了一个重叠的交叉注意模块,以实现相邻窗口特征之间更直接的交互
。得益于这些设计,我们的模型可以激活更多的像素进行重建,从而显著提高性能。
由于
Transformer
不像细胞神经网络那样具有电感偏差,因此大规模的据预训练对于释放此类模型的潜力非常重要。在这项工作中我们提供了一个有效的相同任务预训练策略
。与
IPT
使用多个恢复任务进行预训练和EDT
使用多个退化级别进行预训练不同,我们直接在同一任务上使用大规模数据集进行预训练。 我们相信,大规模的数据对预训练来说才是真正重要的,实验结果也表明了我们策略的优越性。
贡献
1
、我们设计了一个新的混合注意力
Transformer
(
HAT
),它
结合了自我注意力、通道注意力和新的重
叠交叉注意力
,以激活更多的像素进行更好的重建。
2
、我们
提出了一种有效的同任务预训练策略,以进一步挖掘
SR Transformer
的潜力
,并表明大规模数据预训练对任务的重要性。
2、相关工作
2.1 用于图像超分辨率的深度网络
LAM
采用积分梯度法来探索哪些输入像素对最终性能的贡献最大。
DDR
揭示了基于深度特征降维和可视化的SR
网络中的深层语义表示。FAIG[62]旨在为盲
SR
中的特定退化找到判别滤波器。
RDSR[23]
引入了信道显著性图,以证明
Dropout
可以帮助防止对真实SR
网络的协同适应。
SRGA[38]
旨在评估
SR
方法的泛化能力。在这项工作中,我们利用LAM[15]
来分析和理解
SR
网络的行为。
2.2 Vision Transformer
SwinIR
提出了一种基于
[39]
的图像恢复转换器。
VRT
将基于
Transformer
的网络引入了视频恢复。
EDT[27]
采用自注意力机制和多相关任务预训练策略来进一步刷新
SR
的最新技术。然而,现有的工作仍然不能充分利用Transformer
的潜力,而我们的方法可以激活更多的输入像素来进行更好的重建。
3、方法
3.1Motivation
用
LAM
,我们可以判断哪些输入像素对所选区域的贡献最大。如图
2
所示,红色标记点是有助于重建的信息像素。直观的说,利用的信息越多,性能就越好。比较RCAN[68]
和
EDSR[32]
时,基于
CNN
的方法也是如此。然而,对于基于Transformer
的方法
——SwinIR
,其
LAM
并没有显示出比
RCAN
更大的范围。这与我们以为的相矛盾,但也可以为我们提供更多的见解。首先,这意味着SwinIR
比
CNN
具有更强的映射能力,因此可以使用更少的信息来获得更好的性能。其次,由于使用的像素范围有限,SwinIR
可能会恢复错误的纹理,我们认为如果它能够利用更多的输入像素,它可以得到进一步的改进。因此,我们的目标是设计一种网络,在激活更多像素进行重建的同时,可以利用类似的自注意。如图2
所示,我们的HAT
可以看到几乎整个图像的像素,并恢复正确清晰的纹理。
此外,我们可以在
SwinIR
的中间特征中观察到明显的阻塞伪影,如图
3
所示。这些伪影是由窗口分区机制引起的,这表明移位窗口机制在构建跨窗口连接方面效率低下
。一些针对高级视觉任务的工作也指出,增强窗口之间的连接可以改进基于窗口的自注意方法。
因此,在设计我们的方法时,我们
加强了跨
窗口信息交互,并且通过
HAT
获得的中间特征中的阻塞伪影得到显著缓解。
3.2网络结构
3.2.1 整体结构
如图
4
所示,网络由三部分组成,包括浅层特征提取、深层特征提取和图像重建。Architecture设计在以前的任务中被广泛使用。具体来说,对于给定的低分辨率输入
先利用一个卷积层来提取浅层特征
其中
Cin
和
C
表示输入的通道数和中间特征。然后,利用一系列残差混合注意力组
RHAG
和一个
3x3
卷积层
HConv(.)
进行深度特征提取。
然 后,我们添加全局残差连接来融合浅特征F0和深特征
然后通过重建模块
重建高分辨率结果
。如图
4
所示。
每一个
RHAG
都包含几个混合注意力块(
HAB
)、一个重叠交叉注意力
块(
OCAB
)和一个具有残差连接的
3x3
卷积层
。对于重建模块
,采用像素混洗方法对融合特征进行上采
样
。我们简单地使用
L1
损失来优化网络参数。
3.2.2 混合注意力块
如图
2
所示,当采用通道注意力时,更多的像素被激活,因为全局信息被用于计算通道注意力权重。此外,许多工作表明,卷积可以帮助Transformer
获得更好的视觉表示或实现更容易的优化。因此,我们
在标准
Transformer
块中加入了基于通道注意力的卷积块
,以增强网络的表示能力。如图
4
所示,
通道
注意力块(
CAB
)与基于窗口的多头自注意(
W-MSA)
模块并行地插入到第一层规范(
LN
)层之后的标
准
Swin-Transfomer
块中
。请注意,在类似于
[31,39]
的
连续
HAB
中,每隔一段时间就会采用基于移位
窗口的自注意(
SW-MSA)
。为了避免
CBA
和
MSA
在优化和视觉表示方面可能发生的冲突,
将小常数乘以
CAB
的输出。对于给定的输入特征
X,HAB
的整个过程计算为
其中
表示中间特征,
Y
表示
HAB
的输出
。特别是,我们将每个像素视为嵌入的令牌(即,在[31]
之后将补丁嵌入的补丁大小设置为
1
)。
MLP
表示多层感知器,用于计算自我注意模 型,给定大小为HXWXC
的输入特征,首先将其划分为大小为MxM的
局部窗口,然后,在每 个窗口内计算自注意。对于局部窗口特征,通过Q
、
K
、
V
的线性映射计算查询矩阵、键矩阵和值矩阵。然后,窗口的自注意被公式化为(就是
self-attention
的公式)
;
来计算自关注,因为我们发现它显著扩大了所用像素的范围,如第
4.2
节所示。此外,为了在相邻的非重 叠窗口之间建立连接,我们还利用移位窗口划分方法,并将移位大小设置为窗口大小的一半。
CAB
由两个标准卷积层组成,具有
GELU
激活和通道注意力(
CA
)模块
,如图
4
所示。由于基于 Transformer的结构通常需要大量的通道来嵌入令牌,因此,
直接使用具有恒定宽度的卷积会产生很大的计算成本。因此,我们用常数
压缩两个卷积层的通道数。对于具有
C
个通道的输入特征,第一个卷积层之后的输出特征的通道数被压缩为,
然后通过第二层将特征扩展到
C
个通道。接下来,利用标
准CA模块自适应地重新缩放信道特征.
3.2.3 重叠交叉注意(OCAB)
我们引入
OCAB
来直接建立跨窗口连接,并增加窗口自注意的表示能力。我们的
OCAB
由重叠交叉注意
(
OCA
)层和
MLP
层组成
,类似于标
准
Swin Transformer
块。但是对于
OCA
,如图
5
所示,我们
使用
不同的窗口大小来划分投影的特征。具体来说,对于输入特征,的被划分为大小为M×M的的重叠窗口,计算如下:
其中
是控制重叠大小的常数
。为了更好地理解这个操作,
标准窗口分区可以被认为是一个滑动分
区,其内核大小和步长都等于窗口大小
M。相反,重叠窗口分区可以被视为内核大小等于
的滑动分区,而步长等于M。使用大小为
的
0填充来确保重叠窗口的大小一致性。注意力矩阵计算为Equ2。并且还采用了相对位置偏置。
与
WSA
不同,
WSA
的查询、键和值 是根据相同的窗口特征设置的。OCA
从一个较大的字段中计算
key/value
,在该字段中可以使用更多有
用的信息进行查询
。请注意,尽管
[44]
中的多分辨率重叠注意力(
MOA
)模块执行类似的重叠窗口划 分,但我们的OCA
与
MOA
有根本不同,因为
MOA
使用窗口特征作为令牌计算全局注意力,而
OCA
使用
像素令牌计算每个窗口特征内的交叉注意力。
3.3相同的任务预训练
IPT
强调使用各种低级别任务,如去噪、超分辨率等,而
EDT
则利用特定任务的不同退化级别进行预训练。这些工作的重点是研究多任务预训练对目标任务的影响。相比之下,我们基于相同的任务直接在更大规模的数据集上进行预训练,表明预训练的有效性更多地取决于数据的规模和多样性。