图像超分辨率技术新进展：混合注意力聚合变换器HAAT

1. 引言：

2. 混合注意力聚合变换器（HAAT）：

2.1 Swin-Dense-Residual-Connected Block（SDRCB）：

2.2 Hybrid Grid Attention Block（HGAB）：

3. 实验结果：

4. 结论：

1. 引言：

在计算机视觉领域，单图像超分辨率（SISR）技术的目标是从一个低分辨率的图像中重建出高分辨率的图像。这一技术因其在多种应用中的广泛需求而成为一个关键的研究领域。传统的基于CNN的方法，如SRCNN、VDSR和SRGAN，通过使用卷积神经网络显著改善了图像的纹理特征恢复。然而，这些方法在模拟图像中的长距离依赖关系方面存在局限，这主要是由于CNN的固有偏置，包括参数依赖的感受野扩展和卷积操作的核大小限制，这可能导致忽略图像中的非局部空间信息。

为了解决这些问题，研究者开始探索基于Transformer的SISR模型，这些模型能够利用其长距离依赖模拟的能力，从而提高SISR的性能。特别是，SwinIR利用Swin Transformer取得了显著的改进，而混合注意力变换器（HAT）通过结合重叠的交叉注意力模块、基于窗口的自注意力和通道注意力，也产生了最先进的结果。

2. 混合注意力聚合变换器（HAAT）：

HAAT模型的提出是为了解决现有基于Transformer的方法在图像恢复问题上的局限性，尤其是当前基于窗口的Transformer网络将自注意力计算限制在集中区域，导致感受野受限并且无法充分利用原始图像的特征信息。

HAAT通过整合Swin-Dense-Residual-Connected Blocks（SDRCB）和Hybrid Grid Attention Blocks（HGAB）来构建，其中SDRCB在保持精简架构的同时扩展了感受野，从而提高了性能。HGAB则结合了通道注意力、稀疏注意力和窗口注意力，以改善非局部特征融合，并实现更引人注目的视觉结果。

2.1 Swin-Dense-Residual-Connected Block（SDRCB）：

SDRCB是HAAT模型的一个关键组成部分，它利用Swin Transformer Layer（STL）的移窗自注意力机制来捕获长距离依赖关系。STL根据全局内容调整模型的强调点，增强特征提取，并在网络加深时保持全局细节，扩大感受野而不降低性能。SDRCB通过与密集残差连接的结合，进一步扩展了感受野，并提高了对关键信息的强调，这对于需要细致、上下文敏感处理的SISR任务至关重要。SDRCB的计算过程涉及到多级特征图的连接、特征转换和残差缩放，其中残差缩放因子用于稳定训练过程。下图是SDRCB框架：

2.2 Hybrid Grid Attention Block（HGAB）：

HGAB是HAAT模型的另一个核心组成部分，它由混合注意力层（MAL）和多层感知器（MLP）层组成。HGAB的工作流程是将输入特征按照通道分割，并分别通过不同的自注意力机制进行处理，包括窗口多头自注意力（W-MSA）、稀疏窗口多头自注意力（SW-MSA）和网格多头自注意力（Grid-MSA）。此外，HGAB还对输入特征执行通道注意力操作。HGAB的设计采用了后归一化方法，以增强网络训练的稳定性。MAL的计算过程涉及到对输入特征的分割、不同自注意力机制的处理以及通道注意力的操作，最终将这些特征重新组合并加到原始特征上。下图是HGAB结构：

3. 实验结果：

HAAT模型在DF2K数据集上进行了训练，该数据集是一个包含DIV2K和Flickr2K的大规模聚合数据集。在训练过程中，研究人员通过双三次下采样方法生成了不同缩放因子的低分辨率图像。为了评估模型的有效性，研究人员在Set5和Set14等知名的SISR基准数据集上进行了性能评估。实验结果表明，HAAT在峰值信噪比（PSNR）和结构相似性（SSIM）这两个评价指标上均优于现有的最先进技术。这一结果证明了HAAT在参数数量更少、计算需求更低的情况下，仍然能够取得比现有最先进模型更好的结果。下图是HAAT与SOTA方法的定量比较：

4. 结论：

本文介绍了HAAT，这是一种新型的单图像超分辨率模型。HAAT通过增强DRCT架构，强调了信息流的稳定性和通过残差块中的密集连接扩展感受野，以及通过移窗注意力机制自适应地获取全局信息。这使得模型能够增强对全局地理信息的强调，优化其能力，并避免信息瓶颈。此外，HAAT还提供了HGAB来表示图像中的长距离关系，通过整合通道注意力、稀疏注意力和窗口注意力，提高了多级结构相似性。

HAAT在DF2K数据集上进行了训练，并在Set5和Set14数据集上进行了验证。实验结果表明，HAAT在单图像超分辨率任务中的性能超越了现有的最先进技术。

引用论文：HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/930734.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！