1. Polarized Self-Attention介绍
1.1 摘要:像素级回归可能是细粒度计算机视觉任务中最常见的问题,例如估计关键点热图和分割掩模。 这些回归问题非常具有挑战性,特别是因为它们需要在低计算开销的情况下对高分辨率输入/输出的长期依赖性进行建模,以估计高度非线性的像素语义。 虽然深度卷积神经网络(DCNN)中的注意力机制在增强远程依赖性方面已变得流行,但特定于元素的注意力(例如非局部块)的学习非常复杂且对噪声敏感,并且大多数简化的注意力混合体试图达到 多种类型任务之间的最佳折衷方案。 在本文中,我们提出了偏振自注意力(PSA)模块,它结合了高质量像素级回归的两个关键设计:(1)偏振过滤:在通道和空间注意力计算中保持高内部分辨率,同时完全折叠输入张量 它们的对应尺寸。 (2) 增强:构建直接拟合典型细粒度回归输出分布的非线性,例如二维高斯分布(关键点热图)或二维二项分布(二元分割掩模)。 PSA 似乎已经耗尽了其仅通道和仅空间分支内的表示能力,因此其顺序布局和并行布局之间仅存在边际度量差异。 实验结果表明,PSA 将标准基线提高了 2−4 个点,并将 2D 姿态估计和语义分割基准的最先进技术提高了 1−2 个点。
官方论文地址: