SETR——Rethinking系列工作，展示使用纯transformer在语义分割任务上是可行的，但需要很强的训练技巧

题目：Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

作者：
开源：https://fudan-zvg.github.io/SETR

1.研究背景

1.1 为什么要研究这个问题？

自[ 36 ]的开创性工作以来，现有的语义分割模型主要是**基于全卷积网络( FCN )的模型。**一个标准的FCN分割模型具有编码器-解码器结构：编码器用于特征表示学习，而解码器用于特征表示的像素级分类。
[ 36 ]Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 1, 2, 3, 6

1.2 所研究的问题目前存在什么样的困难？

FCN针对在非约束场景图像中学习对语义分割至关重要的长距离依赖信息，存在有限的感受野限制！

1.3 学者们都做了哪些研究来解决此问题？这些解决方法还有什么不足?

为了克服上述缺陷，近年来提出了许多方法。一种方法是直接操纵卷积操作（directly manipulate the convolution operation），包括大的核尺寸[ 40 ]（large kernel sizes），空洞卷积[ 8、22 ]（atrous convolutions）和图像/特征金字塔（image/feature pyramids）；另一种方法是将注意力模块集成到FCN架构中，该模块旨在对特征图中所有像素的全局交互进行建模。
无论采用哪种方式，标准的编码器-解码器FCN模型架构都保持不变。
最近，人们尝试完全去除卷积，转而使用注意力独立模型[ 47 ]。然而，即使没有卷积，它们也不会改变FCN模型结构的本质：编码器对输入的空间分辨率进行降采样，开发出有助于区分语义类的低分辨率特征表示，解码器再对特征表示上采样到全分辨率语义映射。

2.研究目的

在本文中，我们旨在为语义分割模型的设计提供一种反思，并贡献一种替代方案。我们提出用一个纯transformer[ 45 ]来代替空间分辨率逐渐降低的基于堆叠卷积层的编码器，从而产生了一个新的分割模型- -SEgmentation TRansformer (SETR)。
该转换器将输入图像视为由学习到的块嵌入表示的图像块序列，并对该序列进行全局自注意力建模，用于判别性特征表示学习。具体来说，我们首先将一幅图像分解为固定大小的面片网格，形成一个面片序列。对每个面片的扁平化像素向量施加线性嵌入层，得到特征嵌入向量序列，作为transformer的输入。给定从编码器转换器中学习到的特征，然后使用解码器恢复原始图像分辨率。关键的是，在编码器转换器的每一层都没有空间分辨率的下采样，而是全局上下文建模，从而为语义分割问题提供了一个全新的视角。（无需从局部到全局学习）
创新点：