三十章:Segmenter:Transformer for Semantic Segmentation ——分割器:用于语义分割的Transformer

0.摘要

        图像分割在单个图像块的级别上经常存在歧义,并需要上下文信息来达到标签一致性。在本文中,我们介绍了一种用于语义分割的Transformer模型- Segmenter。与基于卷积的方法相比,我们的方法允许在第一层和整个网络中对全局上下文进行建模。我们构建在最近的Vision Transformer(ViT)基础上,并将其扩展到语义分割。为此,我们依赖于与图像块对应的输出嵌入,并使用逐点线性解码器或掩码变换解码器从这些嵌入中获取类标签。我们利用预先训练的用于图像分类的模型,并展示我们可以在适度规模的用于语义分割的数据集上对它们进行微调。线性解码器已经能够获得优秀的结果,但通过生成类掩码的掩码变换器可以进一步提高性能。我们进行了大量的剖析研究,以展示不同参数的影响,特别是对于大型模型和小块尺寸,性能更好。Segmenter在语义分割方面取得了出色的结果。它在ADE20K和Pascal Context数据集上超越了现有技术,并在Cityscapes数据集上具有竞争力。

1.引言

        语义分割是一个具有广泛应用的计算机视觉问题,包括自动驾驶、机器人技术、增强现实、图像编辑、医学成像等[27,28,45]。语义分割的目标是将每个图像像素分配给对应的对象类别标签,并为目标任务提供高级图像表示,例如在虚拟试衣应用中检测人物和衣物边界[29]。尽管近年来在图像分割方面已经做出了很多努力并取得了很大进展[10,22,31,37,48,65,66],但由于类内变异丰富、上下文变异以及由遮挡和低图像分辨率引起的歧义,图像分割仍然是一个具有挑战性的问题。​​​​​​​

        最近的语义分割方法通常依赖于卷积编码-解码结构,其中编码器生成低分辨率的图像特征,解码器将特征上采样为具有每个像素类别分数的分割图。最先进的方法采用了全卷积网络(FCN)[44],在具有挑战性的分割基准测试中取得了令人印象深刻的结果[10,23,57,58,60,64,66]。这些方法依赖于可学习的堆叠卷积,可以捕捉语义丰富的信息,在计算机视觉领域取得了巨大成功。然而,卷积滤波器的局部性质限制了对图像全局信息的访问。与此同时,这些信息在分割中尤为重要,因为局部补丁的标记往往取决于全局图像上下文。为了解决这个问题,DeepLab方法[8,9,10]引入了扩张卷积和空间金字塔池化的特征聚合。这可以扩大卷积网络的感受野并获得多尺度特征。在自然语言处理(NLP)的最新进展[50]的基础上,一些分割方法探索了基于通道或空间的替代聚合方案[22,23,61]和基于点的注意力[66],以更好地捕捉上下文信息。然而,这些方法仍然依赖于卷积主干网络,并且因此在局部交互方面存在偏见。对于纠正这种偏见,大量使用专门的层[8,10,22,58]暗示了卷积架构在分割中的局限性。

        为了克服这些限制,我们将语义分割问题定义为一个序列到序列的问题,并使用Transformer架构[50]在模型的每个阶段利用上下文信息。根据设计,Transformer可以捕捉场景中元素之间的全局交互,并且没有内置的归纳先验,如图1所示。然而,全局交互的建模成本是二次的,这使得这种方法在应用于原始图像像素[11]时变得过于昂贵。在最近的关于视觉Transformer(ViT)的工作[19,49]的基础上,我们将图像分割成补丁,并将线性补丁嵌入视为Transformer编码器的输入标记。编码器产生的标记的上下文化序列然后由Transformer解码器上采样为每个像素的类别分数。对于解码,我们考虑将补丁嵌入简单地线性映射到类别分数,或者采用基于Transformer的解码方案,其中可学习的类别嵌入与补丁标记一起处理以生成类别掩码。我们对Transformer在分割中进行了广泛的研究,包括模型正则化、模型大小、输入补丁大小及其在准确性和性能之间的权衡。我们的Segmenter方法在保持简单、灵活和快速的同时取得了出色的结果。特别是,在使用小输入补丁大小的大型模型时,最佳模型在具有挑战性的ADE20K [68]数据集上达到了平均IoU为53.63%的水平,大大超过了所有先前最先进的卷积方法5.3%的差距。我们方法的这种改进部分源于模型每个阶段捕捉的全局上下文,如图1所示。

        总结起来,我们的工作提供了以下四个贡献:

        (i) 我们提出了一种基于Vision Transformer (ViT) [19]的新颖语义分割方法,不使用卷积,在设计上捕捉上下文信息,并且性能优于基于FCN的方法。

        (ii) 我们提供了一系列具有不同分辨率级别的模型,可以在精度和运行时间之间进行权衡,从具有最先进性能的模型到具有快速推理和良好性能的模型。

        (iii) 我们提出了一种基于Transformer的解码器,生成类别掩码,性能优于我们的线性基准线,并可以扩展到执行更一般的图像分割任务。

        (iv) 我们证明了我们的方法在ADE20K [68]和Pascal Context [38]数据集上取得了最先进的结果,并且在Cityscapes [14]上具有竞争力。

图1:我们的语义分割方法完全基于Transformer。它在模型的每个层级利用全局图像上下文。图中显示了来自第一个Segmenter层的注意力图,针对三个8×8的补丁,突出显示了早期将补丁分组成语义上有意义的类别。原始图像(左上角)上覆盖了我们方法生成的分割掩码。

2.相关工作

语义分割。基于全卷积网络(FCN)结合编码器-解码器架构的方法已成为语义分割的主流方法。最初的方法[21,36,39,40]依赖于一系列连续的卷积,然后进行空间池化来进行密集预测。连续的方法[1,4,34,41,43]在解码过程中上采样高级特征图并将其与低级特征图相结合,以捕捉全局信息并恢复清晰的目标边界。为了扩大卷积在第一层的感受野,一些方法[8,33,59]提出了扩张卷积。为了在更高层捕获全局信息,最近的工作[9,10,65]使用空间金字塔池化来捕获多尺度的上下文信息。将这些改进与扩张空间金字塔池化相结合,Deeplabv3+ [10]提出了一个简单而有效的编码器-解码器FCN架构最近的工作[22,23,57,58,61,66]在编码器特征图的顶部通过注意力机制取代了粗糙的池化,以更好地捕捉远距离的依赖关系。

        尽管最近的分割方法主要集中在改进FCN,但卷积所施加的局部操作的限制可能意味着对全局图像上下文的处理效率低下和分割结果不够优化。因此,我们提出了一种纯Transformer架构,它在编码和解码阶段的每个层级都捕捉全局上下文。

视觉中的Transformer。Transformer [50]现在在许多自然语言处理(NLP)任务中处于领先地位。这种模型依赖于自注意机制,并捕捉句子中标记(单词)之间的远距离依赖关系。此外,Transformer非常适合并行化,便于在大型数据集上进行训练。Transformer在NLP领域的成功激发了计算机视觉中的几种方法,将CNN与自注意形式相结合,用于解决目标检测[7]、语义分割[53]、泛光分割[51]、视频处理[54]和少样本分类[18]等问题。

        最近,Vision Transformer(ViT)[19]引入了一种无卷积的Transformer架构,用于图像分类,其中输入图像被处理为补丁标记的序列。虽然ViT需要在非常大的数据集上进行训练,但DeiT [49]提出了一种基于标记的蒸馏策略,并使用CNN作为教师,在ImageNet-1k [16]数据集上训练了一个竞争力的视觉Transformer。同时进行的工作将这项工作扩展到视频分类[2,6]和语义分割[35,67]。更详细地说,SETR [67]使用ViT作为骨干网络和标准的CNN解码器。Swin Transformer [35]使用ViT的变体,由局部窗口组成,在层之间进行移动,并使用Upper Net作为金字塔FCN解码器。

        在这里,我们提出了Segmenter,一种用于语义图像分割的Transformer编码器-解码器架构。我们的方法依赖于ViT骨干网络,并引入了受DETR [7]启发的掩码解码器。我们的架构不使用卷积,通过设计捕捉全局图像上下文,并在标准图像分割基准测试中取得了竞争性的性能。

图2:我们方法Segmenter的概述。

(左侧)编码器:图像补丁被投影到一个嵌入序列中,然后通过一个Transformer进行编码。

(右侧)解码器:一个掩码Transformer以编码器的输出和类别嵌入作为输入,预测分割掩码。

详细信息请参阅文本。

3.我们的方法:分割器

        Segmenter是基于完全基于Transformer的编码器-解码器架构,将补丁嵌入序列映射到像素级别的类别注释。模型的概述如图2所示。补丁序列通过在第3.1节中描述的Transformer编码器进行编码,并通过在第3.2节中描述的逐点线性映射或掩码Transformer进行解码。我们的模型使用逐像素交叉熵损失进行端到端训练。在推理时,在上采样之后应用argmax,以获得每个像素的单个类别。

3.1.编码器

        一幅图像 x ∈ ℝH×W×C 被分割成一个补丁序列 x = [x₁;...;xₙ] ∈ ℝⁿ×P²×C,其中 (P,P) 是补丁的尺寸,n = H*W/P² 是补丁的数量,C 是通道的数量。每个补丁被展平为一维向量,并通过线性投影转换为补丁嵌入,得到补丁嵌入的序列 x₀ = [E⋅x₁;...;E⋅xₙ] ∈ ℝⁿ×D,其中 E ∈ ℝᴰ×(P²C)。为了捕捉位置信息,可学习的位置嵌入 pos = [pos₁;...;posₙ] ∈ ℝⁿ×D 被添加到补丁序列中,得到最终的输入令牌序列 z₀ = x₀ + pos。一个由 L 层组成的Transformer [50]编码器被应用于令牌序列 z₀,生成一个上下文化编码序列 zₗ ∈ ℝⁿ×D。一个Transformer层由一个多头自注意力(MSA)块和一个由两个全连接层组成的逐点MLP块组成,在每个块之前应用层归一化(LN),并在每个块之后添加残差连接。

其中 i ∈ {1,...,L}。自注意机制由三个逐点线性层组成,将令牌映射到中间表示,得到查询 Q ∈ ℝⁿ×d,键 K ∈ ℝⁿ×d 和值 V ∈ ℝⁿ×d。自注意力计算如下:

 Transformer编码器将带有位置编码的输入序列 z₀ = [z₀₁;...;z₀ₙ] 映射到上下文化编码序列 zₗ = [zₗ₁;...;zₗₙ],其中包含了丰富的语义信息,供解码器使用。在接下来的部分中,我们介绍解码器。

3.2.解码器

        补丁编码序列 zₗ ∈ ℝⁿ×D 被解码为分割图 s ∈ ℝH×W×K,其中 K 是类别的数量。解码器学习将来自编码器的补丁级编码映射到补丁级类别得分。然后,这些补丁级类别得分通过双线性插值上采样到像素级得分。接下来,我们将介绍线性解码器作为基准,并介绍我们的方法——掩码Transformer,参见图2。

线性解码器。将逐点线性层应用于补丁编码 zₗ ∈ ℝⁿ×D,得到补丁级类别的logits zlin ∈ ℝⁿ×K。然后,将序列重塑为2D特征图 slin ∈ ℝH/P×W/P×K,并通过双线性插值上采样到原始图像大小 s ∈ ℝH×W×K。然后,在类别维度上应用softmax函数,得到最终的分割图。

掩码Transformer。对于基于Transformer的解码器,我们引入了一组可学习的类别嵌入 cls = [cls₁;...;clsₖ] ∈ ℝᴿᴷ×ᴰ,其中 K 是类别的数量。每个类别嵌入都是随机初始化的,并分配给单个语义类别。它将用于生成类别掩码。类别嵌入 cls 与补丁编码 zₗ 一起由解码器共同处理,如图2所示。解码器是由 M 层组成的Transformer编码器。我们的掩码Transformer通过计算解码器输出的 L₂-归一化的补丁嵌入 z₀ₘ ∈ ℝⁿ×ᴰ 与类别嵌入 c ∈ ℝᴿᴷ×ᴰ 之间的标量积来生成 K 个掩码。类别掩码集合的计算如下:

        其中 Masks(z₀ₘ; c) ∈ ℝⁿ×ᴷ 是一组补丁序列。然后,每个掩码序列被重塑为2D掩码,形成 smask ∈ ℝH/P×W/P×K,并通过双线性插值上采样到原始图像大小,得到特征图 s ∈ ℝH×W×K。然后,在类别维度上应用softmax函数,然后进行层归一化,得到像素级类别得分,形成最终的分割图。掩码序列之间是相互软排斥的,即对于所有 (i;j) ∈ H×W,有 Σₖ si;j;k = 1。

        我们的掩码Transformer受到DETRO [7]、Max DeepLab [52]和SOLO-v2 [55]的启发,它们引入了物体嵌入 [7] 来生成实例掩码 [52,55]。然而,与我们的方法不同,Max DeepLab使用了基于CNN和Transformer的混合方法,并将像素和类别嵌入分为两个流,因为计算限制。我们使用纯Transformer架构,并利用补丁级编码,提出了一种简单的方法,在解码阶段同时处理补丁和类别嵌入。这种方法允许产生动态的滤波器,随着输入的变化而变化。虽然本文主要讨论语义分割,但我们的掩码Transformer也可以直接适应全景分割任务,只需将类别嵌入替换为物体嵌入即可

 表1:Transformer变体的详细信息。

4.实验结果

4.1.数据集和度量指标

ADE20K [68]。这个数据集包含具有细粒度标签的具有挑战性的场景,是最具挑战性的语义分割数据集之一。训练集包含20,210张图像,具有150个语义类别。验证集和测试集分别包含2,000张和3,352张图像。

Pascal Context [38]。训练集包含4,996张图像,具有59个语义类别和一个背景类别。验证集包含5,104张图像。

Cityscapes [14]。该数据集包含来自50个不同城市的5,000张图像,具有19个语义类别。训练集中有2,975张图像,验证集中有500张图像,测试集中有1,525张图像。

指标。我们报告所有类别的交并比(mIoU)的平均值。

4.2.实现细节

Transformer模型。对于编码器,我们基于视觉Transformer ViT [19]构建,并考虑表1中描述的"Tiny"、"Small"、"Base"和"Large"模型。变化的参数是Transformer编码器的层数和令牌大小。多头自注意力(MSA)块的头大小固定为64,头的数量是令牌大小除以头大小,而跟随MSA的MLP的隐藏大小是令牌大小的四倍。我们还使用DeiT [49],这是视觉Transformer的一个变种。我们考虑了以不同分辨率表示图像的模型,并使用输入补丁大小为8×8、16×16和32×32。以下是使用缩写来描述模型变体和补丁大小的示例,例如Seg B/16表示具有16×16输入补丁大小的"Base"变体。基于DeiT的模型以†表示,例如Seg-B†/16。

ImageNet预训练。我们的Segmenter模型是在ImageNet上进行预训练的,ViT是在ImageNet-21k上进行预训练的,并使用强大的数据增强和正则化[47],而其变种DeiT是在ImageNet-1k上进行预训练的。原始的ViT模型[19]仅使用随机裁剪进行训练,而[47]提出的训练过程则使用了dropout [46]和随机深度[30]的组合作为正则化,以及Mixup [62]和RandAugment [15]作为数据增强。这显著提高了ImageNet的top-1准确率,即ViT-B/16的准确率提高了+2%。我们使用来自[19]和[47]的模型对ViT-B/16在ADE20K上进行微调,并观察到显著的差异,分别为45.69%和48.06%的mIoU。接下来,所有的Segmenter模型将使用来自[47]的改进ViT模型进行初始化。我们使用图像分类库timm [56]和Google research [20]提供的公开可用模型。这两个模型在图像分辨率为224的情况下进行了预训练,并在分辨率为384的ImageNet-1k上进行了微调,只有ViT-B/8是在分辨率为224的情况下进行微调的。我们保持补丁大小固定,并根据数据集在较高分辨率上微调模型进行语义分割任务。由于补丁大小固定,增加分辨率会导致更长的令牌序列。根据[19]的方法,我们使用双线性插值将预训练的位置嵌入根据其在图像中的原始位置匹配到微调序列的长度。解码器在第3.2节中描述,并使用截断正态分布[25]中的随机权重进行初始化。

数据增强。在训练过程中,我们遵循语义分割库MM Segmentation [13]中的标准流程,包括均值减法、将图像随机调整大小到0.5到2.0的比例范围内,以及随机左右翻转。我们对大图像进行随机裁剪,对小图像进行填充,使其大小固定为ADE20K的512×512、Pascal-Context的480×480和Cityscapes的768×768。在ADE20K上,我们使用640×640的分辨率训练我们最大的模型Seg-L-Mask/16,以匹配Swin Transformer [35]所使用的分辨率。

优化。为了对预训练模型进行语义分割任务的微调,我们使用标准的像素级交叉熵损失,没有进行权重重新平衡。我们使用随机梯度下降(SGD)[42]作为优化器,设置基础学习率γ0,并将权重衰减设置为0。根据DeepLab的开创性工作[33],我们采用了“poly”学习率衰减γ=γ0(1-NNtotal iter)0:9,其中Niter和Ntotal分别表示当前迭代次数和总迭代次数。对于ADE20K,我们将基础学习率γ0设置为10^-3,批量大小为8,进行160K次迭代训练。对于Pascal Context,我们将γ0设置为10^-3,批量大小为16,进行80K次迭代训练。对于Cityscapes,我们将γ0设置为10^-2,批量大小为8,进行80K次迭代训练。学习率调度类似于DeepLabv3+ [10],学习率除以10,只有在Cityscapes中我们使用因子1。

推理。为了处理推理过程中不同大小的图像,我们使用一个滑动窗口,分辨率与训练时的大小相匹配。对于多尺度推理,按照标准做法[10],我们使用缩放因子为(0.5, 0.75, 1.0, 1.25, 1.5, 1.75)的图像的缩放版本,并进行左右翻转,然后将结果进行平均。

图3:模型补丁大小对分割图的影响。

表2:使用Seg-S/16在ADE20K验证集上比较不同正则化方案的平均IoU。

表3:在ADE20K验证集上,使用不同的背骨和输入补丁大小对不同分割模型的性能进行比较。

4.3.消融研究

        在本节中,我们在ADE20K验证集上对我们的方法的不同变体进行了消融实验。我们研究了模型正则化、模型大小、补丁大小、模型性能、训练数据集大小等方面,并将Segmenter与卷积方法进行了比较,并评估了不同的解码器。除非另有说明,我们使用基线线性解码器,并使用单尺度推理报告结果。

正则化。首先,我们比较了两种形式的正则化,即dropout[46]和随机深度[30],并表明随机深度始终改善了用于分割的Transformer训练。CNN模型依赖于批归一化[32],它也起到了正则化的作用。相反,Transformer通常由层归一化[3]和在训练过程中作为正则化器的dropout组成[17,19]。dropout随机地忽略作为输入的标记,并且在前向传递过程中,随机深度会随机地跳过模型中的一个可学习块。我们在基于ViT-S/16骨干网络的Seg-S/16上比较了正则化方法。表2显示,将随机深度设置为0.1,随机丢弃10%的层,可以持续改善性能,与没有正则化时相比,将dropout设置为0时,性能提高了0.36%。dropout无论是单独使用还是与随机深度结合使用,都会持续降低性能。这与[49]的观察结果一致,后者观察到dropout对图像分类有负面影响。从现在开始,所有的模型都将使用随机深度设置为0.1,并且不使用dropout进行训练。

Transformer大小。我们现在通过改变层数和标记大小来研究Transformer大小对性能的影响,补丁大小固定为16。表3显示,性能与骨干容量良好地呈比例关系。当将标记维度从Seg-S/16加倍到Seg-B/16时,性能提高了2.69%。当将层数从Seg-B/16加倍到Seg-L/16时,性能提高了2.65%。最后,我们最大的Segmenter模型Seg-L/16在ADE20K验证数据集上使用简单的解码方案实现了强大的50.71%的平均IoU,使用单尺度推理。在FCN模型中广泛使用的特定任务层的缺失表明,基于Transformer的方法提供了更具表达能力的模型,非常适用于语义分割。

补丁大小。使用补丁序列表示图像提供了一种简单的方法,通过改变补丁大小来权衡速度和准确性。增加补丁大小会导致对图像的表示更粗糙,但同时也会得到一个更小的序列,处理速度更快。表3的第三部分和第四部分报告了ViT骨干和不同补丁大小的性能。我们观察到补丁大小是语义分割性能的一个关键因素,它与模型大小的重要性相似。事实上,从补丁大小32到16,我们观察到Seg-B的性能提高了5%。对于Seg-B,我们还报告了补丁大小为8的结果,平均IoU为49.54%,将ViT-B/8到ViT-L/16的差距减小到1.17%,同时需要更少的参数。这一趋势表明,减小补丁大小是一种稳定的改进来源,不会引入任何参数,但需要计算更长的序列上的注意力,增加计算时间和内存消耗。如果计算上可行,ViT-L/8可能是性能最好的模型。进一步提高计算和内存效率,处理更大序列的较小补丁的Transformer是一个有前景的方向。

        为了进一步研究补丁大小的影响,我们在图3中展示了使用逐渐减小的补丁大小生成的Segmenter模型的分割图。我们观察到,对于补丁大小为32,模型学习到了一个具有全局意义的分割,但产生了边界模糊的结果,例如左侧的两个人被预测为一个连通区域。减小补丁大小会显著提高边界的清晰度,可以通过观察人物轮廓来得到验证。背景中细小的路灯杆等难以分割的实例只能以8的分辨率捕捉到。在表4中,我们报告了平均IoU与对象大小的关系,并将Segmenter与具有ResNeSt骨干的DeepLabv3+进行了比较。为了复现DeepLabv3+的结果,我们使用了MMSegmentation库[13]中的模型。我们观察到,Seg-B/8相对于Seg-B/16的改进主要来自小型和中型实例,分别提高了1.27%和1.74%。此外,我们观察到,在Segmenter相对于DeepLab的改进中,最大的改进来自大型实例,其中Seg-L-Mask/16显示出6.39%的改进。

解码器变体。在本节中,我们比较了不同的解码器变体。我们评估了在第3.2节中介绍的掩码Transformer,并将其与线性基准进行比较。掩码Transformer有2层,与编码器具有相同的标记和隐藏大小。表4报告了平均IoU性能。掩码Transformer相对于线性基准提供了一致的改进。对于Seg-B†/16,获得了最显著的1.6%的增益,对于Seg-B-Mask/32,我们获得了1.1%的提高,对于Seg-L/16,增益为0.6%。在表4中,我们还根据对象大小来考察不同模型的增益。我们观察到在小型和大型对象上都有增益,显示出使用动态滤波器的好处。大多数情况下,对于大型对象,增益更为显著,例如Seg-B/32的增益为1.4%,Seg-B†/16的增益为2.1%,Seg-L/16的增益为1.7%。掩码Transformer学习到的类别嵌入具有语义上的意义,即相似的类别彼此相邻,更多细节请参见图8。

Transformer与FCN的比较。表4和表6将我们的方法与FCN模型和DeepLabv3+[10](使用ResNeSt骨干[63])进行了比较,DeepLabv3+是最好的全卷积方法之一。我们的Transformer方法在全局场景理解方面相对于这种最先进的卷积方法提供了显著的改进,突出了Transformer捕捉全局场景理解的能力。Segmenter在大型实例上始终优于DeepLab,Seg-L/16的改进超过4%,Seg-L-Mask/16的改进超过6%。然而,在小型和中型实例上,DeepLab的性能与Seg-B/16相似,而且两者的参数数量也相似。Seg-B/8和Seg-L/16在小型和中型实例上表现最好,但计算成本较高。

性能。在图4中,我们根据每秒处理的图像数量和mIoU指标将我们的模型与几种最先进的方法进行了比较,并显示了Segmenter相对于基于FCN的模型(绿色曲线)的明显优势。我们还展示了我们的方法与最近的基于Transformer的方法相比具有良好的性能,我们最大的模型Seg-L-Mask/16与Swin-L相当,并且优于SETR-MLA。我们观察到,Seg/16模型在准确性与计算时间之间表现最佳,其中Seg-B-Mask/16提供了良好的折衷方案。Seg-B-Mask/16在推理速度相似的情况下优于基于FCN的方法,与SETR-MLA相匹配,速度是其两倍,并且需要更少的参数,同时在推理速度和性能方面优于Swin-B。Seg/32模型在上一节中讨论了学习更粗糙的分割图,并且能够以每秒处理400张图像的速度进行快速推理,比ResNet-50快四倍,同时提供类似的性能。为了计算每秒处理的图像数量,我们使用了V100 GPU,将图像分辨率固定为512,并为了公平比较,针对每个模型最大化内存允许的批处理大小。

数据集大小。Vision Transformers强调了大规模数据集对于在图像分类任务中获得良好性能的重要性。在语义分割数据集的规模下,我们分析了在ADE20k数据集上使用不断增大的数据集大小进行训练时,Seg-S/16的性能如表5所示。我们观察到当训练集大小低于8k张图像时,性能显著下降。这表明,即使在微调过程中,使用足够数量的数据,Transformer的性能也是最佳的。 

图4:我们的方法与其他方法在ADE20K验证集上的每秒图像数量和平均IoU进行比较。Segmenter模型在性能和精度方面提供了有竞争力的折衷方案。

表4:在ADE20k验证集上根据物体大小进行评估(平均IoU)。将DeepLabv3+ResNeSt-101与具有线性或遮罩变换解码器的Segmenter模型进行比较。 

表5:使用不断增大的数据集大小训练的Seg-S/16模型在ADE20K验证集上的性能比较。 

表6:ADE20K验证集上的最新性能比较。

4.4.与当今主流方法的对比

        在本节中,我们将Segmenter与ADE20K、Pascal Context和Cityscapes数据集上的最新方法进行性能比较。ADE20K上,使用在ImageNet-1k上预训练的Seg-B†/16与最先进的FCN方法DeepLabv3+ResNeSt-200 [63]相匹配,如表6所示。添加我们的遮罩变换器,Seg-B†-Mask/16提高了2%,达到了50.08%的mIoU,优于所有的FCN方法。我们的最佳模型Seg-L-Mask/16达到了53.63%的mIoU,优于DeepLabv3+ResNeSt-200和基于Transformer的方法SETR [67]和Swin-L UperNet [35],差距为5.27%的mIoU。

Pascal Context表格7报告了在Pascal Context数据集上的性能。Seg-B†模型与FCN方法相比具有竞争力,而更大的Seg-L/16模型已经提供了最先进的性能,优于SETR-L。通过使用我们的遮罩变换器Seg-L-Mask/16,性能可以进一步提升,相比线性解码器提高了2.5%,达到了59.04%的mIoU。特别是,相比OCR HRNetV2-W48提高了2.8%,相比SETR-L MLA提高了3.2%。

Cityscapes表格8报告了Segmenter在Cityscapes数据集上的性能。对于Seg-L-Mask/16,我们使用了遮罩变换器的变体,解码器中只有一层,因为由于输入分辨率为768×768,两层无法适应内存。Seg-B和Seg-L方法在与其他最先进方法竞争时表现出色,Seg L-Mask/16的mIoU达到了81.3%。

定性结果。图5展示了Segmenter和DeepLabv3+(使用ResNeSt骨干)的定性比较,这些模型由MMSegmentation [13]库提供。我们可以观察到,DeepLabv3+往往生成更锐利的物体边界,而Segmenter在大型实例上提供更一致的标签,并更好地处理部分遮挡情况。

图5:Seg-L-Mask/16在DeepLabV3+ResNeSt-101上的定性比较。有关其他定性结果,请参见第C节。

表格7:在Pascal Context验证集上的最新方法比较。

表格8:在Cityscapes验证集上的最新方法比较。

5.总结

        我们感谢Andreas Steiner提供了在8×8补丁上训练的ViT-Base模型,以及Gauthier Izacard对讨论的有益贡献。本工作部分得到了GENCI-IDRIS的HPC资源支持(Grant 2020-AD011011163R1),路易威登ENS人工智能讲座和法国政府在Agence Nationale de la Recherche的管理下,作为“Investissements d’avenir”计划的一部分,参考编号ANR-19-P3IA-0001(PRAIRIE 3IA Institute)的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/44622.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《PyTorch深度学习实践》

文章目录 1.线性模型2.梯度下降算法3.反向传播3.1原理3.2Tensor in PyTorch 4.用PyTorch实现线性模型 1.线性模型 2.梯度下降算法 # 梯度下降x_data [1.0,2.0,3.0] y_data [2.0,4.0,6.0]w 3.0def forward(x):return x*w# 损失函数 def cost(xs,ys):cost 0for x,y in zip(x…

基于 Flink SQL CDC 数据处理的终极武器

文章目录 一、传统的数据同步方案与 Flink SQL CDC 解决方案1.1 Flink SQL CDC 数据同步与原理解析1.2 基于日志的 CDC 方案介绍1.3 选择 Flink 作为 ETL 工具 二、 基于 Flink SQL CDC 的数据同步方案实践2.1 CDC Streaming ETL2.2 Flink-CDC实践之mysql案例 来源互联网多篇文…

华为OD机试真题 Java 实现【文件目录大小】【2023 B卷 100分】,附详细解题思路

目录 专栏导读一、题目描述二、输入描述三、输出描述四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明4、再输入5、再输出6、说明 华为OD机试 2023B卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题…

spring-cloud-alibaba——nacos-server搭建

前言:组件版本关系,官方:组件版本关系 1,nacos-server搭建(windows环境),下载地址nacos 选择对应的版本,这里以目前最新版2.2.3为例子,下载后解压 单机模式 修改\nacos-server-2.2.3\nacos\bin\startup.c…

分布式调用与高并发处理 Nginx

一、初识Nginx 1.1 Nginx概述 Nginx是一款轻量级的Web服务器、反向代理服务器,由于它的内存占用少,启动极快,高并发能力强,在互联网项目中广泛应用。Nginx 专为性能优化而开发,使用异步非阻塞事件驱动模型。 常见服务…

(2)前端控制器的扩展配置, 视图解析器类型以及MVC执行流程的概述

SpringMVC入门程序的扩展说明 注册前端控制器的细节 在web.xml文件注册SpringMVC的前端控制器DispatcherServlet时使用url-pattern标签中使用/和/*的区别 /可以匹配.html或.js或.css等方式的请求路径,但不匹配*.jsp的请求路径/*可以匹配所有请求(包括.jsp请求), 例如在过滤器…

【Linux Shell】基础知识

Linux Shell基础知识 一、Linux Shell基础概念1.1 Shell定义1.2 命令行提示符 二、初识Shell2.1 Shell定义2.2 登录Shell相关文件2.3 Shell中的变量变量类型变量的引用单引号\ 与双引号\" \"变量的删除与检查 2.4 Shell中的扩展大括号扩展{ }其他扩展 一、Linux Shel…

使用springboot进行后端开发100问

properties和yaml文件怎么互转 安装插件 properties文件和yaml文件区别 properties 文件通过“.”和“”赋值,值前不加空格,yaml通过“:”赋值,值前面加一个空格;yaml文件缩进用空格; properties只支持键值对&#x…

flash attention 2论文学习

flash attention作者Tri Dao发布了flash attention 2,性能为flash attention的2倍。 优化点主要如下: 一、减少 non-matmul FLOPs A00中由于tensor core的存在,使得gpu对于浮点矩阵运算吞吐很高,如FP16/BF16可以达到312 TFLOPs/…

LINUX中的myaql(一)安装

目录 前言 一、概述 二、数据库类型 三、数据库模型 四、MYSQL的安装 (一)yum安装MYSQL (二)rpm安装MYSQL 五、MYSQL本地登录 rpm安装MYSQL本地登录 六、重置密码 总结 前言 MySQL是一种常用的开源关系型数据库管理系统&#xff…

蛋白质分子结构设计

paper read 1 Created by: 银晗 张 Created time: May 27, 2023 3:47 PM Tags: Product 补充了解蛋白质的生物学知识学习一下Diffusion的原理 💡 Method & Innovations Framework Summary: first deep learning models to perform antibody sequence-stru…

banner轮播图实现、激活状态显示和分类列表渲染、解决路由缓存问题、使用逻辑函数拆分业务(一级分类)【Vue3】

一级分类 - banner轮播图实现 分类轮播图实现 分类轮播图和首页轮播图的区别只有一个,接口参数不同,其余逻辑完成一致 适配接口 export function getBannerAPI (params {}) {// 默认为1 商品为2const { distributionSite 1 } paramsreturn httpIn…

pearcmd.php文件包含妙用

文章目录 pearcmd.php文件包含妙用利用条件原理利用config-createinstalldownload pearcmd关键词被ban参考 pearcmd.php文件包含妙用 利用条件 php.ini中register_argc_argvOn开启安装pecl/pear pecl是PHP中用于管理扩展而使用的命令行工具,而pear是pecl依赖的类…

从新手到专业人士:探索 C++ STL 以获得终极性能

探索 C STL 以获得终极性能 博主简介一、引言二、C STL 简介2.1、STL 是什么?2.2、STL 中的常用组件2.3、STL 的优点 三、入门指南:了解基本概念和用法3.1、容器:vector、list、deque、set、map 等3.2、算法:查找、排序、遍历等3.…

Javascript程序异常处理

什么是异常,异常就是我们在编写Javascript程序时出现的一些错误,并会在控制台中抛出这个错误,出现异常其实并不是一件坏事,相对的呢它可以提醒我们开发人员哪里出现了错误,方便我们后续的修改,能让我们的代…

OSI 和 TCP/IP 网络分层模型详解(基础)

OSI模型: 即开放式通信系统互联参考模型(Open System Interconnection Reference Model),是国际标准化组织(ISO)提出的一个试图使各种计算机在世界范围内互连为网络的标准框架,简称OSI。 OSI 七层模型 OS…

centos逻辑分区磁盘扩展

最近碰到服务器磁盘空间不足,需要扩展逻辑分区的需求,特地做下小笔记,方便后续自己回忆。下图是磁盘的相关概念示意图: 1、查看磁盘空间 [rootlocalhost ~]# df -h #查看磁盘空间,根分区的大小是18G,已经用…

RISCV -3 RV32I/RV64I基本整型指令集

RISCV -3 RV32I/RV64I基本整型指令集 1 RV32I Base Integer Instruction Set1.1 Programmers’ Model for Base Integer ISA1.2 Base Instruction Formats1.3 Immediate Encoding Variants1.4 Integer Computational Instructions1.4.1 Integer Register-Immediate Instruction…

深入浅出多种开发语言对接淘宝京东1688阿里巴巴等电商平台,获取实时商品详情数据API接口介绍

api接口详解大全?优秀的设计是产品变得卓越的原因设计API意味着提供有效的接口,可以帮助API使用者更好地了解、使用和集成,同时帮助人们有效地维护它每个产品都需要使用手册,API也不例外在API领域,可以将设计视为服务器和客户端之…

iPortal 注册登录模块扩展开发

作者:yx 文章目录 前言一、示例代码简介二、对接 iPortal REST API 接口2.1、登录模块扩展开发2.2、注册模块扩展开发 三、页面内容及样式实现四、配置启用定制页面 前言 针对注册登录模块,iPortal 允许用户通过 iFrame 方式接入自行开发的页面&#xf…