语义分割文献整理

2014年文献

 

1.论文题目《Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs》

1.1.网络别名《DeepLabV1》

1.2.论文引用

Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected crfs[J]. arXiv preprint arXiv:1412.7062, 2014.

1.3.发表期刊

《》

1.4.原文链接

https://arxiv.org/pdf/1412.7062.pdf

1.5.论文摘要

        深度卷积神经网络(DCNN)在图像分类和目标检测等高级视觉任务中表现出最先进的性能。本研究结合了DCNN和概率图模型的方法,用于解决像素级分类的任务(也称为“语义图像分割”)。我们发现,DCNN最后一层的响应对于准确的对象分割来说不够局部化。这是由于使得DCNN在高级任务中表现出色的不变性特性。为了克服深度网络的这种较差的定位性能,我们将最后一层DCNN的响应与全连接条件随机场(CRF)相结合。在定性上,我们的“DeepLab”系统能够以超越以往方法的准确性水平定位分割边界。定量上,我们的方法在PASCAL VOC-2012语义图像分割任务中取得了新的最先进结果,在测试集上达到了71.6%的IOU准确度。我们展示了如何高效地获得这些结果:精心的网络重新应用和来自小波社区的“空洞”算法的新应用,使得神经网络的响应可以在现代GPU上以每秒8帧的速度进行密集计算。

1.6.网络架构图

 图1:在1-D情况下,当卷积核大小=3,输入步幅=2,输出步幅=1时,空洞算法的示意图。

 图3: 模型示意图。深度卷积神经网络(具有完全卷积层)生成的粗糙分数图通过双线性插值进行上采样。然后,应用全连接CRF来优化分割结果。最佳观看方式为彩色显示。

1.7.CSDN链接

http://t.csdn.cn/zohj1http://t.csdn.cn/zohj1

2.论文题目《》

2.1.网络别名《》

2.2.论文引用

2.3.发表期刊

《》

2.4.原文链接

2.5.论文摘要

2.6.网络架构图

2.7.CSDN链接

2015年文献

1.论文题目《U-Net: Convolutional Networks for Biomedical Image Segmentation》

1.1.网络别名《U-Net》

1.2.论文引用

Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18. Springer International Publishing, 2015: 234-241.

1.3.发表期刊

《Medical Image Computing and Computer-Assisted Intervention–MICCAI 》

1.4.原文链接

https://arxiv.org/pdf/1505.04597.pdf%EF%BC%89https://arxiv.org/pdf/1505.04597.pdf%EF%BC%89

1.5.论文摘要

大多数人都认为成功训练深度网络需要成千上万个注释训练样本。在本文中,我们提出了一种网络和训练策略,依靠强大的数据增强来更有效地利用现有的注释样本。该架构由一个收缩路径和一个对称扩展路径组成,收缩路径用于捕捉上下文信息,扩展路径用于精确定位。我们证明,这样的网络可以从很少的图像进行端到端的训练,并在ISBI挑战中对电子显微镜堆栈中神经结构分割的先前最佳方法(滑动窗口卷积网络)进行了超越。使用相同的网络在传递光显微镜图像(相差和差分干涉对比)上进行训练,我们在ISBI 2015年细胞跟踪挑战中在这些类别上取得了很大的优势。此外,该网络速度快。在最新的GPU上,对512x512图像的分割只需不到一秒钟。完整的实现(基于Caffe)和训练好的网络可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net上获取。

1.6.网络架构图

1.7.CSDN链接

http://t.csdn.cn/553tehttp://t.csdn.cn/553te

2.论文题目《Fully Convolutional Networks for Semantic Segmentation》

2.1.网络别名《FCN》

2.2.论文引用

Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.

2.3.发表期刊

《IEEE conference on computer vision and pattern recognition》

《IEEE计算机视觉与模式识别会议(CVPR)》

2.4.原文链接

https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf

2.5.论文摘要

        卷积神经网络是强大的视觉模型,能够产生特征的层级结构。我们展示了通过端到端、像素到像素的训练的卷积神经网络在语义分割方面超越了现有技术的最新成果。我们的关键发现是构建“全卷积”网络,它可以接受任意大小的输入并生成相应大小的输出,具有高效的推理和学习能力。我们定义并详细解释了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并与之前的模型进行了联系。我们将现代分类网络(AlexNet [19]、VGG net [31]和GoogLeNet [32])转化为全卷积网络,并通过微调 [4]将它们学到的表示迁移到分割任务中。然后,我们定义了一种新型的架构,将深层、粗糙层的语义信息与浅层、细节层的外观信息相结合,以产生准确而详细的分割结果。我们的全卷积网络在PASCAL VOC(2012年平均IU相对改进了20%,达到62.2%)、NYUDv2和SIFT Flow方面实现了最先进的分割效果,而推理时间仅需不到五分之一秒。

2.6.网络架构图

 图1. 完全卷积网络可以高效地学习对于像素级任务(如语义分割)进行密集预测。

  图2. 将全连接层转换为卷积层使得分类网络能够输出热图。通过添加层和空间损失(如图1所示),可以构建一个高效的端到端密集学习机制。

2.7.CSDN链接

http://t.csdn.cn/3aDl4http://t.csdn.cn/3aDl4

3.论文题目《MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS》

3.1.网络别名《》

3.2.论文引用

Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint arXiv:1511.07122, 2015.

3.3.发表期刊

《》

3.4.原文链接

https://arxiv.org/pdf/1511.07122.pdf%5Dhttps://arxiv.org/pdf/1511.07122.pdf%5D

3.5.论文摘要

        目前用于语义分割的先进模型是基于最初设计用于图像分类的卷积网络的改进。然而,像语义分割这样的密集预测问题在结构上与图像分类不同。在这项工作中,我们开发了一个专门为密集预测设计的新的卷积网络模块。所提出的模块使用膨胀卷积来系统地聚合多尺度的上下文信息,而不会丢失分辨率。该架构基于膨胀卷积支持对感受野的指数级扩展,同时不会丢失分辨率或覆盖范围。我们证明了所提出的上下文模块可以提高最先进的语义分割系统的准确性。此外,我们还研究了将图像分类网络适应到密集预测的方法,并证明简化适应网络可以提高准确性。

3.6.网络架构图

图1:系统化扩张支持感受野的指数级扩展,而不会丢失分辨率或覆盖范围。

(a)通过1倍扩张卷积将F0生成F1;F1中的每个元素具有3×3的感受野。

(b)通过2倍扩张卷积将F1生成F2;F2中的每个元素具有7×7的感受野。

(c)通过4倍扩张卷积将F2生成F3;F3中的每个元素具有15×15的感受野。

每个层的参数数量是相同的。感受野呈指数级增长,而参数数量呈线性增长。
 

3.7.CSDN链接

http://t.csdn.cn/gnT7Shttp://t.csdn.cn/gnT7S

4.论文题目《》

4.1.网络别名《》

4.2.论文引用

4.3.发表期刊

《》

4.4.原文链接

4.5.论文摘要

4.6.网络架构图

4.7.CSDN链接

2016年文献

1.论文题目《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》

1.1.网络别名《无》

1.2.论文引用

Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks[J]. Advances in neural information processing systems, 2016, 29.

1.3.发表期刊

《Advances in neural information processing systems》

《神经信息处理系统进展》(Advances in Neural Information Processing Systems,简称NIPS)是一个重要的学术会议和期刊,专注于机器学习和神经网络领域的研究。

1.4.原文链接

https://proceedings.neurips.cc/paper/2016/file/c8067ad1937f728f51288b3eb986afaa-Paper.pdf

1.5.论文摘要

        我们研究了深度卷积网络中单元的感受野特性。感受野大小在许多视觉任务中是一个关键问题,因为输出必须对图像中足够大的区域作出响应,以捕捉关于大型物体的信息。我们引入了有效感受野的概念,并展示它既具有高斯分布,又仅占据了完整理论感受野的一部分。我们分析了几种架构设计中的有效感受野,以及非线性激活、随机失活、子采样和跳跃连接对其的影响。这为解决有效感受野过小的倾向提供了建议。

1.6.网络架构图

 图1:比较卷积层数、随机权重初始化和非线性激活对ERF的影响。在这里,所有网络的卷积核大小都固定为3×3。Uniform:卷积核权重都是1,没有非线性激活;Random:随机卷积核权重,没有非线性激活;Random + ReLU:随机卷积核权重,ReLU非线性激活。

1.7.CSDN链接

http://t.csdn.cn/BwzFHicon-default.png?t=N6B9http://t.csdn.cn/BwzFH

2.论文题目

《》

2.1.网络别名

《》

2.2.论文引用

2.3.发表期刊

《》

2.4.原文链接

2.5.论文摘要

2.6.网络架构图

2.7.CSDN链接

2017年文献

1.论文题目《Rethinking Atrous Convolution for Semantic Image Segmentation》

1.1.网络别名《DeepLabV3》

1.2.论文引用

Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv preprint arXiv:1706.05587, 2017.

1.3.发表期刊

《》

1.4.原文链接

https://arxiv.org/pdf/1706.05587.pdf%EF%BC%8C%E6%8E%A8%E8%8D%90%E5%9C%A8%E7%9C%8B%E5%AE%8C%E6%9C%AC%E6%96%87%E4%B9%8B%E5%90%8E%E4%BB%94%E7%BB%86%E9%98%85%E8%AF%BB%E8%AE%BA%E6%96%87%E4%BB%A5%E5%8F%8A%E4%BB%A3%E7%A0%81%EF%BC%8C%E5%8F%AF%E4%BB%A5%E6%9B%B4%E5%A5%BD%E7%90%86%E8%A7%A3%E3%80%82https://arxiv.org/pdf/1706.05587.pdf%EF%BC%8C%E6%8E%A8%E8%8D%90%E5%9C%A8%E7%9C%8B%E5%AE%8C%E6%9C%AC%E6%96%87%E4%B9%8B%E5%90%8E%E4%BB%94%E7%BB%86%E9%98%85%E8%AF%BB%E8%AE%BA%E6%96%87%E4%BB%A5%E5%8F%8A%E4%BB%A3%E7%A0%81%EF%BC%8C%E5%8F%AF%E4%BB%A5%E6%9B%B4%E5%A5%BD%E7%90%86%E8%A7%A3%E3%80%82

1.5.论文摘要

        在这项工作中,我们重新思考了扩张卷积(atrous convolution),这是一种能够明确调整卷积滤波器的感受野(field-of-view)以及控制由深度卷积神经网络计算的特征响应的分辨率的强大工具,应用于语义图像分割。为了处理在多个尺度上分割对象的问题,我们设计了使用扩张卷积级联或并行的模块,通过采用多个扩张率捕捉多尺度上下文。此外,我们提出了对我们之前提出的扩张空洞金字塔空间池化(Atrous Spatial Pyramid Pooling)模块的增强,该模块在多个尺度上探测卷积特征,并使用编码全局上下文的图像级特征进一步提升性能。我们还详细介绍了实现细节,并分享了我们在训练系统过程中的经验。我们提出的“DeepLabv3”系统在没有DenseCRF后处理的情况下显著改进了我们先前的DeepLab版本,并在PASCAL VOC 2012语义图像分割基准测试中达到了与其他最先进模型相当的性能。

1.6.网络架构图

 图1. 使用核大小为3×3和不同速率的扩张卷积。标准卷积对应于率=1的扩张卷积。使用较大的扩张率扩大了模型的感受野,使其能够在多个尺度上对对象进行编码。

  图2. 捕捉多尺度上下文的替代架构

 b) 使用孔卷积加深模型。当输出步长为16时,在block3之后应用孔卷积,采样率大于1。

图3. 不使用孔卷积和使用孔卷积的级联模块。

  图5. 使用孔卷积(ASPP)增强的并行模块,同时使用图像级特征。

1.7.CSDN链接

http://t.csdn.cn/MQZpNhttp://t.csdn.cn/MQZpN

2.论文题目《DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs》

2.1.网络别名《DeepLabV2》

2.2.论文引用

Chen L C, Papandreou G, Kokkinos I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 40(4): 834-848.

2.3.发表期刊

《IEEE Transactions on Pattern Analysis and Machine Intelligence(简称TPAMI)》

《模式分析与机器智能交易》

2.4.原文链接

https://arxiv.org/pdf/1606.00915.pdf

2.5.论文摘要

在这项工作中,我们使用深度学习来解决语义图像分割任务,并做出了三个实验证明具有实际价值的主要贡献。

        首先,我们强调通过上采样滤波器进行卷积,或者称为“空洞卷积”,在密集预测任务中是一种强大的工具。空洞卷积允许我们在深度卷积神经网络中明确控制特征响应计算的分辨率。它还可以在不增加参数或计算量的情况下有效地扩大滤波器的视野以包含更大的上下文。

        其次,我们提出了空洞空间金字塔池化(ASPP),以稳健地在多个尺度上分割对象。ASPP使用多种采样率和有效视野的滤波器来探索输入的卷积特征层,从而在多个尺度上捕捉对象以及图像上下文。

        第三,我们通过结合深度卷积神经网络(DCNNs)和概率图模型的方法改善了对象边界的定位。在DCNNs中广泛使用的最大池化和下采样的组合可以实现不变性,但会对定位精度产生影响。我们通过将最终DCNN层的响应与全连接的条件随机场(CRF)相结合,克服了这个问题,定性和定量地证明了这种方法可以提高定位性能。我们提出的“DeepLab”系统在PASCAL VOC-2012语义图像分割任务中达到了79.7%的mIOU,成为最新的技术水平,并在其他三个数据集(PASCAL-Context,PASCAL-Person-Part和Cityscapes)上取得了进展。我们所有的代码都可以在网上公开获取。

关键词—卷积神经网络、语义分割、空洞卷积、条件随机场。

2.6.网络架构图

 图1:模型示意图。采用深度卷积神经网络(例如VGG-16或ResNet-101)以完全卷积的方式进行操作,使用空洞卷积来减少信号下采样的程度(从32倍降至8倍)。双线性插值阶段将特征图放大到原始图像分辨率。然后应用全连接CRF来优化分割结果并更好地捕捉对象边界。

  图2:1维空洞卷积的示例。(a)在低分辨率输入特征图上使用标准卷积进行稀疏特征提取。(b)在高分辨率输入特征图上使用率为2的洞卷积进行密集特征提取。

  图4:空洞空间金字塔池化(ASPP)。为了对中心像素(橙色)进行分类,ASPP利用了具有不同率的多个并行滤波器来利用多尺度特征。不同颜色表示的是有效的视野范围。

 图7:DeepLab-ASPP使用多个具有不同采样率的滤波器来捕捉多尺度的对象和上下文。

2.7.CSDN链接

http://t.csdn.cn/U6kmuhttp://t.csdn.cn/U6kmu

3.论文题目《SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation》

3.1.网络别名《SegNet》

3.2.论文引用

Badrinarayanan V, Kendall A, Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481-2495.

3.3.发表期刊

《IEEE模式分析与机器智能交易》

(IEEE Transactions on Pattern Analysis and Machine Intelligence,简称TPAMI)是一本高水平的期刊,涵盖了模式分析和机器智能领域的重要研究成果。

3.4.原文链接

IEEE Xplore Full-Text PDF:https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7803544

3.5.论文摘要

        我们提出了一种新颖的深度架构SegNet,用于语义像素级图像标注。SegNet具有一些吸引人的特性:

        (i)它只需要对完全学习的函数进行前向评估,就可以获得平滑的标签预测;

        (ii)随着深度增加,像素标注考虑了更大的上下文,提高了准确性;

        (iii)在任何深度上,能够轻松可视化特征激活在像素标签空间中的影响。

        SegNet由一系列编码器和相应的解码器堆栈组成,解码器堆栈将输入到一个softmax分类层。解码器帮助将编码器堆栈输出的低分辨率特征映射映射到完整的输入图像尺寸的特征映射。这解决了最近采用为对象分类设计的网络进行像素级标注的深度学习方法的一个重要缺陷。这些方法缺乏将深层特征映射到输入维度的机制,它们采用临时方法来上采样特征,例如通过复制。这导致了嘈杂的预测,并且限制了池化层的数量,以避免过多上采样,从而减少了空间上下文。SegNet通过学习将编码器的输出映射到图像像素标签来克服这些问题。我们在来自CamVid、KITTI的室外RGB场景以及NYU数据集的室内场景上测试了SegNet的性能。我们的结果表明,即使不使用额外的线索(如深度、视频帧或后处理的CRF模型),SegNet也能达到最先进的性能水平。

3.6.网络架构图

 图1.一个四层的SegNet,它接受一个RGB输入图像,并进行前向计算以获取像素级的标签。一堆特征编码器后面跟着相应的解码器。Soft-max层使用最后一个解码器输入的特征对每个像素进行独立分类。编码器使用卷积-ReLU-max池化-子采样的流水线。解码器使用从其编码器传递的池化索引对其输入进行上采样。然后,它使用可训练的滤波器组进行卷积。

 图2.(a)模块化训练从优化第一个编码器和解码器权重开始。Soft-max可以预训练或随机初始化。(b)一旦第一对被训练好,我们插入一个更深的内部编码器-解码器对,并在保持外层编码器-解码器和Soft-max权重不变的情况下优化这些权重。然后依次训练更深的对。注意编码器和解码器的权重是解耦的。
 

3.7.CSDN链接

http://t.csdn.cn/Zywvshttp://t.csdn.cn/Zywvs

4.论文题目《RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation》

4.1.网络别名《RefineNet》

4.2.论文引用

Lin G, Milan A, Shen C, et al. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1925-1934.

4.3.发表期刊

《IEEE conference on computer vision and pattern recognition》

《IEEE计算机视觉与模式识别会议》

4.4.原文链接

https://openaccess.thecvf.com/content_cvpr_2017/papers/Lin_RefineNet_Multi-Path_Refinement_CVPR_2017_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2017/papers/Lin_RefineNet_Multi-Path_Refinement_CVPR_2017_paper.pdf

4.5.论文摘要

        最近,非常深的卷积神经网络(CNN)在目标识别方面表现出色,并且也是密集分类问题(如语义分割)的首选。然而,在深度CNN中,重复的子采样操作(如池化或卷积跳跃)会导致初始图像分辨率的显著降低。因此,我们提出了RefineNet,这是一个通用的多路径细化网络,明确利用沿着降采样过程可用的所有信息,通过长程残差连接实现高分辨率预测。通过这种方式,能够直接利用较早卷积层的细粒度特征来精确调整捕获高级语义特征的深层。RefineNet的各个组件都采用了残差连接,遵循恒等映射的思想,从而实现了有效的端到端训练。此外,我们引入了链式残差池化,以高效地捕捉丰富的背景上下文。我们进行了全面的实验,并在七个公共数据集上取得了最新的最优结果。特别是,在具有挑战性的PASCAL VOC 2012数据集上,我们取得了83.4的交并比分数,这是迄今为止报道的最好结果。

4.6.网络架构图

图2.全卷积方法进行密集分类的比较。标准的多层CNN,如ResNet (a),在特征图的缩小过程中会丢失细节结构。扩张卷积 (b)通过引入空洞滤波器来弥补这个缺点,但是其训练计算量大,在现代GPU上很快达到内存极限。我们提出的被称为RefineNet (c)的架构利用不同阶段的卷积中的各个细节级别,并将它们融合起来,以获得高分辨率的预测,而无需维护大型的中间特征图。详见正文和图3。

图3.我们的多路径细化网络架构RefineNet的各个组件。RefineNet中的组件使用具有恒等映射的残差连接,使得梯度可以直接在网络中局部传播,并通过长程残差连接直接传递到输入路径,从而实现整个系统的有效端到端训练。

4.7.CSDN链接

http://t.csdn.cn/ODMUKhttp://t.csdn.cn/ODMUK

5.论文题目《Pyramid Scene Parsing Network》

5.1.网络别名《PSPNet》

5.2.论文引用

Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2881-2890.

5.3.发表期刊

《IEEE conference on computer vision and pattern recognition》

5.4.原文链接

https://openaccess.thecvf.com/content_cvpr_2017/papers/Zhao_Pyramid_Scene_Parsing_CVPR_2017_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2017/papers/Zhao_Pyramid_Scene_Parsing_CVPR_2017_paper.pdf

5.5.论文摘要

 场景解析对于无限制的开放词汇和多样化的场景是具有挑战性的。在本文中,我们通过金字塔池化模块和提出的金字塔场景解析网络(PSPNet:Pyramid Scene Parsing Network),利用全局上下文信息的能力,通过基于不同区域的上下文聚合,来处理场景解析任务。我们的全局先验表示在场景解析任务上能够产生高质量的结果,而PSPNet为像素级预测提供了优越的框架。该方法在各种数据集上实现了最先进的性能。它在2016年ImageNet场景解析挑战赛、PASCAL VOC 2012基准和Cityscapes基准中名列前茅。单个PSPNet在PASCAL VOC 2012上实现了新的mIoU准确度记录,达到了85.4%,在Cityscapes上的准确度为80.2%。

5.6.网络架构图

 图3.我们提出的PSPNet的概述。给定输入图像(a),我们首先使用CNN获得最后一个卷积层的特征图(b),然后应用金字塔解析模块来获取不同子区域的表示,接着通过上采样和连接层形成最终的特征表示,其中包含了局部和全局上下文信息(c)。最后,将表示输入到卷积层以获得最终的逐像素预测(d)。

5.7.CSDN链接

http://t.csdn.cn/loPBchttp://t.csdn.cn/loPBc

6.论文题目《Large Kernel Matters —— Improve Semantic Segmentation by Global Convolutional Network》

6.1.网络别名《》

6.2.论文引用

Peng C, Zhang X, Yu G, et al. Large kernel matters--improve semantic segmentation by global convolutional network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4353-4361.

6.3.发表期刊

《IEEE conference on computer vision and pattern recognition》

6.4.原文链接

https://openaccess.thecvf.com/content_cvpr_2017/papers/Peng_Large_Kernel_Matters_CVPR_2017_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2017/papers/Peng_Large_Kernel_Matters_CVPR_2017_paper.pdf

6.5.论文摘要

最近的网络架构设计趋势之一[30,31,14]是在整个网络中使用堆叠的小滤波器(例如1x1或3x3),因为在相同的计算复杂度下,堆叠的小滤波器比一个大核心更高效。然而,在语义分割领域,我们需要进行密集的像素级预测,我们发现大核心(和有效感受野)在同时执行分类和定位任务时起着重要作用。根据我们的设计原则,我们提出了一个全局卷积网络来解决语义分割中的分类和定位问题。我们还提出了一种基于残差的边界细化方法,以进一步改进物体边界的精度。我们的方法在两个公共基准数据集上实现了最先进的性能,并且在PASCAL VOC 2012数据集上的准确率为82.2%(相比之下,之前的结果为80.2%),在Cityscapes数据集上的准确率为76.9%(相比之下,之前的结果为71.8%)。

6.6.网络架构图

  图1.A:分类网络;B:传统的分割网络,主要设计用于定位;C:我们的全局卷积网络。

 图2.(A)整个流程的概述。全局卷积网络(GCN)和边界细化(BR)块的细节分别在(B)和(C)中说明。

 图4.(A)全局卷积网络。(B)1×1卷积基线。(C)k×k卷积。(D)3×3卷积堆叠。

6.7.CSDN链接

http://t.csdn.cn/YTVKEhttp://t.csdn.cn/YTVKE

2018年文献

1.论文题目《Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation》

1.1.网络别名《DeepLabV3+》

1.2.论文引用

Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 801-818.

1.3.发表期刊

《European conference on computer vision (ECCV)》

1.4.原文链接

https://openaccess.thecvf.com/content_ECCV_2018/papers/Liang-Chieh_Chen_Encoder-Decoder_with_Atrous_ECCV_2018_paper.pdfhttps://openaccess.thecvf.com/content_ECCV_2018/papers/Liang-Chieh_Chen_Encoder-Decoder_with_Atrous_ECCV_2018_paper.pdf

1.5.论文摘要

在深度神经网络中,空间金字塔池化模块或编码-解码结构被用于语义分割任务。前者通过在多个速率和多个有效视野下使用滤波器或池化操作来编码多尺度的上下文信息,而后者则通过逐渐恢复空间信息来捕捉更清晰的物体边界。在本文中,我们提出将两种方法的优点相结合。具体而言,我们提出的模型DeepLabv3+在DeepLabv3的基础上添加了一个简单但有效的解码器模块,以改进分割结果,特别是沿着物体边界的部分。我们进一步探索了Xception模型,并将深度可分离卷积应用于空洞空间金字塔池化和解码器模块,从而实现了更快速、更强大的编码-解码网络。我们在PASCAL VOC 2012和Cityscapes数据集上验证了所提出模型的有效性,在没有任何后处理的情况下,分别达到了89.0%和82.1%的测试集性能。我们的论文附带了在Tensorflow中公开可用的所提出模型的参考实现,网址为https://github.com/tensorflow/models/tree/master/research/deeplab。

关键词:语义图像分割、空间金字塔池化、编码解码、深度可分离卷积。

1.6.网络架构图

 图1。我们改进了采用空间金字塔池化模块(a)的DeepLabv3,引入了编码器-解码器结构(b)。提出的模型DeepLabv3+通过编码器模块获得了丰富的语义信息,而简单而有效的解码器模块恢复了详细的目标边界。编码器模块允许我们通过应用带孔卷积来以任意分辨率提取特征。

  图1。我们改进了采用空间金字塔池化模块(a)的DeepLabv3,引入了编码器-解码器结构(b)。提出的模型DeepLabv3+通过编码器模块获得了丰富的语义信息,而简单而有效的解码器模块恢复了详细的目标边界。编码器模块允许我们通过应用带孔卷积来以任意分辨率提取特征。

1.7.CSDN链接:

http://t.csdn.cn/I3pEghttp://t.csdn.cn/I3pEg

2.论文题目《Context Encoding for Semantic Segmentation》

2.1.网络别名《无》

2.2.论文引用

Zhang H, Dana K, Shi J, et al. Context encoding for semantic segmentation[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018: 7151-7160.

2.3.发表期刊

《IEEE conference on Computer Vision and Pattern Recognition》

2.4.原文链接

https://openaccess.thecvf.com/content_cvpr_2018/papers/Zhang_Context_Encoding_for_CVPR_2018_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2018/papers/Zhang_Context_Encoding_for_CVPR_2018_paper.pdf

2.5.论文摘要

        近期的研究在使用全卷积网络(FCN)框架改善像素级标注的空间分辨率方面取得了显著进展,通过采用扩张/空洞卷积、利用多尺度特征和细化边界等方法。本文通过引入上下文编码模块来探索全局上下文信息对语义分割的影响,该模块捕捉场景的语义上下文,并选择性地突出显示类别相关的特征图。所提出的上下文编码模块在几乎不增加额外计算成本的情况下显著改善了语义分割结果,我们的方法在PASCAL-Context数据集上取得了新的最先进结果,mIoU达到了51.7%,在PASCAL VOC 2012上达到了85.9%的mIoU。我们的单一模型在ADE20K测试集上取得了0.5567的最终得分,超过了COCO-Place Challenge 2017的获胜模型。此外,我们还探索了上下文编码模块如何改善相对较浅网络在CIFAR-10数据集上的图像分类的特征表示。我们的14层网络在错误率方面达到了3.45%,与拥有10倍以上层数的最先进方法相当。完整系统的源代码公开可用。

2.6.网络架构图

图2:所提出的EncNet的概述。给定一张输入图像,我们首先使用预训练的CNN提取密集的卷积特征图。我们在顶部构建了一个上下文编码模块,包括一个编码层,用于捕捉编码的语义信息并预测依赖于这些编码语义的缩放因子。这些学习到的因子有选择地突出显示与类别相关的特征图(用颜色可视化)。在另一个分支中,我们使用语义编码损失(SE损失)来规范训练,让上下文编码模块预测场景中是否存在某些类别。最后,上下文编码模块的表示被输入到最后一个卷积层中进行每个像素的预测。

(符号说明:FC表示全连接层,Conv表示卷积层,Encode表示编码层[56],N表示通道间乘法)

图3:扩张策略和损失。每个立方体代表不同的网络阶段。我们将扩张策略应用于第3和第4阶段。语义编码损失(SE损失)被添加到基础网络的第3和第4阶段。

(D表示扩张率,Seg-loss表示每像素分割损失。)

2.7.CSDN链接

http://t.csdn.cn/Rao2ohttp://t.csdn.cn/Rao2o

3.论文题目《DenseASPP for Semantic Segmentation in Street Scenes》

3.1.网络别名《DenseASPP》

3.2.论文引用

Yang M, Yu K, Zhang C, et al. Denseaspp for semantic segmentation in street scenes[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3684-3692.

3.3.发表期刊

《IEEE conference on computer vision and pattern recognition》

3.4.原文链接

https://openaccess.thecvf.com/content_cvpr_2018/papers/Yang_DenseASPP_for_Semantic_CVPR_2018_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2018/papers/Yang_DenseASPP_for_Semantic_CVPR_2018_paper.pdf

3.5.论文摘要

        语义图像分割是自动驾驶中的基本街景理解任务,在这个任务中,高分辨率图像中的每个像素被归类为一组语义标签。与其他场景不同,自动驾驶场景中的物体呈现出非常大的尺度变化,这给高级特征表示带来了巨大挑战,因为必须正确地编码多尺度信息。为了解决这个问题,引入了扩张卷积[14],可以在不损失空间分辨率的情况下生成具有更大感受野的特征。基于扩张卷积,提出了扩张空间金字塔池化(ASPP:Atrous Spatial Pyramid Pooling)[2],将使用不同扩张率的多个扩张卷积特征连接成最终的特征表示。尽管ASPP能够生成多尺度特征,但我们认为尺度轴上的特征分辨率对于自动驾驶场景来说不够密集。因此,我们提出了密集连接的扩张空间金字塔池化(DenseASPP),它以密集的方式连接一组扩张卷积层,生成不仅覆盖更大尺度范围,而且密集覆盖该尺度范围的多尺度特征,而不显著增加模型大小。我们在街景场景基准数据集Cityscapes[4]上评估了DenseASPP,并取得了最先进的性能。

3.6.网络架构图

(a)详细说明了DenseASPP的结构,每个扩张卷积层的输出与输入特征图进行级联,然后输入到下一个扩张层。DenseASPP的每个路径都组成了相应尺度的特征表示。

(b)以更具体的版本说明了这个结构。

 图3. DenseASPP的尺度金字塔示意图,对应于密集堆叠扩张率为(3, 6, 12, 18)的空洞卷积设置。DenseASPP生成具有更大尺度多样性(即在尺度轴上具有高分辨率)和更大感受野的特征金字塔。每个条带右侧的k表示相应组合的感受野大小。

(b) 在具有较大扩张率的空洞卷积层下方堆叠一个扩张率较小的空洞层,可以使得采样率更密集。红色表示信息的来源。

(c) (b)的二维版本。

3.7.CSDN链接

http://t.csdn.cn/lKOOzhttp://t.csdn.cn/lKOOz

4.论文题目《Understanding Convolution for Semantic Segmentatio》

4.1.网络别名《无》

4.2.论文引用

Wang, Panqu, et al. "Understanding convolution for semantic segmentation." 2018 IEEE winter conference on applications of computer vision (WACV). Ieee, 2018.

4.3.发表期刊

《IEEE winter conference on applications of computer vision (WACV)》

《IEEE冬季计算机视觉应用会议》

4.4.原文链接

https://arxiv.org/pdf/1702.08502.pdf%5D%28Unsupervisedhttps://arxiv.org/pdf/1702.08502.pdf%5D%28Unsupervised

4.5.论文摘要

        最近深度学习特别是深度卷积神经网络(CNN)的进展,显著提高了之前语义分割系统的性能。在这里,我们展示了通过操作与卷积相关的操作来改进逐像素的语义分割,这些操作在理论和实践上都具有价值。首先,我们设计了密集上采样卷积(DUC)来生成像素级预测,能够捕捉和解码通常在双线性上采样中丢失的更详细信息。其次,我们在编码阶段提出了一种混合膨胀卷积(HDC)框架。该框架能够有效扩大网络的感受野,以聚合全局信息,并减轻由标准膨胀卷积操作引起的“网格问题”。我们在Cityscapes数据集上全面评估了这些方法,并在提交时在测试集上达到了80.1%的mIOU的最新成果。我们还在KITTI道路估计基准和PASCAL VOC2012分割任务上取得了最新的成果。我们的源代码可以在https://github.com/TuSimple/TuSimple-DUC找到。
————————————————
版权声明:本文为CSDN博主「Joney Feng」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/ADICDFHL/article/details/131751999

4.6.网络架构图

 图1. ResNet-101网络结构示意图,使用混合扩张卷积(HDC)和密集上采样卷积(DUC)层。HDC应用在ResNet块中,DUC应用在网络的顶部,用于解码目的。

图2. 网格化问题的示意图。从左到右:蓝色标记的像素通过大小为3×3的卷积核在三个卷积层中对中心像素(红色标记)进行计算。

(a)所有卷积层的扩张率均为r=2。

(b)后续卷积层的扩张率分别为r=1、2、3。

4.7.CSDN链接

http://t.csdn.cn/L53ULhttp://t.csdn.cn/L53UL

5.论文题目《Non-local Neural Networks》

5.1.网络别名《无》

5.2.论文引用

Wang X, Girshick R, Gupta A, et al. Non-local neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7794-7803.

5.3.发表期刊

《IEEE conference on computer vision and pattern recognition》

5.4.原文链接

https://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.pdfhttps://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.pdf

5.5.论文摘要

        卷积和循环操作都是一次处理一个局部邻域的基本构建模块。在本文中,我们提出了非局部操作作为捕捉长程依赖关系的通用构建模块族。受计算机视觉领域经典的非局部均值方法[4]的启发,我们的非局部操作将一个位置的响应计算为所有位置特征的加权和。这个构建模块可以嵌入到许多计算机视觉架构中。在视频分类任务中,即使没有任何额外的功能,我们的非局部模型在Kinetics和Charades数据集上能够与当前竞争中的优胜者相竞争或超越。在静态图像识别中,我们的非局部模型改进了COCO套件上的物体检测/分割和姿态估计。代码将会提供。

5.6.网络架构图

 图2.时空非局部块。特征图的形状以其张量的形式显示,例如1024个通道的T×H×W×1024(在注释中进行了适当的重塑)。"⊗"表示矩阵乘法,"⊕"表示逐元素求和。softmax操作在每一行上执行。蓝色框表示1×1×1卷积。这里我们展示了嵌入高斯版本,使用512个通道的瓶颈。去掉θ和φ可以得到普通高斯版本,用1/N来替换softmax可以得到点积版本。

5.7.CSDN链接

http://t.csdn.cn/Kt1M1http://t.csdn.cn/Kt1M1

6.论文题目《》

6.1.网络别名《》

6.2.论文引用

6.3.发表期刊

《》

6.4.原文链接

6.5.论文摘要

6.6.网络架构图

6.7.CSDN链接

2019年文献

1.论文题目《Dual Attention Network for Scene Segmentation》

1.1.网络别名《DANet》

1.2.论文引用

Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 3146-3154.

1.3.发表期刊

《IEEE/CVF conference on computer vision and pattern recognition》

1.4.原文链接

https://arxiv.org/pdf/1809.02983.pdfhttps://arxiv.org/pdf/1809.02983.pdf

1.5.论文摘要

        在本文中,我们通过基于自注意机制捕捉丰富的上下文依赖来解决场景分割任务。与以往通过多尺度特征融合来捕捉上下文的方法不同,我们提出了一种双重注意力网络(DANet),以自适应地将局部特征与全局依赖性相结合。具体而言,我们在扩张的FCN之上附加了两种类型的注意力模块,分别对空间和通道维度中的语义依赖关系进行建模。位置注意力模块通过对所有位置的特征进行加权求和,选择性地聚合每个位置的特征。无论距离如何,相似的特征都会相互关联。同时,通道注意力模块通过整合所有通道图像中的相关特征,选择性地强调相互依赖的通道图像。我们将两个注意力模块的输出相加,进一步改善特征表示,从而为更精确的分割结果做出贡献。我们在三个具有挑战性的场景分割数据集上取得了最新的分割性能,即Cityscapes,PASCAL Context和COCO Stuff数据集。特别是,在不使用粗数据的情况下,我们在Cityscapes测试集上实现了81.5%的Mean IoU分数。

1.6.网络架构图

图2:双重注意力网络的概述。(最佳浏览效果为彩色)

Spatial attention matrixfan :空间注意力矩阵

element-wise Sum:逐元素求和

Sum fusion:求和融合

图3:(A)和(B)中详细说明了位置注意力模块和通道注意力模块的细节。(最佳浏览效果为彩色)

1.7.CSDN链接

http://t.csdn.cn/zPDYMhttp://t.csdn.cn/zPDYM

2.论文题目《Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation》

2.1.网络别名《Auto-DeepLab》

2.2.论文引用

Liu C, Chen L C, Schroff F, et al. Auto-deeplab: Hierarchical neural architecture search for semantic image segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 82-92.

2.3.发表期刊

《IEEE/CVF conference on computer vision and pattern recognition》

2.4.原文链接

https://openaccess.thecvf.com/content_CVPR_2019/papers/Liu_Auto-DeepLab_Hierarchical_Neural_Architecture_Search_for_Semantic_Image_Segmentation_CVPR_2019_paper.pdfhttps://openaccess.thecvf.com/content_CVPR_2019/papers/Liu_Auto-DeepLab_Hierarchical_Neural_Architecture_Search_for_Semantic_Image_Segmentation_CVPR_2019_paper.pdf

2.5.论文摘要

最近,神经架构搜索(NAS)已经成功地识别出在大规模图像分类任务上超越人工设计的神经网络架构。在本文中,我们研究了NAS在语义图像分割任务中的应用。现有的工作通常集中在搜索可重复的基本单元结构,而手动设计控制空间分辨率变化的外部网络结构。这种选择简化了搜索空间,但对于密集图像预测任务来说,网络级别的架构变化更加复杂。因此,我们提出了在基本单元结构之外搜索网络级别结构的方法,形成了一个分层的架构搜索空间。我们提出了一个包含许多流行设计的网络级别搜索空间,并开发了一种有效的基于梯度的架构搜索方法(在Cityscapes图像上使用了3个P100 GPU天的计算资源)。我们在具有挑战性的Cityscapes、PASCAL VOC 2012和ADE20K数据集上展示了所提出方法的有效性。我们的架构搜索方法Auto-DeepLab在语义图像分割任务中达到了最先进的性能,而且没有进行任何ImageNet预训练。

2.6.网络架构图

 图1:左侧:我们的网络级别搜索空间,其中L = 12。灰色节点表示固定的“干线”层,沿着蓝色节点的路径表示候选的网络级别架构。右侧:在搜索过程中,每个单元都是一个密集连接的结构,如4.1.1节所述。每个黄色箭头都与一组值αj→i相关联。连接层之后的三个箭头分别与βls2ls2→s,βsl→s,β2ls→s相关联,如4.1.2节所述。最好以彩色查看。

(a) DeepLabv3使用的网络级架构。

(b) Conv-Deconv使用的网络级架构。

(c) Stacked Hourglass使用的网络级架构。

图2:我们的网络级别搜索空间是通用的,并包括各种现有设计。

 图3:我们在Cityscapes上通过分层神经架构搜索找到的Auto-DeepLab架构。灰色虚线箭头显示了每个节点的最大β连接。atr:空洞卷积。sep:深度可分离卷积。

2.7.CSDN链接

http://t.csdn.cn/PDBFwhttp://t.csdn.cn/PDBFw

3.论文题目《APCNet - Adaptive Pyramid Context Network for Semantic Segmentation》

3.1.网络别名《APCNet》

3.2.论文引用

He J, Deng Z, Zhou L, et al. Adaptive pyramid context network for semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 7519-7528.

3.3.发表期刊

《IEEE/CVF Conference on Computer Vision and Pattern Recognition》

3.4.原文链接

https://openaccess.thecvf.com/content_CVPR_2019/papers/He_Adaptive_Pyramid_Context_Network_for_Semantic_Segmentation_CVPR_2019_paper.pdfhttps://openaccess.thecvf.com/content_CVPR_2019/papers/He_Adaptive_Pyramid_Context_Network_for_Semantic_Segmentation_CVPR_2019_paper.pdf

3.5.论文摘要

        最近的研究表明,上下文特征可以显著提高深度语义分割网络的性能。基于上下文的分割方法在如何构建上下文特征和实际表现上有所差异。本文首次介绍了在分割任务中上下文特征的三个理想属性。特别地,我们发现全局引导的局部亲和性(GLA)在构建有效的上下文特征中起着至关重要的作用,而这一属性在之前的工作中被大部分忽视了。根据这一分析,本文提出了自适应金字塔上下文网络(APCNet)用于语义分割。APCNet通过多个精心设计的自适应上下文模块(ACMs:Adaptive Context Module)自适应地构建多尺度的上下文表示。具体而言,每个ACM利用全局图像表示作为引导,估计每个子区域的局部亲和系数,然后利用这些亲和系数计算一个上下文向量。我们在三个语义分割和场景解析数据集上对APCNet进行了实证评估,包括PASCAL VOC 2012、Pascal-Context和ADE20K数据集。实验结果表明,APCNet在所有三个基准测试中均取得了最先进的性能,并在PASCAL VOC 2012测试集上获得了新的记录,达到了84.2%,在没有MS COCO预训练和任何后处理的情况下。

3.6.网络架构图

 图2.自适应金字塔上下文网络(APCNet)的流程。输入图像被送入一个骨干卷积神经网络,以获取卷积特征立方体X。X被分解为多尺度金字塔表示。每个尺度的表示被送入自适应上下文模块(ACM)来估计每个局部位置的自适应上下文向量。APCNet由多个ACM组成,以并行方式组织。每个ACM由两个分支组成,一个分支用于估计GLA亲和系数,另一个分支用于获取子区域表示。这两个分支的输出被相乘以获得自适应上下文向量。最后,APCNet将来自不同尺度的上下文向量和原始特征立方体X连接起来,用于预测输入像素的语义标签。

3.7.CSDN链接

http://t.csdn.cn/jQCgohttp://t.csdn.cn/jQCgo

4.论文题目《CANet: Class-Agnostic Segmentation Network with Iterative Refinement and Few-shot Learning》

4.1.网络别名《CANet》

4.2.论文引用

Zhang C, Lin G, Liu F, et al. Canet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 5217-5226.

4.3.发表期刊

《 IEEE/CVF conference on computer vision and pattern recognition.》

4.4.原文链接

https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_CANet_Class-Agnostic_Segmentation_Networks_With_Iterative_Refinement_and_Attentive_Few-Shot_CVPR_2019_paper.pdfhttps://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_CANet_Class-Agnostic_Segmentation_Networks_With_Iterative_Refinement_and_Attentive_Few-Shot_CVPR_2019_paper.pdf

4.5.论文摘要

        最近在语义分割方面的进展是由深度卷积神经网络和大规模标注图像数据集推动的。然而,像素级别的数据标注是繁琐和昂贵的。此外,训练好的模型只能在一组预定义的类别中进行预测。在本文中,我们提出了CANet,一种无类别偏见的分割网络,可以在只有少量标注图像的情况下对新类别进行少样本分割。我们的网络由两个分支的密集对比模块和迭代优化模块组成,前者在支持图像和查询图像之间进行多层次特征比较,后者在预测结果上进行迭代优化。此外,我们引入了一种注意力机制,以在k-shot学习的设置下有效地融合来自多个支持示例的信息。在PASCAL VOC 2012数据集上的实验表明,我们的方法在1-shot分割和5-shot分割方面分别达到了55.4%和57.1%的平均交并比分数,相比于现有技术方法,分别提高了14.6%和13.2%。

4.6.网络架构图

 

 图1 - 我们提出的单次分割网络的概览。我们的框架包括一个密集比较模块(DCM)和一个迭代优化模块(IOM)。只给定一个有注释的训练图像,我们的网络能够对具有新类别的测试图像进行分割,并迭代地优化结果。

 图2 - 1-shot语义分割的CANet。(a)我们网络结构的概述。(b)密集比较模块。(c)迭代优化模块。

 图3 - k-shot语义分割的注意机制。我们使用softmax函数来对不同支持示例的注意模块的输出进行归一化处理。

 图4 - (a) 使用像素级注释的CANet支持集。(b) 使用边界框注释的CANet支持集。

4.7.CSDN链接

http://t.csdn.cn/qMXshhttp://t.csdn.cn/qMXsh

5.论文题目《CCNet:Criss-Cross Attention for Semantic Segmentation》

5.1.网络别名《CCNet》

5.2.论文引用

Huang Z, Wang X, Huang L, et al. Ccnet: Criss-cross attention for semantic segmentation[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 603-612.

5.3.发表期刊

《IEEE/CVF international conference on computer vision》

5.4.原文链接

https://openaccess.thecvf.com/content_ICCV_2019/papers/Huang_CCNet_Criss-Cross_Attention_for_Semantic_Segmentation_ICCV_2019_paper.pdfhttps://openaccess.thecvf.com/content_ICCV_2019/papers/Huang_CCNet_Criss-Cross_Attention_for_Semantic_Segmentation_ICCV_2019_paper.pdf

5.5.论文摘要

全图像依赖关系为视觉理解问题提供了有用的上下文信息。在这项工作中,我们提出了一种称为Criss-Cross Network(CCNet)的方法,以更有效和高效的方式获取这种上下文信息。具体而言,对于每个像素,CCNet中的一种新颖的交叉注意力模块收集其交叉路径上所有像素的上下文信息。通过进一步的循环操作,每个像素最终可以捕捉到来自所有像素的全图像依赖关系。总体而言,CCNet具有以下优点:

        1)占用GPU内存较少。与非局部块相比,所提出的循环交叉注意力模块的GPU内存使用量减少了11倍。

        2)计算效率高。循环交叉注意力在计算全图像依赖关系方面,将FLOPs的计算量显著减少了约85%。

        3)达到了最先进的性能。我们在包括Cityscapes、ADE20K和COCO等流行的语义分割基准数据集上进行了大量实验。特别是,我们的CCNet在Cityscapes测试集和ADE20K验证集上分别取得了81.4和45.22的mIoU得分,这些都是最新的最优结果。

源代码可在https://github.com/speedinghzl/CCNet上获得。

5.6.网络架构图

图1.两种基于注意力的上下文聚合方法的示意图。

(a)对于每个位置(例如蓝色),非局部模块[31]生成一个密集的注意力图,其中有H×W个权重(绿色)。

(b)对于每个位置(例如蓝色),交叉注意力模块生成一个稀疏的注意力图,只有H+W-1个权重。经过循环操作后,最终输出特征图中的每个位置(例如红色)都可以从所有像素中收集信息。为了清晰显示,忽略了残差连接。

 图2.提出的用于语义分割的CCNet概览

图3.交叉注意力模块的详细信息。

5.7.CSDN链接

http://t.csdn.cn/hpxgZhttp://t.csdn.cn/hpxgZ

6.论文题目《Gated-SCNN: Gated Shape CNNs for Semantic Segmentation》

6.1.网络别名《Gated-SCNN》

6.2.论文引用

Takikawa T, Acuna D, Jampani V, et al. Gated-scnn: Gated shape cnns for semantic segmentation[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 5229-5238.

6.3.发表期刊

《IEEE/CVF international conference on computer vision》

6.4.原文链接

https://openaccess.thecvf.com/content_ICCV_2019/papers/Takikawa_Gated-SCNN_Gated_Shape_CNNs_for_Semantic_Segmentation_ICCV_2019_paper.pdfhttps://openaccess.thecvf.com/content_ICCV_2019/papers/Takikawa_Gated-SCNN_Gated_Shape_CNNs_for_Semantic_Segmentation_ICCV_2019_paper.pdf

6.5.论文摘要

当前图像分割的最先进方法通过一个密集的图像表示来处理颜色、形状和纹理信息,这些信息都在深度卷积神经网络内部进行处理。然而,这种方法可能不太理想,因为它们包含了与识别相关的非常不同类型的信息。在这里,我们提出了一种新的双流卷积神经网络架构,用于语义分割,其中明确将形状信息作为单独的处理分支(即形状流),并与经典流并行处理信息。这种架构的关键是一种新型的门控机制,将两个流的中间层连接起来。具体来说,我们使用经典流中的高级激活来控制形状流中的低级激活,有效地去除噪声,并帮助形状流只专注于处理相关的边界信息。这使得我们可以使用一个非常浅的架构来处理形状流,该流在图像级别分辨率上操作。我们的实验证明,这导致了一个非常有效的架构,可以在物体边界周围产生更锐利的预测,并显著提升对较细小物体的性能。我们的方法在Cityscapes基准测试中取得了最先进的性能,无论是在掩码(mIoU)还是边界(F-score)质量上,相比强基准模型提高了2%和4%。

6.6.网络架构图

 图1:我们引入了Gated-SCNN(GSCNN),一种新的双流CNN架构,用于语义分割,明确将形状信息作为单独的处理流。GSCNN使用一种新的门控机制来连接中间层。流之间的信息融合是通过融合模块在最后完成的。为了预测高质量的边界,我们利用一种新的损失函数,鼓励预测的语义分割掩码与真实边界对齐。

 图2:GSCNN架构。我们的架构由两个主要流组成。常规流和形状流。常规流可以是任何骨干网络架构。形状流通过一组残差块、门控卷积层(GCL)和监督来专注于形状处理。后面的融合模块使用Atrous空间金字塔池化模块(ASPP)以多尺度的方式将两个流的信息结合起来。通过双任务正则化器,确保分割掩码上的高质量边界。

6.7.CSDN链接

http://t.csdn.cn/6h8zMhttp://t.csdn.cn/6h8zM

2020年文献

1.论文题目《An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale》

11.网络别名《Vision Transformer》

1.2.论文引用

Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

1.3.发表期刊

《》

1.4.原文链接

https://arxiv.org/pdf/2010.11929.pdf?fbclid=IwAR1NafJDhZjkARvCswpV6kS9_hMa0ycvzwhlCb7cqAGwgzComFXcScxgA8oicon-default.png?t=N6B9https://arxiv.org/pdf/2010.11929.pdf?fbclid=IwAR1NafJDhZjkARvCswpV6kS9_hMa0ycvzwhlCb7cqAGwgzComFXcScxgA8o

1.5.论文摘要

        虽然Transformer架构已经成为自然语言处理任务的事实标准,但它在计算机视觉方面的应用仍然有限。在视觉中,注意力要么与卷积网络一起应用,要么用来替换卷积网络的某些组件,同时保持它们的总体结构。我们表明,这种依赖于CNN的做法并非必要的,一种纯Transformer可直接应用于图像块序列上,在图像分类任务中表现非常出色。当在大量数据上进行预训练并转移到多个中等或小型图像识别基准(ImageNet、CIFAR-100、VTAB等)时,Vision Transformer(ViT)可以比现有卷积网络表现更好,同时需要明显更少的计算资源来训练。

1.6.网络架构图

 图1:模型概述。我们将图像分成固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,并将产生的向量序列馈送到标准Transformer编码器。为了进行分类,我们使用添加额外的可学习“分类令牌”的标准方法,将其添加到序列中。Transformer编码器的插图灵感来自于Vaswani等人(2017年)的研究

1.7.CSDN链接

http://t.csdn.cn/cXrHmicon-default.png?t=N6B9http://t.csdn.cn/cXrHm

2.论文题目《》

2.1.网络别名《》

2.2.论文引用

2.3.发表期刊

《》

2.4.原文链接

2.5.论文摘要

2.6.网络架构图

2.7.CSDN链接

2021年文献

1.论文题目《SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers》

1.1.网络别名《SegFormer》

1.2.论文引用

Xie E, Wang W, Yu Z, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[J]. Advances in Neural Information Processing Systems, 2021, 34: 12077-12090.

1.3.发表期刊

《Advances in Neural Information Processing Systems (NeurIPS)》《神经信息处理系统的进展》

1.4.原文链接

https://proceedings.neurips.cc/paper/2021/file/64f1f27bf1b4ec22924fd0acb550c235-Paper.pdfhttps://proceedings.neurips.cc/paper/2021/file/64f1f27bf1b4ec22924fd0acb550c235-Paper.pdf

1.5.论文摘要

我们提出了SegFormer,这是一个简单、高效且强大的语义分割框架,它将Transformer与轻量级多层感知机(MLP:Multilayer Perceptron,人工神经网络)解码器结合在一起。

SegFormer具有两个吸引人的特点:

        1)SegFormer包含一个新颖的层次结构的Transformer编码器,它输出多尺度特征。它不需要位置编码,从而避免了位置编码的插值问题,当测试分辨率与训练不同时,导致性能下降。

        2)SegFormer避免了复杂的解码器。提出的MLP解码器从不同层级聚合信息,从而结合了局部注意力和全局注意力,以生成强大的表示。

        我们展示了这种简单轻量级的设计是在Transformer上实现高效分割的关键。我们将我们的方法扩展到一系列模型,从SegFormer-B0到SegFormer-B5,达到了比以前的对应方法更好的性能和效率。例如,SegFormer-B4在ADE20K上以64M参数达到了50.3%的mIoU,比之前的最佳方法小了5倍,效果提升了2.2%。我们最好的模型SegFormer-B5在Cityscapes验证集上达到了84.0%的mIoU,并且在Cityscapes-C上表现出了出色的零样本鲁棒性。代码将在github上发布:github.com/NVlabs/SegFormer。

1.6.网络架构图

 图2:提出的SegFormer框架由两个主要模块组成:

一个分层Transformer编码器用于提取粗糙和细致的特征;

以及一个轻量级的All-MLP解码器,用于直接融合这些多级特征并预测语义分割掩码。

“FFN”表示前馈神经网络。

1.7.CSDN链接

http://t.csdn.cn/ADMn5http://t.csdn.cn/ADMn5

2.论文题目《Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers》

2.1.网络别名《SEgmentation TRansformer (SETR)》

2.2.论文引用

Zheng S, Lu J, Zhao H, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 6881-6890.

2.3.发表期刊

《IEEE/CVF conference on computer vision and pattern recognition》

2.4.原文链接

https://openaccess.thecvf.com/content/CVPR2021/papers/Zheng_Rethinking_Semantic_Segmentation_From_a_Sequence-to-Sequence_Perspective_With_Transformers_CVPR_2021_paper.pdficon-default.png?t=N6B9https://openaccess.thecvf.com/content/CVPR2021/papers/Zheng_Rethinking_Semantic_Segmentation_From_a_Sequence-to-Sequence_Perspective_With_Transformers_CVPR_2021_paper.pdf

2.5.论文摘要

        最近的语义分割方法采用了全卷积网络(FCN)和编码器解码器架构。编码器逐渐降低空间分辨率,并学习具有更大感受野的抽象/语义视觉概念。由于上下文建模对于分割是至关重要的,最新的研究工作将重点放在增加感受野上,通过空洞卷积或插入注意力模块来实现。然而,基于编码器-解码器的FCN架构保持不变。在本文中,我们旨在通过将语义分割视为序列到序列预测任务来提供另一种观点。具体而言,我们使用纯Transformer(即不使用卷积和分辨率降低)将图像编码为一系列补丁。通过在Transformer的每一层中建模全局上下文,这个编码器可以与简单的解码器结合,提供一个强大的分割模型,称为SEgmentation TRansformer(SETR)。大量实验证明,SETR在ADE20K(50.28% mIoU),Pascal Context(55.83% mIoU)和Cityscapes上取得了新的最佳结果。特别地,我们在高度竞争的ADE20K测试服务器排行榜上首次夺冠。

2.6.网络架构图

 

图1.所提出的SEgmentation TRansformer (SETR)的示意图(a)。我们首先将图像分割为固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,并将得到的向量序列输入标准的Transformer编码器。为了进行像素级分割,我们引入了不同的解码器设计:

(b)渐进上采样(结果是一种称为SETR PUP的变体);

和(c)多级特征聚合(一种称为SETR-MLA的变体)。
 

2.7.CSDN链接

http://t.csdn.cn/XWsKMicon-default.png?t=N6B9http://t.csdn.cn/XWsKM

3.论文题目《TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation》

3.1.网络别名《TransUNet》

3.2.论文引用

Chen J, Lu Y, Yu Q, et al. Transunet: Transformers make strong encoders for medical image segmentation[J]. arXiv preprint arXiv:2102.04306, 2021.

3.3.发表期刊

《》

3.4.原文链接

https://arxiv.org/pdf/2102.04306.pdficon-default.png?t=N6B9https://arxiv.org/pdf/2102.04306.pdf

3.5.论文摘要

        医学图像分割是发展医疗系统的重要先决条件,特别是对于疾病诊断和治疗计划。在各种医学图像分割任务中,U型架构,也称为U-Net,已成为事实上的标准,并取得了巨大的成功。然而,由于卷积操作的固有局部性,U-Net在明确建模长距离依赖性方面通常存在局限性。Transformer是为序列到序列预测而设计的,具有固有的全局自注意机制,但由于缺乏低级细节,可能导致定位能力有限。在本文中,我们提出了TransUNet,它将Transformer和U-Net结合起来,作为医学图像分割的强大替代方案。一方面,Transformer将经过令牌化的图像块从卷积神经网络(CNN)特征图中编码为输入序列,以提取全局上下文。另一方面,解码器将上采样的编码特征与高分辨率的CNN特征图相结合,实现精确的定位。我们认为,Transformer可以作为医学图像分割任务的强大编码器,通过结合U-Net来恢复局部空间信息,从而增强细节。TransUNet在多器官分割和心脏分割等不同医学应用中,取得了优于各种竞争方法的性能。代码和模型可在https://github.com/Beckschen/TransUNet获得。

3.6.网络架构图

  图1:框架概述。(a) Transformer层的示意图;(b) 提出的TransUNet的架构。

3.7.CSDN链接

http://t.csdn.cn/ZiLHricon-default.png?t=N6B9http://t.csdn.cn/ZiLHr

4.论文题目《Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions 》

4.1.网络别名《Pyramid Vision Transformer》

4.2.论文引用

Wang W, Xie E, Li X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 568-578.

4.3.发表期刊

《IEEE/CVF international conference on computer vision》

4.4.原文链接

https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_Pyramid_Vision_Transformer_A_Versatile_Backbone_for_Dense_Prediction_Without_ICCV_2021_paper.pdficon-default.png?t=N6B9https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_Pyramid_Vision_Transformer_A_Versatile_Backbone_for_Dense_Prediction_Without_ICCV_2021_paper.pdf

4.5.论文摘要

虽然卷积神经网络(CNN)在计算机视觉领域取得了巨大成功,但本研究探讨了一种更简单、无卷积的骨干网络,适用于许多密集预测任务。与最近提出的专门用于图像分类的Vision Transformer(ViT)不同,我们引入了金字塔视觉Transformer(PVT),克服了将Transformer应用于各种密集预测任务的困难。与当前最先进的方法相比,PVT具有几个优点:

        (1)与通常输出低分辨率结果且计算和内存开销较高的ViT不同,PVT不仅可以在图像的密集分区上进行训练,以实现高输出分辨率,这对于密集预测非常重要,而且还使用逐渐缩小的金字塔来减少大型特征图的计算量。

        (2)PVT继承了CNN和Transformer的优点,使其成为各种视觉任务的统一骨干,无需卷积,可以直接替代CNN的骨干网络。

        (3)通过大量实验证明了PVT的有效性,它提升了许多下游任务的性能,包括物体检测、实例分割和语义分割。例如,在参数数量相当的情况下,PVT+RetinaNet在COCO数据集上达到了40.4的AP,超过了ResNet50+RetinaNet(36.3 AP)4.1个AP(见图2)。

我们希望PVT能够成为像素级预测的替代和有用的骨干网络,并促进未来的研究。

4.6.网络架构图

 

图1:不同架构的比较,其中“Conv”和“TF-E”分别代表“卷积”和“Transformer编码器”。

(a)许多CNN主干网络在目标检测(DET)、实例分割和语义分割(SEG)等密集预测任务中使用金字塔结构。

(b)最近提出的Vision Transformer(ViT)[12]是一种专为图像分类(CLS)而设计的“柱状”结构。 (c)通过将CNN的金字塔结构结合起来,我们提出了金字塔视觉Transformer(PVT),它可以用作许多计算机视觉任务的多功能主干网络,扩大了ViT的范围和影响。

 图3:金字塔视觉Transformer(PVT)的整体架构。整个模型分为四个阶段,每个阶段由一个补丁嵌入层和一个Li层的Transformer编码器组成。按照金字塔结构,四个阶段的输出分辨率逐渐从高(4倍步长)缩小到低(32倍步长)。

 图4:多头注意力(MHA)与空间缩减注意力(SRA)的比较。通过空间缩减操作,我们的SRA的计算/内存成本远低于MHA。

4.7.CSDN链接

http://t.csdn.cn/p9p0Iicon-default.png?t=N6B9http://t.csdn.cn/p9p0I

5.论文题目《OCNet:Object Context for Semantic Segmentation 》

5.1.网络别名《OCNet》

5.2.论文引用

Yuan Y, Huang L, Guo J, et al. OCNet: Object context for semantic segmentation[J]. International Journal of Computer Vision, 2021, 129(8): 2375-2398.

5.3.发表期刊

《International Journal of Computer Vision》

《国际计算机视觉杂志》(International Journal of Computer Vision,简称IJCV)

5.4.原文链接

https://sci-hub.ru/10.1007/s11263-021-01465-9icon-default.png?t=N6B9https://sci-hub.ru/10.1007/s11263-021-01465-9

5.5.论文摘要

  在本文中,我们通过一种名为对象上下文的新的上下文聚合方案来解决语义分割任务,该方案旨在增强对象信息的作用。受到每个像素的类别是从其所属对象继承的事实的启发,我们将每个像素的对象上下文定义为在图像中与给定像素属于相同类别的像素集合。我们使用一个二元关系矩阵来表示所有像素之间的关系,其中值为1表示两个选定的像素属于相同的类别,值为0表示不属于相同类别。

        我们提出使用密集关系矩阵作为二元关系矩阵的替代品。密集关系矩阵能够强调对象信息的贡献,因为与其他像素相比,关系得分在对象像素上通常较大。考虑到密集关系矩阵估计与输入大小相关,需要二次计算开销和内存消耗,我们提出了一种高效的交错稀疏自注意力方案,通过两个稀疏关系矩阵的组合来建模所有像素之间的密集关系。为了捕捉更丰富的上下文信息,我们进一步将交错稀疏自注意力方案与传统的多尺度上下文方案(包括金字塔池化和空洞空间金字塔池化)相结合。我们通过在Cityscapes、ADE20K、LIP、PASCAL-Context和COCO-Stuff等五个具有挑战性的基准测试中展示了我们方法的优势和竞争性表现。

关键词:语义分割、上下文、自注意力

5.6.网络架构图

 图2:说明交错稀疏自注意力。我们的方法由全局关系模块和局部关系模块组成。最左边/最右边的特征图是输入/输出。首先,我们使用四种不同的颜色对输入特征图X进行着色。我们可以看到有4个局部组,每个组由四种不同的颜色组成。对于全局关系模块,我们在X中对具有相同颜色的所有位置进行排列和分组(划分),这些位置之间具有较长的空间间隔距离,并输出Xg。然后,我们将Xg分为4个组,并在每个组上独立应用自注意力。将每个组的更新后的特征图合并在一起,作为输出Zg。对于局部关系模块,我们对Zg进行排列,将原本相邻的位置分组在一起,并得到Xl。然后,我们按照与全局关系相同的方式进行划分和自注意力操作,得到最终的特征图Zl。通过全局关系模块和局部关系模块的组合,我们可以将所有输入位置的信息传播到每个输出位置。具有相同饱和度的颜色标记特征图的值保持不变。只有在使用自注意力操作更新特征图时,我们才增加颜色的饱和度。

5.7.CSDN链接

http://t.csdn.cn/8DLEUicon-default.png?t=N6B9http://t.csdn.cn/8DLEU

6.论文题目《Segmenter:Transformer for Semantic Segmentation》

6.1.网络别名《Segmenter》

6.2.论文引用

Strudel R, Garcia R, Laptev I, et al. Segmenter: Transformer for semantic segmentation[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 7262-7272.

6.3.发表期刊

《IEEE/CVF international conference on computer vision》

6.4.原文链接

https://openaccess.thecvf.com/content/ICCV2021/papers/Strudel_Segmenter_Transformer_for_Semantic_Segmentation_ICCV_2021_paper.pdficon-default.png?t=N6B9https://openaccess.thecvf.com/content/ICCV2021/papers/Strudel_Segmenter_Transformer_for_Semantic_Segmentation_ICCV_2021_paper.pdf

6.5.论文摘要

        图像分割在单个图像块的级别上经常存在歧义,并需要上下文信息来达到标签一致性。在本文中,我们介绍了一种用于语义分割的Transformer模型- Segmenter。与基于卷积的方法相比,我们的方法允许在第一层和整个网络中对全局上下文进行建模。我们构建在最近的Vision Transformer(ViT)基础上,并将其扩展到语义分割。为此,我们依赖于与图像块对应的输出嵌入,并使用逐点线性解码器或掩码变换解码器从这些嵌入中获取类标签。我们利用预先训练的用于图像分类的模型,并展示我们可以在适度规模的用于语义分割的数据集上对它们进行微调。线性解码器已经能够获得优秀的结果,但通过生成类掩码的掩码变换器可以进一步提高性能。我们进行了大量的剖析研究,以展示不同参数的影响,特别是对于大型模型和小块尺寸,性能更好。Segmenter在语义分割方面取得了出色的结果。它在ADE20K和Pascal Context数据集上超越了现有技术,并在Cityscapes数据集上具有竞争力。
————————————————
版权声明:本文为CSDN博主「Joney Feng」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/ADICDFHL/article/details/131852733

6.6.网络架构图

 

图2:我们方法Segmenter的概述。

(左侧)编码器:图像补丁被投影到一个嵌入序列中,然后通过一个Transformer进行编码。

(右侧)解码器:一个掩码Transformer以编码器的输出和类别嵌入作为输入,预测分割掩码。

6.7.CSDN链接

http://t.csdn.cn/Vavkcicon-default.png?t=N6B9http://t.csdn.cn/Vavkc

7.论文题目《Progressive Semantic Segmentation》

7.1.网络别名《》

7.2.论文引用

Huynh C, Tran A T, Luu K, et al. Progressive semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 16755-16764.

7.3.发表期刊

《IEEE/CVF Conference on Computer Vision and Pattern Recognition》

7.4.原文链接

https://openaccess.thecvf.com/content/CVPR2021/papers/Huynh_Progressive_Semantic_Segmentation_CVPR_2021_paper.pdficon-default.png?t=N6B9https://openaccess.thecvf.com/content/CVPR2021/papers/Huynh_Progressive_Semantic_Segmentation_CVPR_2021_paper.pdf

7.5.论文摘要

这项工作的目标是在不过载GPU内存使用或丢失输出分割图中的细节的情况下对高分辨率图像进行分割。内存限制意味着我们必须对大图像进行降采样,或者将图像分为局部补丁进行分离处理。然而,前一种方法会丢失细节,而后一种方法由于缺乏全局图片可能会产生歧义。在这项工作中,我们提出了MagNet,一个多尺度框架,通过查看多个放大级别的图像来解决局部模糊问题。MagNet有多个处理阶段,每个阶段对应一个放大级别,一个阶段的输出被馈送到下一个阶段进行从粗到细的信息传播。每个阶段在比前一个阶段更高的分辨率下分析图像,恢复由于有损降采样步骤而丢失的细节,并且通过处理阶段逐渐优化分割输出。在城市景观、航拍场景和医学图像的三个高分辨率数据集上的实验证明,MagNet始终以显著的优势超越了最先进的方法。代码可在https://github.com/VinAIResearch/MagNet上找到。

7.6.网络架构图

 图2:我们提出的MagNet的概述。分割网络产生尺度特定的预测,而细化模块根据局部预测有选择地细化前几个阶段的粗糙预测。

 图3:细化模块的概述。累积分割Y部分地被基于分数Q的尺度特定分割图O所替换。

 图4:这两个残差块被训练用于在每个尺度上细化分割。该模块的输出与输入具有相同的尺寸h×w。

7.7.CSDN链接

http://t.csdn.cn/ZI26iicon-default.png?t=N6B9http://t.csdn.cn/ZI26i

8.论文题目《From Contexts to Locality: Ultra-high Resolution Image Segmentation via Locality-aware Contextual Correlation》

8.1.网络别名《》

8.2.论文引用

Li Q, Yang W, Liu W, et al. From contexts to locality: Ultra-high resolution image segmentation via locality-aware contextual correlation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 7252-7261.

8.3.发表期刊

《IEEE/CVF International Conference on Computer Vision》

8.4.原文链接

https://openaccess.thecvf.com/content/ICCV2021/papers/Li_From_Contexts_to_Locality_Ultra-High_Resolution_Image_Segmentation_via_Locality-Aware_ICCV_2021_paper.pdficon-default.png?t=N6B9https://openaccess.thecvf.com/content/ICCV2021/papers/Li_From_Contexts_to_Locality_Ultra-High_Resolution_Image_Segmentation_via_Locality-Aware_ICCV_2021_paper.pdf

8.5.论文摘要

        近年来,超高分辨率图像分割因其逼真的应用而引起了越来越多的关注。在本文中,我们创新了广泛使用的高分辨率图像分割流程,其中超高分辨率图像被分割为常规补丁进行局部分割,然后将局部结果合并为高分辨率语义掩码。特别地,我们引入了一种基于局部感知的上下文相关性的分割模型来处理局部补丁,其中局部补丁与其各种上下文之间的相关性被联合和互补地利用来处理具有大变化的语义区域。此外,我们还提出了一种上下文语义细化网络,将局部分割结果与其上下文语义相关联,从而在生成最终高分辨率掩码的过程中具有减少边界伪影和优化掩码轮廓的能力。此外,在全面的实验中,我们证明了我们的模型在公共基准测试中优于其他最先进的方法。我们发布的代码可在https://github.com/liqiokkk/FCtL上获得。

8.6.网络架构图

 图3.我们局部分割模型的示意图。具体来说,从高分辨率图像中裁剪出的某个局部补丁及其上下文被分别传入网络分支,以提取特征并测量它们与局部补丁的相关性,从而获得具有局部感知的特征。最后,这些特征被自适应地融合,产生高质量的局部分割结果。

 图4.上下文语义细化网络的示意图。给定一个粗糙的高分辨率语义掩码,我们将局部掩码和其上下文掩码输入到一个双分支网络中,以细化局部掩码。

8.7.CSDN链接

http://t.csdn.cn/wUnkhicon-default.png?t=N6B9http://t.csdn.cn/wUnkh

9.论文题目《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》

9.1.网络别名《Swin Transformer》

9.2.论文引用

Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 10012-10022.

9.3.发表期刊

《IEEE/CVF international conference on computer vision》

9.4.原文链接

https://arxiv.org/pdf/2103.14030.pdficon-default.png?t=N6B9https://arxiv.org/pdf/2103.14030.pdf

9.5.论文摘要

        本文介绍了一种新的视觉Transformer,称为Swin Transformer,它具备作为计算机视觉通用骨干网的能力。将Transformer从语言领域转换到视觉领域面临的挑战来自两个领域的差异,如视觉实体的尺度变化较大以及图像中像素的分辨率相对于文本中的单词高得多。为了解决这些差异,我们提出了一种分层Transformer,其表示是通过Shifted 窗口计算得出的。该Shifted 窗口方案通过将自注意计算限制在非重叠的本地窗口上,同时允许窗口连接,从而带来更高的效率。这种分层架构具有在不同尺度下建模的灵活性,并且与图像尺寸呈线性计算复杂度。Swin Transformer的这些品质使其适用于广泛的视觉任务,包括图像分类(在ImageNet-1K上的87.3 top-1准确率)以及密集预测任务,例如目标检测(在COCO testdev上的58.7 box AP和51.1 mask AP)和语义分割(在ADE20K val上的53.5 mIoU)。其性能大大超过了以前的技术水平,COCO上的+2.7 box AP和+2.6 mask AP以及ADE20K上的+3.2 mIoU,这证明了基于Transformer的模型作为视觉骨干网的潜力。分层设计和Shifted 窗口方法对于所有MLP体系结构也是有利的。代码和模型可在https://github.com/microsoft/Swin-Transformer.公开获得。

9.6.网络架构图

 图1.(a)所提出的Swin Transformer通过合并深层中的图像块(灰色部分),构建了分层的特征图,并由于仅在每个局部窗口(红色部分)内计算自注意力,因此具有线性计算复杂度,可用作图像分类和密集识别任务的通用骨干。(b)相比之下,之前的Vision Transformer [20]产生单个低分辨率的特征图,并且由于全局自注意力的计算而对输入图像大小具有二次计算复杂度

 图2.在提出的Swin Transformer体系结构中计算自注意力的移动窗口方法的图示。在层l(左侧),采用常规的窗口分割方案,在每个窗口内计算自注意力。在下一层l+1(右侧),窗口分割发生了移动,产生了新的窗口。新窗口中的自注意力计算跨越了层l中先前窗口的边界,提供了它们之间的连接

 图3.(a)Swin Transformer(Swin-T)的架构;(b)两个连续的Swin Transformer块(使用公式(3)表示符号)。W-MSA和SW-MSA是具有常规和移位窗口配置的多头自注意力模块

 图4.自注意力中移位窗口分区的高效批处理计算方法的示意图

9.7.CSDN链接

http://t.csdn.cn/wfNV8icon-default.png?t=N6B9http://t.csdn.cn/wfNV8

2022年文献

 1.论文题目《Shunted Self-Attention via Multi-Scale Token Aggregation 》

1.1.网络别名

《》

1.2.论文引用

Ren S, Zhou D, He S, et al. Shunted self-attention via multi-scale token aggregation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 10853-10862.

1.3.发表期刊

《IEEE/CVF Conference on Computer Vision and Pattern Recognition》

1.4.原文链接

https://openaccess.thecvf.com/content/CVPR2022/papers/Ren_Shunted_Self-Attention_via_Multi-Scale_Token_Aggregation_CVPR_2022_paper.pdficon-default.png?t=N6B9https://openaccess.thecvf.com/content/CVPR2022/papers/Ren_Shunted_Self-Attention_via_Multi-Scale_Token_Aggregation_CVPR_2022_paper.pdf

1.5.论文摘要

         最近的视觉Transformer(ViT)模型在各种计算机视觉任务中取得了令人鼓舞的结果,这要归功于其通过自注意力机制对图像补丁或标记建模长程依赖性的能力。然而,这些模型通常在每个层内为每个标记特征指定相似的感受野。这种约束不可避免地限制了每个自注意力层在捕捉多尺度特征方面的能力,从而导致在处理具有多个不同尺度对象的图像时性能下降。为了解决这个问题,我们提出了一种新颖的通用策略,称为抑制型自注意力(SSA:Shunted Self-Attention),它允许ViTs在每个注意力层上对混合尺度的注意力进行建模。SSA的关键思想是在计算自注意力矩阵之前,将不同的感受野大小注入到标记中:选择性地合并标记以表示更大的对象特征,同时保留某些标记以保留细粒度的特征。这种新颖的合并方案使得自注意力能够学习不同尺寸对象之间的关系,同时减少了标记数量和计算成本。在各种任务上进行的大量实验证明了SSA的优越性。具体而言,基于SSA的Transformer模型在ImageNet上实现了84.0%的Top-1准确率,在模型大小和计算成本仅为现有Focal Transformer的一半的情况下超越了现有技术,在COCO上超过Focal Transformer 1.3 mAP,在ADE20K上超过Focal Transformer 2.9 mIOU,参数和计算成本相似。代码已经在https://github.com/OliverRensu/Shunted-Transformer上发布。

1.6.网络架构图

 图4左侧:我们Shunted Transformer的总体架构。右侧:我们抑制型自注意力块的详细信息。

 图5.将我们的抑制型自注意力与ViT、Swin和PVT中的自注意力进行比较。ViT在小尺寸特征图上全局应用自注意力。Swin Transformer在大尺寸特征图上的小区域内应用局部自注意力。PVT使用大步长融合键和值。与之不同的是,我们的抑制型自注意力通过多尺度标记聚合获取不同尺寸的键和值。

 图6.比较ViT(左侧)、PVT(右侧)和我们的细节特定的前馈层。我们在前馈层中补充了细粒度的跨标记细节信息。

1.7.CSDN链接

http://t.csdn.cn/dlrDwicon-default.png?t=N6B9http://t.csdn.cn/dlrDw

2.论文题目《》

2.1.网络别名《》

2.2.论文引用

2.3.发表期刊

《》

2.4.原文链接

2.5.论文摘要

2.6.网络架构图

2.7.CSDN链接

2023年文献

1.论文题目《StructToken :Rethinking Semantic Segmentation with Structural Prior》

1.1.网络别名

《StructToken》

1.2.论文引用

Lin F, Liang Z, Wu S, et al. Structtoken: Rethinking semantic segmentation with structural prior[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023.

1.3.发表期刊

《IEEE Transactions on Circuits and Systems for Video Technology》

《IEEE视频技术电路与系统交易》(IEEE Transactions on Circuits and Systems for Video Technology)是一个由IEEE(电气和电子工程师学会)出版的重要期刊。 该期刊专注于视频技术领域的研究与应用,涵盖了视频编码、视频处理、视频传输、视频检索、视频分析等方面的内容。

1.4.原文链接

https://arxiv.org/pdf/2203.12612.pdficon-default.png?t=N6B9https://arxiv.org/pdf/2203.12612.pdf

1.5.论文摘要

在以前的基于深度学习的方法中,语义分割被视为静态或动态的像素级分类任务,即将每个像素表示分类到特定的类别。然而,这些方法只关注学习更好的像素表示或分类核,而忽视了物体的结构信息,而结构信息对于人类决策机制至关重要。本文提出了一种新的语义分割范式,称为结构感知提取。具体而言,它通过一组学习到的结构标记与图像特征之间的交互生成分割结果,旨在逐步从特征中提取每个类别的结构信息。大量实验证明,我们的StructToken在三个广泛使用的基准数据集上表现优于最先进的方法,包括ADE20K、Cityscapes和COCO-Stuff-10K。

关键词—语义分割,Transformer。

1.6.网络架构图

 图1.与三种语义分割范式的比较。在(a)中,分割结果是通过最终特征图与静态分类器的乘积获得的,其中分类器在训练后是固定的。相比之下,(b)根据图像内容进一步更新初始核以生成每个输入图像的动态分类器。在我们的(c)中,它学习了一组结构标记,并逐渐从特征图中提取信息来更新结构标记。最终的结构标记可以直接视为分割结果。C和K分别表示通道数和类别数。

 图2.我们的StructToken的总体框架。其中(a),(b)和(c)分别展示了提取模块的三种不同实现方式。这里h和w表示原始图像的高度和宽度,而H和W表示由主干网络输出的特征图的高度和宽度(例如,使用ViT [15]作为主干网络时,输出特征图的尺寸是原始图像的1/16)。HS和WS表示结构标记的高度和宽度。CSE和SSE中的Q,K和V分别表示映射函数Φ和Ψ输出的查询、键和值。更多细节请参见方法部分。

1.7.CSDN链接

http://t.csdn.cn/iwFHsicon-default.png?t=N6B9http://t.csdn.cn/iwFHs

2.论文题目

《》

2.1.网络别名

《》

2.2.论文引用

2.3.发表期刊

《》

2.4.原文链接

2.5.论文摘要

2.6.网络架构图

2.7.CSDN链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/57453.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

通过 CCIP 构建跨链应用(5 个案例)

Chainlink 的跨链互操作性协议(CCIP)是一种新的通用跨链通信协议,为智能合约开发人员提供了以最小化信任的方式在区块链网络之间传输数据和通证的能力。 目前,部署在多个区块链上的应用程序面临着资产、流动性和用户的碎片化问题…

【电源专题】电压查表法显示电量的原理与缺点

在文章:【电源专题】电量计估计电池荷电状态方法(开路电压法及库仑计法)的差别中我们讲到电量计估计荷电状态的方法。其中开路电压法实现方法较容易,可借着开路电压对应荷电状态查表而得到。 那么为什么能够使用电压查表法去预估电池容量呢?如下所示如果我们往一个有刻度…

LLM大模型——langchain相关知识总结

目录 一、简介LangChain的主要价值支柱简单安装 二、 LangChain的主要模块1.Model I/Oprompt模版定义调用语言模型 2. 数据连接3. chains4. Agents5. MemoryCallbacks 三、其他记录多进程调用 主要参考以下开源文档 文档地址:https://python.langchain.com/en/lates…

小白到运维工程师自学之路 第六十二集 (docker持久化与数据卷容器)

一、概述 Docker持久化是指将容器中的数据持久保存在主机上,以便在容器重新启动或迁移时不丢失数据。由于Docker容器是临时和可变的,它们的文件系统默认是易失的,这意味着容器中的任何更改或创建的文件都只存在于此容器的生命周期内。但是&a…

LVDS端口ESD静电放电保护电路图(经典)

Low Voltage Differential Signaling(LVDS)是一种低压差分信号技术接口,是美国NS公司为克服以TTL电平方式传输宽带高码率数据时功耗大、EMI电磁干扰大等缺点而研制的一种数字视频信号传输方式。LVDS端口电路包括两部分:驱动板侧的…

3DEXPERIENCE用户角色 | Structural Mechanics Engineer 结构力学工程师

真实条件下实施复杂的线性和非线性分析 直观验证设计并更快地做出产品决策 Structural Mechanics Engineer 在基于云的 3DEXPERIENCE 平台上构建,您可对产品行为执行结构线性和非线性静态、低速和高速动态和热仿真。具备材料校准功能,有助于确保材料行为…

十分钟python入门 日期时间

1.Python 日期 Python 中的日期不是其自身的数据类型,但是我们可以导入名为 datetime 的模块,把日期视作日期对象进行处理。 1.1 导入 datetime 模块并显示当前日期: import datetime#导入 datetime 模块并显示当前日期: x da…

微信小程序接入腾讯云天御验证码

腾讯云新一代行为验证码(Captcha),基于十道安全防护策略,为网页、APP、小程序开发者打造立体、全面的人机验证。在保护注册登录、活动秒杀、点赞发帖、数据保护等各大场景下业务安全的同时,提供更精细化的用户体验。 …

在使用Python爬虫时遇到503 Service Unavailable错误解决办法汇总

在进行Python爬虫的过程中,有时会遇到503 Service Unavailable错误,这意味着所请求的服务不可用,无法获取所需的数据。为了解决这个常见的问题,本文将提供一些解决办法,希望能提供实战价值,让爬虫任务顺利完…

【问题随记】

ubuntu 14.04源更新(sources.list) deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ trusty-update…

MyBatis的使用方法

文章目录 一、MyBatis的创建准备工作 二、MyBatis的使用1.项目分层2.业务代码1&#xff09;使用XML的方法2&#xff09;直接使用注解 总结 一、MyBatis的创建 准备工作 1.添加依赖 旧项目 方法一&#xff1a;在pom.xml中添加MyBatis和MySQL Diver依赖 <!-- 添加 MyBati…

【Android】在AndroidStudio开发工具运行Java程序

在Android Studio开发工具中&#xff0c;Android系统开始就是用java语言开发的&#xff0c;还可以java代码来写程序&#xff0c;控制台&#xff0c;桌面应用&#xff0c;还可以写可调用的模块&#xff0c;这里讲一下创建Java程序步骤&#xff0c;方便入门java语言开发。 新建一…

批处理文件的@echo off是什么意思?

echo off 关闭回显 echo on 打开回显 echo off并不是DOS程序中的&#xff0c; 而是DOS批处理中的。 当年的DOS&#xff0c;所有操作都用键盘命令来完成&#xff0c; 当你每次都要输入相同的命令时&#xff0c; 可以把这么多命令存为一个批处理&#xff0c; 从此以后&#xff…

[Docker实现测试部署CI/CD----自由风格的CI操作[中间架构](4)]

10、自由风格的CI操作&#xff08;中间架构&#xff09; 中间架构图 创建web项目 创建一个 web 项目&#xff0c;就使用简单的 spring boot 工程&#xff0c;例如工程名为 hellojks。仅需导 入 spring web 依赖即可。 import org.springframework.web.bind.annotation.GetMapp…

轮足机器人硬件总结

简介 本文主要根据“轮腿机器人Hyun”总结的硬件部分。 轮腿机器人Hyun开源地址&#xff1a;https://github.com/HuGuoXuang/Hyun 1 电源部分 1.1 78M05 78M05是一款三端稳压器芯片&#xff0c;它可以将输入电压稳定输出为5V直流电压. 1.2 AMS1117-3.3 AMS1117-3.3是一种输…

Maven里面没有plugins dependence问题解决

说明&#xff1a;今天在做Nacos、Dubbo整合的时候&#xff0c;在父模块中做了版本限制&#xff0c;出错后就又把版本控制什么都删掉&#xff0c;回退到最开始的状态&#xff0c;此时父模块下面的服务右侧的 maven里面没有plugins dependence &#xff0c;然后项目全都报错。 问…

液冷数据中心规模化扩张在即,曙光数科发布“冷平衡”战略

出品 | CSDN 云计算 随着数字化深入&#xff0c;AI应用爆发&#xff0c;我国算力需求持续增长。面对服务器密度、双碳目标、降本增效的多重考量&#xff0c;平衡数据中心性能、功耗、成本的三元关系&#xff0c;成为摆在每个数据中心面前的难题&#xff0c;为此数据中心将目光转…

【C++】STL——set和map及multiset和multiset的介绍及使用

&#x1f680; 作者简介&#xff1a;一名在后端领域学习&#xff0c;并渴望能够学有所成的追梦人。 &#x1f681; 个人主页&#xff1a;不 良 &#x1f525; 系列专栏&#xff1a;&#x1f6f8;C &#x1f6f9;Linux &#x1f4d5; 学习格言&#xff1a;博观而约取&#xff0…

k8s概念-StatefulSet

StatefulSet 是用来管理有状态应用的控制器 StatefulSet 用来管理某Pod集合的部署和扩缩&#xff0c; 并为这些 Pod 提供持久存储和持久标识符StatefulSet | KubernetesStatefulSet 运行一组 Pod&#xff0c;并为每个 Pod 保留一个稳定的标识。 这可用于管理需要持久化存储或稳…

云曦暑期学习第三周——ctfshow--php特性(89-104)

目录 web89 preg_match函数 、数组 web90 intval()函数、强比较 web91 正则修饰符 web92 intval()函数、弱比较 web93 八进制、小数点 web94 strpos() 函数、小数点 web95 小数点 web96 highlight_file() 下的目录路径 web97 数组 web98 三目运算符 web9…