9.2.1 简述图像分割中经常用到的编码器-解码器网络结构的设计理念。

9.2 图像分割

场景描述：

	图像分类	图像识别	图像分割
不同		标注出每个目标的类别	像素级别的图像识别，标注出图像中每个像素所属的对象类别
不同	对整张图像进行识别		进行稠密的像素级分类
应用场景			视频软件中的背景替换、避开人物的弹幕模板、自动驾驶以及医疗辅助判断等
分类			前景分割（foreground segmentation）、语义分割（semanticsegmentation）、实例分割（instance segmentation） 2018年开始兴起的全景分割（panoptic segmentation）（图9.3）
常用数据集			PASCAL VOC2012［23］、 MS COCO［25］、 CityScapes［24］

图像分割是指像素级别的图像识别，即标注出图像中每个像素所属的对象类别。
与图像分类对整张图像进行识别不同，图像分割需要进行稠密的像素级分类。
图像分割的应用场景有很多，比如我们看到的视频软件中的背景替换、避开人物的弹幕模板、自动驾驶以及医疗辅助判断等都使用了基于图像分割的技术。

根据应用场景的不同，图像分割任务可以更精细地划分成以下几类：

前景分割（foreground segmentation），
语义分割（semanticsegmentation），更注重类别之间的区分；
实例分割（instance segmentation），更注重个体之间的区分；
2018年开始兴起的全景分割（panoptic segmentation），如图9.3所示［22］，语义分割和实例分割结合

学术界常用的图像分割方面的数据集有PASCAL VOC2012［23］、MS COCO［25］和CityScapes［24］。

知识点：图像分割、编码器-解码器结构、空洞卷积、DeepLab算法

9.2.1 简述图像分割中经常用到的编码器-解码器网络结构的设计理念。

图像分割中的编码器可视为特征提取网络，通常使用池化层来逐渐缩减输入数据的空间维度；
而解码器则通过上采样／反卷积等网络层来逐步恢复目标的细节和相应的空间维度。

图9.4以U-Net为例，给出了一个具体的编码器-解码器网络结构［27］。

在编码器中，引入池化层可以增加后续卷积层的感受野，并能使特征提取聚焦在重要信息中，降低背景干扰，有助于图像分类。

√问题：然而，池化操作使位置信息大量流失，经过编码器提取出的特征不足以对像素进行精确的分割。这给解码器逐步修复物体的细节造成了困难，使得在解码器中直接由上采样／反卷积层生成的分割图像较为粗糙。

√解决：因此，一些研究人员提出在编码器和解码器之间建立快捷连接（shortcut／skip connection），使高分辨率的特征信息参与到后续的解码环节，进而帮助解码器更好地复原目标的细节信息。

列举出2～3个基于编码器-解码器结构的图像分割算法。

经典的图像分割算法 FCN (Fully Convolutional Networks) [26]、U-Net[27]和SegNet[28]都是基于编码器-解码器的理念设计的。

FCN和U-Net是最先出现的编码器-解码器结构，都利用了快捷连接向解码器中引入编码器提取的特征。

FCN中的快捷连接是通过将编码器提取的特征进行复制，叠加到之后的卷积层提取出的特征上，作为解码器的输入来实现的。
与FCN不同，SegNet提出了最大池化索引（max-pooling indicies）的概念，快捷连接传递的不是特征本身，而是最大池化时所使用的索引（位置坐标）。利用这个索引对输入特征进行上采样，省去了反卷积操作，这也使得SegNet比FCN节省了不少存储空间。

[22] KIRILLOV A, HE K, GIRSHICK R, et al. Panoptic segmentation[J].arXiv preprint arXiv:1801.00868, 2018.
[23] EVERINGHAM M, WINN J. The PASCAL visual object classes challenge 2012(VOC2012) development kit[J]. Pattern Analysis, Statistical Modelling and Computational Learning, Tech. Rep, 2011.
[24] LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects incontext[C]//European Conference on Computer Vision. Springer, 2014: 740-755.
[25] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 3213-3223.
[26] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015.
[27] RONNEBERGER, OLAF, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015:234-241.
[28] BADRINARAYANAN V, KENDALL Alex, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,2017.

下集预告：9.2.2 DeepLab系列模型中每一代的创新是什么？是为了解决什么问题？

参考文献：

《百面深度学习》诸葛越江云胜主编

出版社：人民邮电出版社（北京）

ISBN：978-7-115-53097-4

2020年7月第1版（2020年7月北京第二次印刷）

推荐阅读：

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络（1989年提出,1998年改进）

AlexNet网络（2012年提出）

VGGNet网络（2014年提出）

LeNet、AlexNet、VGGNet总结

GoogLeNet网络（2014年提出）

ResNet网络（2015年提出）