语义分割—FCN网络学习笔记（附代码）

论文地址：https://arxiv.org/abs/1411.4038
代码地址：https://gitcode.com/mirrors/wzmiaomiao/deep-learning-for-image-processing/overview?utm_source=csdn_github_accelerator

1.是什么？

全卷积网络（Fully Convolutional Networks，FCN）是Jonathan Long等人于2015年在Fully Convolutional Networks for Semantic Segmentation一文中提出的用于图像语义分割的一种框架，是首个端对端的针对像素级预测的全卷积网络。
与传统的卷积神经网络（CNN）只能输出一个固定大小的标量值或向量不同，FCN可以输出与输入图像相同大小的像素级别的预测结果，即对每个像素进行分类。
FCN的核心思想是将传统的全连接层替换为卷积层，从而使得网络可以接受任意尺寸的输入图像，并输出相应尺寸的预测结果。FCN的网络结构主要分为两个部分：全卷积部分和反卷积部分。其中全卷积部分为一些经典的CNN网络（如VGG，ResNet等），用于提取特征；反卷积部分则是通过上采样得到原尺寸的语义分割图像。FCN的输入可以为任意尺寸的彩色图像，输出与输入尺寸相同，通道数为n（目标类别数）+1（背景）。

2.怎么样

2.1网络结构

FCN网络结构主要分为两个部分：全卷积部分和反卷积部分。其中全卷积部分为一些经典的CNN网络（如VGG，ResNet等），用于提取特征；反卷积部分则是通过上采样得到原尺寸的语义分割图像。FCN的输入可以为任意尺寸的彩色图像，输出与输入尺寸相同，通道数为n（目标类别数）+1（背景），（原始FCN是在PASCAL数据集上训练的所以一共有20+1类）。FCN-8s网络结构如下：

21张概率图中每个像素处是一个概率，表明当前像素属于哪一种类别

这里为什么会产生568*568大小的图片呢，是因为原论文的源码中在第一个卷积层处将padding设置为100，这样做的目的是防止图片下采样32倍后尺寸小于7x7（因为下采样32倍后会经过7x7大小的卷积层），之后上采样32倍后会产生与原图不一样大小的图片，需要进行裁剪才能得到原图大小的输出。

2.2 官方模型

官方模型是采用了VGG16作为backbone，VGG16网络结果如下图所示：

其中最大池化层为2x2 步长为2，论文中提出了三个模型分别是FCN-32s、FCN-16s、FCN-8s。

2.2.1 FCN-32s

pool5的输出直接上采样32倍恢复到原图大小，将损失了原图很多细节信息的特征图直接上采样，效果较差

现在的FCN的源码中FC6的卷积层的padding为3，这样可以使输出的图片高宽不变，防止输入图片过小导致该卷积层报错，例如若没有该padding，那么输入192x192的图片FC6的输入会是6x6大小的图片，FC6就报错了。
论文源码中的转置卷积的参数是冻结的，因为作者发现冻结和不冻结的结果相差不大，为了提高效率，所以就冻结了。此时转置卷积层相当于是双线性插值。这里效果不明显的原因是上采样倍数太大了

2.2.2 FCN-16s

pool5的输出上采样2倍（采样后大小与pool4的输出相同）然后与pool4输出相加然后再直接上采样16倍恢复到原图大小

2.2.3 FCN-8s

pool5的输出上采样2倍（采样后大小与pool4的输出相同）然后与pool4输出相加然后再上采样2倍（采样后大小与pool3的输出相同），然后与pool3输出相加然后再直接上采样8倍恢复到原图大小。

实现FCN-8s时的参数如下

参数名称	参数值
f6.stride	1
f6.padding	3
f7.stride	1
f7.padding	1
转置卷积1.padding	1
转置卷积1.stride	2
转置卷积2.padding	1
转置卷积2.stride	2
转置卷积3.padding	4
转置卷积3.stride	8

规律：设倍率为x，当转置卷积的2*padding -x = k.size、 s为上采样倍率x时恰好可以上采样

转置卷积计算公式：

o'为卷积输出大小，i‘为卷积输入大小，s为卷积核stride，k为卷积核大小，p为填充

2.3 代码实现

FCN-32s

pre_model = models.vgg16_bn(weights=True)

class FCN32(nn.Module):
    def __init__(self, num_classes = 1):
        super(FCN32, self).__init__()

        self.stage1 = pre_model.features[:7]
        self.stage2 = pre_model.features[7:14]
        self.stage3 = pre_model.features[14:24]
        self.stage4 = pre_model.features[24:34]
        self.stage5 = pre_model.features[34:]


        self.stage6 = nn.Sequential(
                    nn.Conv2d(512, 4096, kernel_size=(7,7), stride=1, padding=3),
                    nn.ReLU(inplace=True),
                    nn.Dropout())
        self.stage7 = nn.Sequential(
                    nn.Conv2d(4096, 4096, kernel_size=(1,1), stride=1),
                    nn.ReLU(inplace=True),
                    nn.Dropout())

        self.conv1 = nn.Sequential(
                    nn.Conv2d(4096, num_classes, kernel_size=(1,1), stride=1))

        self.invers_conv1 = nn.ConvTranspose2d(num_classes,num_classes,kernel_size=(64,64), stride=32, padding=16)


    def forward(self, x):
        x_size = x.size()
        out = self.stage1(x)
        out = self.stage2(out)
        out = self.stage3(out)
        out = self.stage4(out)
        out = self.stage5(out)


        out = self.stage6(out)
        out = self.stage7(out)
        out = self.conv1(out)

        out = self.invers_conv1(out)
        return out

FCN-16s

class FCN16(nn.Module):
    def __init__(self, num_classes = 1):
        super(FCN16, self).__init__()

        self.stage1 = pre_model.features[:7]
        self.stage2 = pre_model.features[7:14]
        self.stage3 = pre_model.features[14:24]
        self.stage4 = pre_model.features[24:34]
        self.stage5 = pre_model.features[34:]

        self.score_pool4 = nn.Conv2d(512, num_classes, kernel_size=1)

        self.stage6 = nn.Sequential(
                    nn.Conv2d(512, 4096, 7, padding=3),
                    nn.ReLU(inplace=True),
                    nn.Dropout())
        self.stage7 = nn.Sequential(
                    nn.Conv2d(4096, 4096, 1),
                    nn.ReLU(inplace=True),
                    nn.Dropout())

        self.conv1 = nn.Sequential(
                    nn.Conv2d(4096, num_classes, 1))
        self.invers_conv1 = nn.ConvTranspose2d(num_classes,num_classes,4, stride=2, padding=1)
        self.invers_conv2 = nn.ConvTranspose2d(num_classes,num_classes,kernel_size=(32,32), stride=16, padding=8)


    def forward(self, x):
        x_size = x.size()
        out = self.stage1(x)
        out = self.stage2(out)
        out = self.stage3(out)
        out_4 = self.stage4(out)
        out = self.stage5(out_4)

        out = self.stage6(out)
        out = self.stage7(out)
        mid1 = self.conv1(out)
        upscore2 = self.invers_conv1(mid1)
        score_pool4 = self.score_pool4(out_4)
        upscore16 = self.invers_conv2(score_pool4 + upscore2)
        return upscore16

FCN-8s

class FCN8(nn.Module):
    def __init__(self, num_classes = 1):
        super(FCN8, self).__init__()

        self.stage1 = pre_model.features[:7]
        self.stage2 = pre_model.features[7:14]
        self.stage3 = pre_model.features[14:24]
        self.stage4 = pre_model.features[24:34]
        self.stage5 = pre_model.features[34:]

        self.score_pool4 = nn.Conv2d(512, num_classes, kernel_size=1)
        self.score_pool3 = nn.Conv2d(256, num_classes, kernel_size=1)

        self.stage6 = nn.Sequential(
                    nn.Conv2d(512, 4096, 7, padding=3),
                    nn.ReLU(inplace=True),
                    nn.Dropout())
        self.stage7 = nn.Sequential(
                    nn.Conv2d(4096, 4096, 1),
                    nn.ReLU(inplace=True),
                    nn.Dropout())
        self.conv1 = nn.Sequential(
                    nn.Conv2d(4096, num_classes, 1))

        self.invers_conv0 = nn.ConvTranspose2d(num_classes,num_classes,4, stride=2, padding=1)
        self.invers_conv1 = nn.ConvTranspose2d(num_classes,num_classes,4, stride=2, padding=1)
        self.invers_conv2 = nn.ConvTranspose2d(num_classes,num_classes,kernel_size=(16,16), stride=8, padding=4)


    def forward(self, x):
        x_size = x.size()
        out = self.stage1(x)
        out = self.stage2(out)
        out_3 = self.stage3(out)
        out_4 = self.stage4(out_3)
        out = self.stage5(out_4)

        out = self.stage6(out)
        out = self.stage7(out)
        mid1 = self.conv1(out)

        upscore2 = self.invers_conv0(mid1)
        score_pool4 = self.score_pool4(out_4)
        fc16 = self.invers_conv1(score_pool4 + upscore2)
        score_pool3 = self.score_pool3(out_3)
        upscore16 = self.invers_conv2(fc16+score_pool3)
        return upscore16

参考：

FCN(全卷积神经网络)详解

语义分割——FCN模型pytorch实现

B站霹雳吧啦

全卷积网络 FCN 详解

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/207730.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！