FCN-语义分割中的全卷积网络

FCN-语义分割中的全卷积网络

语义分割

语义分割是计算机视觉中的关键任务之一,现实中,越来越多的应用场景需要从影像中推理出相关的知识或语义(即由具体到抽象的过程)。作为计算机视觉的核心问题,语义分割对于场景理解的重要性日渐突出。

在这里插入图片描述

摘要

Abstract—Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks
by themselves, trained end-to-end, pixels-to-pixels, improve on the previous best result in semantic segmentation. Our key insight is to
build “fully convolutional” networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference
and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet)
into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a
skip architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves improved segmentation of PASCAL VOC (30% relative improvement to 67.2% mean IU on 2012), NYUDv2, SIFT Flow, and PASCAL-Context, while inference takes one tenth of a second for a typical image

翻译:卷积网络是一种强大的视觉模型,它可以产生层次化特征。我们展示了卷积网络这种端到端、像素对像素的训练模型,超过了语义分割的最新技术水平。本文的关键点是构建了“全卷积”神经网络,它是一种输入尺寸任意的端对端神经网络,同时网络有着高效的学习和推理过程。我们定义并详细说明了全卷积神经网络的结构,解释它们在像素位置密集型预测任务中的应用,并得出与先前模型之间的连接。本文将经典的分类网络(AlexNet,VGG16,GoogleNet)整合进全卷积神经网络,经过微调这些网络的学习表征方式来使他们适用于分割任务。然后,本文定义了跳结构将深层、粗糙的语义信息和浅层、精细的表层信息结合,产生准确精细的分割结果。本文提出的全卷积神经网络在PASCAL VOC、NYUDv2、SIFT Slow数据集取得了目前最好的分割结果,对这些数据集中的典型图像,每张的推理过程只需要不到0.2秒。其中在PASCAL VOC数据集中达到了62.2%的平均交并比。

摘要总结

主要成就:端到端、像素到像素训练方式下的卷积神经网络超过了现有语义分割方向最先进的技术

核心思想:搭建了一个全卷积网络,输入任意尺寸的图像,经过有效推理和学习得到相同尺寸的输出

主要方法:将当前分类网络改编成全卷积网络(AlexNet、VGGNet和GoogLeNet)并进行微调设计了跳跃连接将全局信息和局部信息连接起来,相互补偿

实验结果:在PASCAL VOC、NYUDv2和SIFT Flow数据集上得到了state-of-the-art的结果。

分割术语

pixel-wise(pixels-to-pixels):像素级别
每张图片都是由一个个pixel组成的,pixel是图像的基本单位

image-wise:图像级别
比如一张图片的标签是狗,即“狗”是对整个图片的标注

patch-wise:块级别
介于像素级别和图像级别之间,每个patch都是由好多个pixel组成的

patchwise training:
是指对每一个感兴趣的像素,以它为中心取一个patch(小块),然后输入网络,输出则为该像素的标签

局部信息与全局信息

  • 局部信息
    提取位置:浅层网络中提取局部信息
    特点:物体的几何信息比较丰富对应的感受野较小
    目的:有助于分割尺寸较小的目标有利于提高分割的精确程度

  • 全局信息
    提取位置:深层网络中提取全局信息
    特点:物体的空间信息比较丰富对应的感受野较大
    目的:有助于分割尺寸较大的目标有利于提高分割的精确程度

在这里插入图片描述

感受野(RF)

在卷积神经网络中,决定某一层输出结果中一个元素所对应的输入层的区域大小,被称作感受野。通常来说,大感受野的效果要比小感受野的效果
更好。由公式可见,stride越大,感受野越大。但是过大的stride会使featuremap保留的信息变少。因此,在减小stride的情况下,如何增大
感受野或使其保持不变,称为了分割中的一大问题。

感受野的计算公式

在这里插入图片描述

当前层的感受野 =RF(上一层感受野) + (K-1) x S

1x1卷积

在这里插入图片描述
FCN网络中,将CNN网络的后三层全部转化为1*1的卷积核所对应等同向量长度的多通道卷积层。整个网络模型全部都由卷积层组成,没有全连接层产生的向量。CNN是图像级的识别,也就是从图像到结果。而FCN是像素级的识别,标注出输入图像上的每一个像素最可能属于哪一类别。

上采样与转置卷积

本文没有沿用以往的插值上采样(lnterpolation),而是提出了新的上采样
方法,即反卷积(Deconvolution)。反卷积可以理解为卷积操作的逆运算,反卷积并不能复原因卷积操作造成的值的损失,它仅仅是将卷积过程中的步骤反向变换一次,因此它还可以被称为转置卷积。

在这里插入图片描述

反卷积的计算公式与卷积特征图输出的计算公式相反

卷积:input - k +2p/stride +1

而转置卷积的计算公式是其一个逆过程

转置卷积:= (input-1)x stride +k -2p (计算输出特征图尺寸的公式)

算法讲解

在这里插入图片描述

在这里插入图片描述
32s是指上采样32倍还原到图片原来的大小。(16s与8s同理)

FCN32S

直接使用转置卷积来进行上采样将图片恢复到32倍的大小

在这里插入图片描述

FCN16S

在FCN16S中我们融合了Maxpooling4中的相关的信息。

在这里插入图片描述

FCN8s

同理在FCN8s中我们需要使用maxpooling3和Maxpooling4中的特征图

先从32按提升到16在将16继续进行提升到32

在这里插入图片描述

损失计算

分割中的损失的计算是按照每个像素来进行计算求解的。

和分类类似通常也使用交叉熵损失来进行计算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/694101.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【西瓜书】9.聚类

聚类任务是无监督学习的一种用于分类等其他任务的前驱过程,作为数据清洗,基于聚类结果训练分类模型 1.聚类性能度量(有效性指标) 分类任务的性能度量有错误率、精度、准确率P、召回率R、F1度量(P-R的调和平均)、TPR、FPR、AUC回归…

流程的控制

条件选择语句 我们一般将条件选择语句分为三类: 单条件双条件多条件 本篇文章将分开诉说着三类。 单条件 单条件的语法很简单: if (条件) {// 代码}条件这里我们需要注意下,可以向里写入两种: 布尔值布尔表达式 当然&…

【算法刷题 | 动态规划08】6.9(单词拆分、打家劫舍、打家劫舍||)

文章目录 21.单词拆分21.1题目21.2解法:动规21.2.1动规思路21.2.2代码实现 22.打家劫舍22.1题目22.2解法:动规22.2.1动规思路22.2.2代码实现 23.打家劫舍||23.1题目23.2解法:动规23.2.1动规思路23.2.2代码实现 21.单词拆分 21.1题目 给你一…

Unity动画录制工具在运行时录制和保存模型骨骼运动的方法录制动画给其他角色模型使用支持JSON、FBX等格式

如果您正在寻找一种在运行时录制和保存模型骨骼运动的方法,那么此插件是满足您需求的完美解决方案。 实时录制角色运动 将录制到的角色动作转为动画文件 将录制好的动作给新的角色模型使用,完美复制 支持导出FBX格式 操作简单,有按钮界面…

Nacos的配置中心

1.前言 除了注册中心和负载均衡之外, Nacos还是⼀个配置中心, 具备配置管理的功能. Namespace 的常用场景之一是不同环境的配置区分隔离, 例如开发测试环境和⽣产环境的配置隔离。 1.1 为什么需要配置中心? 当前项目的配置都在代码中,会存…

网络基础-IP协议

文章目录 前言一、IP报文二、IP报文分片重组IP分片IP分片示例MTUping 命令可以验证MTU大小Windows系统:Linux系统: 前言 基础不牢,地动山摇,本节我们详细介绍IP协议的内容。 一、IP报文 第一行: 4位版本号指定IP协议的版本&#…

原来你长这个样子啊,Java字节码文件

字节码文件 字节码文件是一种二进制文件,扩展名为.class 通过 javac 将源码编译得到,是一种中间形式的代码,这种中间形式的代码让Java有了“一次编译,多次运行”的跨平台特点。 字节码文件的组成 由5大组成部分:基础…

9.3 Go 接口的多态性

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

Python第二语言(六、Python异常)

目录 1. 捕获异常(try: except: else: finally:) 1.1 概念 1.2 基础语法(try: except:) 1.3 捕获异常(异常也有类型) 1.4 捕获多个异常(try:except(Name…

UI学习的案例——照片墙

照片墙案例 在实现照片墙案例之前先讲一下userInteractionEnable这个属性。 首先这个属性属于UIView,这个属性是bool类型,如果为YES的话,这个UIView会接受有关touch和keyboard的相关操作,然后UIView就可以通过相应的一些方法来处…

C语言详解(联合和枚举)

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥个人主页:奋斗的小羊 💥所属专栏:C语言 🚀本系列文章为个人学习笔记,在这里撰写…

多粒度特征融合(细粒度图像分类)

多粒度特征融合(细粒度图像分类) 摘要Abstract1. 多粒度特征融合1.1 文献摘要1.2 研究背景1.3 创新点1.4 模型方法1.4.1 Swin-Transformer1.4.2 多粒度特征融合模块1.4.3 自注意力1.4.4 通道注意力1.4.5 图卷积网络1.4.6 基于Vision-Transformer的两阶段…

SpringBoot集成缓存功能

1. 缓存规范 Java Caching定义了五个核心接口,分别是:CachingProvider、CacheManager、Cache、Entry和Expiry。 CachingProvider:定义了创建、配置、获取、管理和控制多个CacheManager。一个应用可以在运行期访问多个CachingProvider。CacheM…

玉米粒计数检测数据集VOC+YOLO格式107张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):107 标注数量(xml文件个数):107 标注数量(txt文件个数):107 标注类别…

预备知识----技术架构演进之路

单机架构 简介:应用服务和数据库服务共用一台服务器。 出现原因:出现在互联网早期,访问量较小,单机足以满足需求。 架构工作原理:通过应用(划分了多个模块)和数据库在单个服务器上写作完成业务…

进阶篇01——存储引擎

MySQL体系结构 存储引擎 引擎有多种类型,MySQL支持多种存储引擎,默认的存储引擎为innodb。不同的存储引擎有不同的特点,适用不同的场景。 innodb存储引擎 简介 innodb的逻辑存储结构 MYISAM存储引擎 memory存储引擎 三种引擎特点对比&…

《python程序语言设计》2018版第5章第48题以0,0为圆心 绘制10个左右的同心圆

在0,0点处绘制10个圆。 其实这个题先要记住python不会0,0为原点进行绘画。 它是按半径来画,所以我们要先把turtle这个小画笔送到它应该去的起点。(我经常有这样的错觉,每次都是这样想办法把自己拉回来) 我…

【目标跟踪网络训练 Market-1501 数据集】DeepSort 训练自己的跟踪网络模型

前言 Deepsort之所以可以大量避免IDSwitch,是因为Deepsort算法中特征提取网络可以将目标检测框中的特征提取出来并保存,在目标被遮挡后又从新出现后,利用前后的特征对比可以将遮挡的后又出现的目标和遮挡之前的追踪的目标重新找到&#xff0…

STM32 proteus + STM32Cubemx仿真教程(第二课按键教程)

文章目录 前言一、STM32按键的原理二、STM32Cubemx创建工程三、proteus仿真电路图四、程序代码编写4.1函数介绍4.2使用按键点亮LED灯 总结 前言 本篇文章开始带大家学习如何使用proteus和STM32Cubemx来完成STM32的学习,第二节课我们先来学习按键的用法。 proteus使…

景区ar互动大屏游戏化体验提升营销力度

从20世纪60年代的初步构想,到如今全球范围内无数企业的竞相投入,AR增强现实技术已成为引领科技潮流的重要力量。而在这一浪潮中,中国的AR公司正以其独特的魅力和创新力,崭露头角。 中国的AR市场正在迎来前所未有的发展机遇。如今&…