自动驾驶预测-决策-规划-控制学习(5):图像分割与语义分割入门

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 论文题目:Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey
  • 前言:图像分割与语义分割
  • 一、图像分割是什么?
    • 1.语义分割只区分像素类别,而不区分类别中的具体单位
    • 2.实例分割更进一步,把像素区域中每一个个体也能区别出来
  • 二、语义分割模型演变过程
    • 1.FCN 基于全卷积网络
    • 2.DeepLab
    • 3.基于自上而下/自下而上方法
      • ①Deconvnet
      • ②U-Net
    • 4.基于全局上下文
      • ①ParseNet
      • ②GCN
    • 5.Based on receptive field enlargement and multi-scale contextincorporation 基于感受野扩大和多尺度上下文合并
      • ①PSPNet
      • ②Gated-SCNN
  • 三、总结讨论
    • 1.研究内容:对基于CNN的不同语义分割模型进行调查。描述了不同的最新语义分割模型的架构细节
    • 2.论文的工作
    • 3.概括性的神经网络模型分类
    • 4.不同模型的性能对比


论文题目:Evolution of Image Segmentation using Deep Convolutional Neural Network: A Survey

前言:图像分割与语义分割

对于图像的分析,传统的检测任务,比如这幅图的人,用标注框来表示。
在这里插入图片描述
而图像分割,则是针对每一个像素都可以被认定为不同的语义信息,比如这里红色区域的像素点属于人,蓝色属于天空,浅绿色属于草地,深绿色属于树木。
在这里插入图片描述

一、图像分割是什么?

在这里插入图片描述
图像分割于把图像分成若干个特定的、具有独特性质的区域并提取出感兴趣的目标。
在这里插入图片描述
如上图所示分割可以分为三类

1) 语义分割:像素级分类,将图像分割成具有语义信息的区域,为每个像素分配一个语义标签。

2)实例分割:检测每个object instance,实例分割不仅关注像素级别的语义信息,还区分不同物体实例之间的边界。

3)全景分割:上面二者的结合。既需要分割出全部像素,同类像素不同物体间不能有重合。图片内的每个像素都必须分配 semantic label 和 instance id. 如 Figure 1d. 相同 label 和相同 id 的像素属于相同 object。

1.语义分割只区分像素类别,而不区分类别中的具体单位

在这里插入图片描述
他分割出来属于人的一大块像素区域,但是无法具体把每个人都抠出来。

2.实例分割更进一步,把像素区域中每一个个体也能区别出来

在这里插入图片描述

二、语义分割模型演变过程

图像语义分割的发展主要经历了三个时期.

  1. 传统方法时期: 采用阈值法、边缘检测法、区域法等对图像进行分割,这些方法只能利用图片中边缘、颜色、纹理等低级特征,分割结果并不精确.
  2. 传统分割方法和 CNN 相结合的时期: 先利用传统算法处理图像,再利用 CNN 模型训练分类器,虽然带来了分割精度的提升,但依旧受到传统方法的限制.
  3. 基于 CNN 时期: 全卷积神经网络( FCN) 的出现开启了图像语义分割领域的新篇章.FCN 将 CNN 中的全连接层转换为卷积层,首次实现了端到端的、像素级的分类.FCN的提出为研究人员提供了全新的研究思路,在 CNN 和 FCN的基础上,U-Net、SegNet、DeconvNet、RefineNet、EncNet等模型相继出现,为语义分割领域的发展做出了杰出贡献。

论文主要从第三个时期的一些网络来讲述的。

1.FCN 基于全卷积网络

在这里插入图片描述
方法:
(1)将全连接层替换为卷积层:从而可以接收不同大小图片的输入;
(2)其次可以进行像素级分类。在恢复高分辨率图像时,结合前面卷积层的信息,进行融合,相加。
优点:以前只能输入固定大小的图片,改进后可以不限制图片大小。
不足:FCN只使用局部信息进行语义分割,但只有局部信息会导致语义分割相当模糊,因为它没有全局信息,在结合前面卷积层时都是局部信息。

数据集:PASCAL VOC 2011

2.DeepLab

方法:
(1)基于全卷积网络(FCN)的架构,并结合了扩张卷积(dilated/atrous convolution)和空洞空间金字塔池化(ASPP)等技术。
(2)通过多尺度信息的融合来提高图像分割的性能。它使用了扩张卷积来增加感受野,以便更好地捕捉上下文信息。
(3)ASPP用于在不同尺度上对特征进行池化操作,通过并行的多个卷积核以不同的扩张率进行卷积操作,从而捕捉到不同尺度的上下文信息。这样可以在不增加网络参数和计算量的情况下,有效地提高模型对不同尺度目标的分割能力。

优点:有助于保持图像的空间分辨率,产生密集预测
缺点:将图像像素与其全局上下文隔离开来,这使得它容易发生错误分类。
在这里插入图片描述

3.基于自上而下/自下而上方法

①Deconvnet

方法:
(1)一种卷积和反卷积网络。该网络在VGG16的基础上进行修改,去掉了最后的分类层,增加了池化和正则化层。反卷积网络与卷积网络在结构上相反,也包含多个反卷积、去聚合和正则化层。除了反卷积网络的最后一层生成像素级别的类别概率图外,网络中的所有层都提取特征图。
(2)应用了反池化来重建激活的原始大小,并通过使用多个学习到的滤波器进行类似卷积的操作来增加稀疏但放大的特征图的密度。

优点:该方法对多尺度物体具有精细细节,并减少了训练复杂性和内存消耗。
在这里插入图片描述

②U-Net

方法:
(1)U-Net 是一种U形语义分割,具有收缩路径和扩展路径。

(2)在收缩路径中,通过多次使用卷积和池化操作,网络逐渐减小图像的尺寸,并提取出更高级别的特征信息。这些操作使得网络能够理解图像中的重要特征。

(3)在扩展路径中,通过上采样和卷积操作,网络将特征图的尺寸恢复到原始图像的尺寸,并与收缩路径中相应的特征图进行拼接。这样可以将高级别的特征信息与空间信息相结合,以获得更准确的分割结果。

(4)最后,通过一系列卷积和非线性激活函数,网络进一步提取特征并增强分割的准确性。

优点:强大的特征表示能力、上采样和拼接操作、适用于小样本数据和可扩展性。
缺点:容易出现过拟合、对大尺寸图像处理较慢和对目标形状变化较大的图像分割效果较差。
在这里插入图片描述

4.基于全局上下文

①ParseNet

(1)对全卷积神经网络的改进。添加了全局特征或全局上下文信息,以实现更好的细分。作者使用了全局平均池来提取全局上下文信息进而执行反池化,以得到与输入特征图相同的大小。将原始特征图和反池化后的特征图进行组合以预测最终的分类得分。

优点:能够捕捉到图像的全局上下文信息,从而提供更全面的语义理解能力。
缺点:计算量较大:引入全局特征和反池化操作会增加计算量,特别是在处理大尺寸图像时,可能会导致较高的计算成本和较慢的推理速度。

②GCN

GCN:与ParseNet一样,全局卷积网络也使用了全局特征和局部特征,使像素级预测更加准确。语义分割的任务是分类和定位任务的结合。这两个任务在本质上是相互矛盾的。分类应该是变换不变的,定位应该是变换敏感的。以前的最先进的模型更注重本地化,而不是分类。在GCN中,作者没有使用任何完全连接的层或全局池化层来保留空间信息。另一方面,他们使用了一个大的核大小(全局卷积)来使他们的网络变换在像素级分类的情况下不变。为了进一步细化边界,作者使用了边界细化(BR)块。如图12所示,使用ResNet作为骨干。GCN模块被插入到网络中,然后插入BR模块。然后用反褶积层对较低分辨率的分数图进行上采样,然后与较高的分数图相加,生成新的分数图进行最终分割。

5.Based on receptive field enlargement and multi-scale contextincorporation 基于感受野扩大和多尺度上下文合并

①PSPNet

Zhao等人提出的金字塔场景解析网络(PSPNet)也使用全局上下文信息进行更好的分割。在此模型中,作者在使用扩张FCN提取的最后一个特征图的顶部使用了金字塔池化模块。在“金字塔池化”模块中,使用4个不同金字塔级别(分别具有1×1、2×2、3×3和6×6)的全局池化操作得到4个全局特征图,随后应用1×1卷积层对下采样的特征图进行特征提取,然后并上采样到原始大小。最终这4个特征图外加输入特征图被合并在一起以包含局部和全局上下文信息。然后,它们再次由卷积层处理以生成逐像素预测。在图13中,显示了PSPNet的体系结构。

②Gated-SCNN

Takikawa等人提出了门控形状CNN(GSCNN)[94]用于语义分割。 如图15所示,GSCNN由两个网络流组成:常规流和形状流。 常规流是用于处理语义区域信息的经典CNN。 形状流由多个门控卷积层(GCL)组成,该层使用来自常规流的低级特征图来处理区域的边界信息。 两种流的输出都馈入融合模块。 在融合模块中,两个输出都使用Atrous Special Pyramid Pooling [83]模块进行组合。 ASPP的使用有助于他们的模型保留多尺度的上下文信息。 最终,Fusion模块生成了具有精确边界的对象的语义区域。

三、总结讨论

1.研究内容:对基于CNN的不同语义分割模型进行调查。描述了不同的最新语义分割模型的架构细节

2.论文的工作

①给出了基于CNN的图像分类和演化概况。
②详细探讨了一些基于CNN的流行的最先进的分割模型。
③比较这些模型的训练细节,以便清楚地了解超参数调优。
④比较这些最先进的模型在不同数据集上的性能指标。

3.概括性的神经网络模型分类

(1)基于全卷积网络(FCN)。 FCN的主要变化是基本模型VGG16,双线性插值技术(用于对最终特征图进行上采样)和跳层连接(用于在最终层中组合低层和高层特征以进行细粒度语义分割),从而帮助该模型获得了最先进的结果。然而,FCN分割结果非常模糊。 为了减少歧义,从整个图像中获得上下文信息非常有帮助。 在[79]和[80]中,作者使用了上下文特征并获得了最先进的性能。 最近,在[81]中,作者使用完全卷积的双流融合网络进行交互式图像分割。

(2)Chen等人在语义分割中融合了扩张卷积和条件随机场(CRF),并在3.2.2节中讨论了DeepLab [82]。 后来,作者在DeepLabv2中引入了ASPP [83]。 DeepLabv3 [84]走得更远,并使用了改进的ASPP模块来合并多个上下文。 DeepLab的所有三个版本均取得了良好的效果。

(3)Deconvnet [85]使用卷积网络,然后使用层次结构相反的反卷积网络进行语义分割,如3.2.3节所述。 Ronneberger等人使用了一种称为U-Net的U形网络[86],该网络具有收缩和扩展的路径来进行语义分割。收缩路径提取特征图并减少空间信息,这是传统的卷积网络。扩展路径将收缩的特征图作为输入并应用反卷积。在扩展路径的每个步骤中,网络将缩小的反卷积特征图与来自收缩路径的相应裁剪特征图连接起来。通过这种方式,U-Net将高级特征和低级空间信息结合在一起,以实现更精确的分段。第3.2.4节更详细地讨论了该模型。最近,在[87]中,作者将带有multiRes块的U-Net用于多模态生物医学图像分割,并且比使用经典U-Net获得了更好的结果。 SegNet [88]是用于语义分段的编码器-解码器网络。编码器是基本的VGG16网络,不包括FC层。解码器与编码器相同,但是层在层次上相反。解码器使用卷积和反池化操作获得大小与输入图像相似的特征图,以精确定位已分割的对象。 SegNet在3.2.7节中讨论。除了一些单独的修改外,U-Net,Deconvnet和SegNet的基本体系结觉相似。这些体系结构的后半部分是前半部分的镜像。

(4)Liu等人在FCN [78]体系结构中混合了全局平均池和L2归一化层,并提出了ParseNet [89]在各种数据集中获得最新的结果。 赵等提出了金字塔场景解析网络(PSPNet)[90]。 他们在最后提取的特征图的顶部使用了金字塔聚合模块,以整合全局上下文信息以进行更好的分割。 Peng等人使用了大内核的全局卷积的思想来利用局部和全局特征的优势[91]。 金字塔注意力网络(PAN)[92],ParseNet [89],PSPNet [90]和GCN [91]使用全局上下文信息和局部特征进行更好的分割。 第3.2.6、3.2.9和3.2.8节将详细讨论这些模型。

(5)全卷积DenseNet [10]在[93,94]中用于解决语义分割问题。 DeepU-Net [95],基于ResNet的FCN,用于分割海域。 同时,ENet [96],ICNet [97]被用作自动驾驶汽车的实时语义分割模型。 最近的一些著作[98,99,100]结合使用了编码器-解码器体系结构和扩张卷积来进行更好的分割。 Kirillov等人[101] 在DeepLabV3 [84]和语义FPN [102]中使用了基于点的渲染,并产生了最新的语义分割模型。

4.不同模型的性能对比

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/330278.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vue3 实现简单计数器示例——一个html文件展示vue3的效果

目的&#xff1a;作为一个新手开发&#xff0c;我想使用 Vue 3 将代码封装在 HTML 文件中时&#xff0c;进行界面打开展示。 一、vue计数示例 学了一个简单计数器界面展示&#xff0c;代码如下&#xff1a; <!DOCTYPE html> <html lang"en"><head&…

嵌入式-Stm32-江科大基于标准库的GPIO的八种模式

文章目录 一&#xff1a;GPIO输入输出原理二&#xff1a;GPIO基本结构三&#xff1a;GPIO位结构四&#xff1a;GPIO的八种模式道友&#xff1a;相信别人&#xff0c;更要一百倍地相信自己。 &#xff08;推荐先看文章&#xff1a;《 嵌入式-32单片机-GPIO推挽输出和开漏输出》…

宏集干货丨探索物联网HMI的端口转发和NAT功能

来源&#xff1a;宏集科技 工业物联网 宏集干货丨探索物联网HMI的端口转发和NAT功能 原文链接&#xff1a;https://mp.weixin.qq.com/s/zF2OqkiGnIME6sov55cGTQ 欢迎关注虹科&#xff0c;为您提供最新资讯&#xff01; #工业自动化 #工业物联网 #HMI 前 言 端口转发和NAT功…

Qt纯代码实现UI界面

1.相关信息 设置编辑框内容的字体样式&#xff0c;包括加粗、下划线、斜体、蓝色、红色、黑色 2.界面展示 3.相关代码 #include "dialog.h" #include <QHBoxLayout> #include <QVBoxLayout> #include <QCheckBox> #include <QRadioButton> …

【软件测试学习笔记6】Linux常用命令

格式 command [-options] [parameter] command 表示的是命令的名称 []表示是可选的&#xff0c;可有可无 [-options]&#xff1a;表示的是命令的选项&#xff0c;可有一个或多个&#xff0c;也可以没有 [parameter]&#xff1a;表示命令的参数&#xff0c;可以有一个或多…

清晰光谱空间:全自动可调波长系统的高光谱成像优势

高光谱成像技术 高光谱成像技术是一种捕获和分析宽波长信息的技术&#xff0c;能够对材料和特征进行详细的光谱分析和识别。高光谱成像技术的实现通过高光谱相机&#xff0c;其工作原理是使用多个光学传感器或光学滤波器分离不同波长的光&#xff0c;并捕获每个波段的图像&…

前端:布局(用于div中有多行元素,一行只显示四个,最左或最右要紧贴父div,最顶层和最底层也要紧贴父div)

效果 一、flex实现 html <!DOCTYPE html> <html><head><title>Flexbox Layout</title><style>.container {display: flex;flex-wrap: wrap;justify-content: space-between;gap: 10px;border: 1px solid red;}.box {flex: 1 0 calc(25% …

rsync全面讲解

rsync 是一个常用的 Linux 应用程序&#xff0c;用于文件同步。 它可以在本地计算机与远程计算机之间&#xff0c;或者两个本地目录之间同步文件&#xff08;但不支持两台远程计算机之间的同步&#xff09;。它也可以当作文件复制工具&#xff0c;替代cp和mv命令。 它名称里面…

逆向使用webpack打包的网站

webpack webpack 是 JavaScript 应用程序的模块打包器,可以把开发中的所有资源&#xff08;图片、js文件、css文件等&#xff09;都看成模块&#xff0c;通过loader&#xff08;加载器&#xff09;和 plugins &#xff08;插件&#xff09;对资源进行处理&#xff0c;打包成符…

JRTP实时音视频传输(2)-使用TCP通信的案例

1.创建自己的demo 先将example1拷贝为myclienttcp.cpp和myservertcp.cpp cp example1.cpp myclienttcp.cpp cp example1.cpp myservertcp.cpp 改写jrtplib/JRTPLIB/examples/CMakeLists.txt&#xff0c;添加myclienttcp和myservertcp编译 重新生成Makefile并编译 sudo cmak…

plc红绿灯程序

引言&#xff1a; PLC&#xff08;Programmable Logic Controller&#xff0c;可编程逻辑控制器&#xff09;是一种用于工业自动化控制的电子设备。西门子的SIMATIC S7-200是这类设备的一个流行系列&#xff0c;广泛应用于小型至中等规模的自动化项目中。它具有以下特点&#…

pytorch学习(一)线性模型

文章目录 线性模型 pytorch是一个基础的python的科学计算库&#xff0c;它有以下特点&#xff1a; 类似于numpy&#xff0c;但是它可以使用GPU可以用它来定义深度学习模型&#xff0c;可以灵活的进行深度学习模型的训练和使用 线性模型 线性模型的基本形式为&#xff1a; f ( x…

推荐一款性价比高的USB 协议分析仪

最近在入门学习USB 协议&#xff0c;USB 协议是出了名的晦涩难懂&#xff0c;调试过程中如果没有合适的工具帮助分析&#xff0c;就像电工没有电表笔一样&#xff0c;难以诊断各种奇难杂症。 于是网上找了一下USB 协议分析仪&#xff0c;一看价格超过3位数的就不考虑了&#x…

Java关键字static和final

一、final关键字是什么&#xff1f; 1、final可以用来修饰的结构&#xff1a;类、方法、变量 2、final用来修饰一个类&#xff1a;此类不能被其它类继承。当我们需要让一个类永远不被继承&#xff0c;此时就可以用final修饰&#xff0c;但要注意&#xff1a;final类中所有的成…

ArcGIS Pro 如何新建布局

你是否已经习惯了在ArcGIS中数据视图和布局视图之间来回切换&#xff0c;到了ArcGIS Pro中却找不到二者之间切换的按钮&#xff0c;即使新建布局后却发现地图怎么却是一片空白。 这一切的一切都是因为ArcGIS Pro的功能框架完全不同&#xff0c;这里为大家介绍一下在ArcGIS Pro…

微信小程序(五)下拉刷新

注释很详细&#xff0c;直接上代码 上一篇 新增内容&#xff1a; 1. 下拉刷新 2. 下拉页面背景颜色 3. 设置是否可滚动 4. 设置导航栏模式 源码&#xff1a;(实际上不能加注释但这里为了方便解释就加上了) index.json {//默认模式&#xff0c;另一种自定义模式是custom//自定义…

课表排课小程序怎么制作?多少钱?

在当今的数字化时代&#xff0c;无论是购物、支付、点餐&#xff0c;还是工作、学习&#xff0c;都离不开各种各样的微信小程序。其中&#xff0c;课表排课小程序就是许多教育机构和学校必不可少的工具。那么课表排课小程序怎么制作呢&#xff1f;又需要多少钱呢&#xff1f; …

RK3399平台入门到精通系列讲解(USB篇)UDC 层 usb_gadget_probe_driver 接口分析

🚀返回总目录 文章目录 一、UDC:usb_gadget_probe_driver函数分析二、usb_gadget_driver 结构详细介绍三、usb_udc 结构详细介绍一、UDC:usb_gadget_probe_driver函数分析 UDC层的一项基本任务是向上层提供usb_gadget_probe_driver()接口函数。 上层调用者为composite.c中…

坚持刷题 | 二叉树的层序遍历

坚持刷题&#xff0c;老年痴呆追不上我&#xff0c;今天刷&#xff1a;二叉树的层序遍历 题目 102二叉树的层序遍历 考察点 数据结构基础&#xff1a; 能够正确地使用二叉树数据结构&#xff0c;并了解二叉树的基本性质。编程基础&#xff1a; 能够熟练使用Java编程语言&a…

【linux】Debian10.0配置vsftpd

一、基本步骤 在 Debian 10 (Buster) 上要配置 vsftpd (Very Secure FTP Daemon)&#xff0c;请按照以下步骤操作&#xff1a; 1. 安装 vsftpd: sudo apt update sudo apt install vsftpd 2. 在启动配置之前&#xff0c;建议备份原始的配置文件: sudo cp /etc/vsftpd.con…