9.2.1 简述图像分割中经常用到的编码器-解码器网络结构的设计理念。

9.2 图像分割

场景描述

图像分类图像识别图像分割
不同标注出每个目标的类别像素级别的图像识别,标注出图像中每个像素所属的对象类别
不同整张图像进行识别进行稠密像素级分类
应用场景视频软件中的背景替换、避开人物的弹幕模板自动驾驶以及医疗辅助判断
分类前景分割(foreground segmentation)、
语义分割(semanticsegmentation)、
实例分割(instance segmentation)
2018年开始兴起的全景分割(panoptic segmentation)(图9.3)
常用数据集PASCAL VOC2012[23]、
MS COCO[25]、
CityScapes[24]
  • 图像分割是指像素级别的图像识别,即标注出图像中每个像素所属的对象类别。
  • 与图像分类对整张图像进行识别不同,图像分割需要进行稠密的像素级分类。
  • 图像分割的应用场景有很多,比如我们看到的视频软件中的背景替换、避开人物的弹幕模板、自动驾驶以及医疗辅助判断等都使用了基于图像分割的技术。

根据应用场景的不同,图像分割任务可以更精细地划分成以下几类:

  • 前景分割(foreground segmentation),
  • 语义分割(semanticsegmentation),更注重类别之间的区分;
  • 实例分割(instance segmentation),更注重个体之间的区分;
  • 2018年开始兴起的全景分割(panoptic segmentation),如图9.3所示[22],语义分割和实例分割结合

学术界常用的图像分割方面的数据集有PASCAL VOC2012[23]、MS COCO[25]和CityScapes[24]。

知识点:图像分割、编码器-解码器结构、空洞卷积、DeepLab算法

9.2.1 简述图像分割中经常用到的编码器-解码器网络结构的设计理念。

  • 图像分割中的编码器可视为特征提取网络,通常使用池化层逐渐缩减输入数据的空间维度
  • 解码器则通过上采样/反卷积等网络层来逐步恢复目标的细节和相应的空间维度

图9.4以U-Net为例,给出了一个具体的编码器-解码器网络结构[27]。

编码器中,引入池化层可以增加后续卷积层的感受野,并能使特征提取聚焦在重要信息中,降低背景干扰,有助于图像分类。

问题:然而,池化操作使位置信息大量流失,经过编码器提取出的特征不足以对像素进行精确的分割。这给解码器逐步修复物体的细节造成了困难,使得在解码器中直接由上采样/反卷积层生成的分割图像较为粗糙。

解决:因此,一些研究人员提出在编码器和解码器之间建立快捷连接(shortcut/skip connection),使高分辨率的特征信息参与到后续的解码环节,进而帮助解码器更好地复原目标的细节信息。

列举出2~3个基于编码器-解码器结构的图像分割算法。

经典的图像分割算法 FCN (Fully Convolutional Networks) [26]、U-Net[27]和SegNet[28]都是基于编码器-解码器的理念设计的。

FCN和U-Net是最先出现的编码器-解码器结构,都利用了快捷连接向解码器中引入编码器提取的特征。

  • FCN中的快捷连接是通过将编码器提取的特征进行复制叠加到之后的卷积层提取出的特征上,作为解码器的输入来实现的。
  • 与FCN不同,SegNet提出了最大池化索引(max-pooling indicies)的概念,快捷连接传递的不是特征本身,而是最大池化时所使用的索引(位置坐标)。利用这个索引对输入特征进行上采样,省去了反卷积操作,这也使得SegNet比FCN节省了不少存储空间

[22] KIRILLOV A, HE K, GIRSHICK R, et al. Panoptic segmentation[J].arXiv preprint arXiv:1801.00868, 2018.
[23] EVERINGHAM M, WINN J. The PASCAL visual object classes challenge 2012(VOC2012) development kit[J]. Pattern Analysis, Statistical Modelling and Computational Learning, Tech. Rep, 2011.
[24] LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects incontext[C]//European Conference on Computer Vision. Springer, 2014: 740-755.
[25] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 3213-3223.
[26] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015.
[27] RONNEBERGER, OLAF, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015:234-241.
[28] BADRINARAYANAN V, KENDALL Alex, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,2017.

下集预告:9.2.2 DeepLab系列模型中每一代的创新是什么?是为了解决什么问题?

参考文献:

《百面深度学习》 诸葛越 江云胜主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-53097-4

2020年7月第1版(2020年7月北京第二次印刷)

推荐阅读:

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络(1989年提出,1998年改进)

AlexNet网络(2012年提出)

VGGNet网络(2014年提出)

LeNet、AlexNet、VGGNet总结

GoogLeNet网络(2014年提出)

ResNet网络(2015年提出)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/716292.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

时序预测 | MATLAB实现TCN-Transformer时间序列预测

时序预测 | MATLAB实现TCN-Transformer时间序列预测 目录 时序预测 | MATLAB实现TCN-Transformer时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.MATLAB实现TCN-Transformer时间序列预测; 2.运行环境为Matlab2023b及以上; 3.data为数…

微服务开发与实战Day07 - MQ高级篇

一、消息可靠性问题 首先,分析一下消息丢失的可能性有哪些。 消息从发送者发送消息,到消费者处理消息,需要经过的流程是这样的: 消息从生产者到消费者的每一步都可能导致消息丢失: 发送消息时丢失: 生产…

[个人感悟] 缓存应该考察哪些问题?

前言 缓存, 根据冯诺依曼计算机模型, 无非是为了更高效的交互, 使用内存IO替换本地磁盘IO. 又因为内存的稀缺性, 其必然存储的是热点数据, 且较小的数据. [虽然直至今日, 已有使用缓存作为数据库的使用, 但是与磁盘IO相比, 其价格仍是数倍之多.] 当涉及缓存问题时, 又分为本地…

java基础知识总结【markdown】

java基础知识总结【markdown】 开发工具Java数据类型浮点数使用陷阱: 2.7 和 8.1 / 3 比较 常用字符编码基本数据类型转换关键字,保留字**原码、反码、补码** 开发工具 editplus、notepad、Sublime Text、IDEA、Eclipse Java数据类型 浮点数使用陷阱: 2.7 和 8.1 …

开源复刻apple 数学笔记;纯C++实现了ChatGLM系列模型;腾讯混元文生图模型发布新版本并开源训练代码

✨ 1: AI Math Notes AI Math Notes 是一个交互式绘图应用,可绘制并计算数学方程。 AI Math Notes 受到Apple在WWDC 2024上的“Math Notes”演启发,开发的一个互动式绘图应用程序,用户可以在画布上绘制数学方程。一旦方程被绘制完成&#x…

英伟达发布Nemotron-4 340B通用模型:专为生成合成数据设计的突破性AI

引言 2023年6月14日,英伟达发布了Nemotron-4 340B通用模型,专为生成训练大语言模型的合成数据而设计。这一模型可能彻底改变训练大模型时合成数据的生成方式,标志着AI行业的一个重要里程碑。本文将详细介绍Nemotron-4 340B的各个方面&#x…

【Stable Diffusion教程】AI绘画工具SD如何安装使用?三种方法带你轻松上手!(附安装包和云端部署教程)

大家好,我是向阳 AI绘画专业工具Stable Diffusion在哪里用怎么安装?这一期给大家介绍三种使用SD的方法,无论你有没有专业显卡都能轻松上手SD哦~ 一、SD本地部署秋葉安装包安装方法 如果你有进一步的需求,想要学习SD…

MySQL Server和Server启动程序(二)

mysql.server — MySQL Server启动脚本 Unix和类Unix系统上的MySQL发行版包括一个名为MySQL.server的脚本,该脚本使用mysqld_safe启动MySQL服务器。它可以在Linux和Solaris等系统上使用,这些系统使用System V风格的运行目录来启动和停止系统服务。它也被…

HTTP 概述

HTTP 概述 HTTP 是一种用于获取资源(如 HTML 文档)的协议。 它是 Web 上任何数据交换的基础,它是一种客户端-服务器协议,这意味着请求由接收方(通常是 Web 浏览器)发起。 一个完整的文档是从获取的不同子文…

基于GA遗传算法的多机无源定位系统GDOP优化matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于GA遗传算法的多机无源定位系统GDOP优化matlab仿真。仿真输出GDOP优化结果,遗传算法的优化收敛曲线以及三维空间坐标点。 2.测试软件版本以及运行…

ArcGIS制作规划图卫星影像地图虚化效果

文章目录 一、效果展示二、加载数据三、效果制作四、注意事项一、效果展示 二、加载数据 订阅专栏后,从csdn私信查收实验数据资料,加载ArcGIS制作规划图卫星影像地图虚化效果.rar中的数据,如下所示: 三、效果制作 1. 创建掩膜图层 新建一个矢量图层,因为主要是作图需要…

SAP 采购订单 价格 条件权限控制 授权账户

采购订单 价格 条件权限控制 授权账户 1、事务代码 me21/22/23/N 2、权限对像如下几个 M_BEST_BSA/EKG/EKO/WRK ACTVT 09 SELECT DISTINCT a.* FROM ( SELECT DISTINCT agr_users.uname FROM agr_1251INNER JOIN agr_users ON agr_1251.agr_name agr_users.agr_name AND…

ps贴图技巧

去花瓣网找一个抱枕素材2.框选抱枕区域,填充色块,再转化位置智能图像,在ctrlt变形,再自定义变形(膨胀) 3.把要贴的素材拖进色块区域

Dell ECS 数据移动到 MinIO

这里写自定义目录标题 欢迎使用Markdown编辑器配置源存储桶和目标存储桶配置Dell ECS源存储桶配置 MinIO 目标存储桶 数据移动策略向 MinIO 移动数据使用 Dremio 向 MinIO 进行数据移动 数据移动监控和记录为什么要迁移到 MinIO?新的改变功能快捷键合理的创建标题&a…

SpringBoot的简单介绍

1.什么是spring boot 简单的说,spring boot就是整合了很多优秀的框架,不用我们自己手动的去写一堆xml来进行配置。 从本质上来说,Spring Boot就是Spring,它做了那些没有它你也会去做的Spring Bean配置。它使用“习惯优于配置”(…

基于R-Tree的地理空间数据分析加速

几年前,我正在做一个业余项目。我想创建一个 Web 应用程序,推荐当地的特色景点,例如咖啡馆、书店或隐藏的酒吧。我的想法是在地图上显示用户触手可及的所有兴趣点。我的数据集中有数十万个点,我必须巧妙地过滤用户给定范围内的数据…

GPU的工作原理

location: Beijing 1. why is GPU CPU的存储单元和计算单元的互通过慢直接促进了GPU的发展 先介绍一个概念:FLOPS(Floating Point Operations Per Second,浮点运算每秒)是一个衡量其执行浮点运算的能力,可以作为计算…

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch2 贝尔曼公式

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍 1、学堂在线 视频 习题 2、相应章节 过电子书 复习 GitHub界面链接 3、总体 MOOC 过一遍 学堂在线 课程页面链接 中国大学MOOC 课程页面链接 B 站 视频链接 PPT和书籍下载网址: 【github链接】 onedrive链接…

算法课程笔记——线段树维护哈希

算法课程笔记——线段树维护哈希 提前空出来

手机NFC功能别再闲置,打开它,体验安全、智能生活!

最初仅在中高端手机中普及的NFC功能,随着技术成熟、成本降低,如今已逐渐成为千元手机的标配,在华为等一众品牌手机中广泛应用。而随着国内NFC功能应用的兴起,围绕NFC技术耗电情况与潜在风险的讨论也越来越多。其实,了解…
最新文章