图像分类神经网络综述

一、图像分类神经网络发展的四个阶段

  • 经典深度卷积神经网络模型
  • 注意力机制卷积神经网络模型
  • 轻量级卷积神经网络模型
  • 神经网络架构搜索模型

二、深度卷积神经网络模型

1、LeNet

        其包含 3 个卷积层 、2 个池化层和 2 个全连接层 , 每个卷积层和全连接层均有可训练的参数, 为深度卷积神经网络的发展奠定了基础。
        缺点:复杂的图像分类任务则需要大规模数据集以及学习能力更强的网络模型。

2、AlexNet

        特点:该网络包含 5 个卷积层和 3 个全连接层, 输入图像经过卷积操作和全连接层的操作,最后输入具有 1 000 个节点的 Softmax 分类器完成图像分类。 该网络通过使用线性整流函数( rectifiled linearunit,ReLU) 作为激活函数,引入局部响应归一化 (local response normalization,LRN)缓解梯度消失问题;使用数据增强和 Dropout 技术大大缓解了过拟合问题;

3、NIN( net-work in network)

        特点:将卷积层替换为多层感知器卷积, 并将全连接层替换为全局平均池化层。 NIN 能学习 到更复杂和有用的特征,而参数量仅为 AlexNet 的十分之一。

4、ZFNet

        特点:与 AlexNet 相比,ZFNet 使用了反卷积可视化特征图,前部的层使用了更小的卷积核和步长,通过研究遮挡局部图像对图像分类结果的影响获得了决定图像类别的关键部位。

5、OverFeat网络

        特点:实现了利用一种卷积神经网络架构完成图像分类、定位和检测任务,OverFeat 网络的前几层采用卷积神经网络在图像的多个位置和多个尺度上以滑动窗口的方式提取特征,改变 OverFeat 网络的后几层,实现定位、检测任务。

6、VGGNet

        特点:解决了AlexNet卷积核过大导致参数量较大的问题,主要贡献在于通过堆叠采用 3 × 3 小卷积核的卷积层,增加了网络深度,提升了网络性能

7、googLeNet

        特点:采用了 Inception-v1 模块,该模块采用稀疏连接降低模型参数量的同时,保证了计算资源的使用效率,在深度达到 22 层的情况下提升了网络的性能。

        Inception-v2 模块( Ioffe Szegedy,2015) 在 Inception-v1 模 块 基 础 上 增 加 了 批 量 归 一 化 (batch normalization,BN)层和卷积分解,BN 算法减少了内部协方差转移,加速了网络的训练且缓解了梯度消失问题。

        Inception-v3 模块 (Szegedy 等, 2016a ) Inception-v2 模块基础上进行非对称卷积分解。

        Inception-v4 ( Szegedy 等,2016b)相比 Inception-v3 具有更统一的简化架 构、更多的 Inception 模块。

        Inception-ResNet 系列结构,其中Inception-ResNet-v1 网络在每个 Inception-ResNet 模块的最后加入了 1 × 1 卷积,Inception-ResNet-v2 网络对残差模块的输出进行了整形。

8、ResNet

        特点:残差块除了包含权重层,还通过越层连接将输入x 直接连到输出上;越层连接使得不同层的特征可以互相传递,一定程度上缓解了梯度消失问题

RoR模型:残差映射易于优化,则残差映射的残差映射更易优化,并据此在 ResNet 基础上逐级加入越层连接,构建了多级残差卷积神经网络,使得高层特征可以向低层传递,进一步抑制了梯度消失问题。

金字塔多级残差卷积神经网络:RoR模型会使得网络中特征信息传递不连贯,会损失一些与预测相关的有用信息,限制了网络的分类性能。金字塔网络通过线性逐步增加每个残差块的输出通道数,保证高级属性多样性的同时也保证了信息的连续性

广义残差块:

解决问题:ResNet 中的恒等映射导致不同特征的混合连接,然而在深度网络中,前部层学习的特征可能不再对后部层提供有用的信息。

特点:广义残差结构的模块单元是由残差流和瞬态流组成的并行结构,如图 7 所示,其中残差流包含越层连接且与原始残差块相似,瞬态流则是标准的卷积层,另外每个广义残差块中还有额外的两个卷积核滤波器来传递信息。

RiR模块:两个连接的广义残差块称为 ResNet Init, 将原始残差块的两个卷积层用 ResNet Init 代替 , 组成的新的结构称为 RiR 构建块。

WRN宽残差网络:

解决问题:在 ResNet ,存在特征过度重用问题,寻求少量精确度的增加需要将网络层数加倍

特点:WRN 在原始残差块的基础上成倍地增加残差块中卷积核的个数,增加了网络的宽度,如图 9 所示, 变量 k 代表宽网络卷积核较基准网络卷积核的倍数,该网络降低了网络深度,其性能远超相同层数的残差网络。

9、DenseNet

解决问题:为确保网络中各层之间信息流最大化,Huang 等人(2017)提出了密集连接卷积神经网络 ( densely connected convolutional network, DenseNet)。

特点:该网络使用了一种简单的连接模式,即将所有层直接相连。DenseNet 由密集块组成,密集块结构如图 10 所示,密集块采用前馈的方式将所有层(具有相同输出特征图大小) 直接相连,每一层都从其前部所有层获得输入并将自己的输出特征图传递到后部层, 这种方式增强了特征重用,并可缓解梯度消失问题。

区别:与残差网络不同的是,DenseNet 将特征图传递到下一层之前没有采用求和而是通过通道的合并来组合特征图。

三、使用注意力机制的卷积神经网络

        使用注意力机制的卷积神经网络与人眼类似,强调目标中有用的部分,可以是某些空间、某些通道或某些层等,抑制价值不大的部分。 主要的注意力机制可以分为空间域通道域和层域注意力机制。

1、挤压激励模块SE block

特点:SE block 通过显式地建模通道之间的相互依赖性来重新校准通道的特征响应,即选择性地增强有用的通道特征,抑制无用的通道特征。该模块首先将全局空间信息挤压到通道描述符中,再将通道描述符通过门控机制,生成每个通道特征的权重,将权重与模块的输入相乘,完成通道特征重校准。SE block的使用仅轻微增加模型的复杂度和计算量,却取得较好的效果。

2、SK block

特点:SK 模块混合了两种不同大小的卷积核,获得了不同感受野的特征信息。

3、卷积注意力模块CBAM

解决问题:SE block ,并没有考虑空间域特征的相关性

特点:该模块包括通道注意力模块和空间注意力模块两部分:

        输入特征图首先输入通道注意力模块,分别使用平均池化和最大池化聚集空间信息生成两个空间内容描述符,随后两个空间内容描述符通过一个共享网络生成通道注意力图;

        通道注意力模块的输出特征图输入空间注意力模块,首先在通道维度上使用平均池化和最大池化操作,随后将两个操作的结果连接起来以生成特征描述符,特征描述符再经过卷积操作生成空间注意力图,空间注意力图与空间注意力模块的输入相乘,得到 CBAM 模块的输出,

        即同时考虑了通道域特征相关性和空间域特征相关性。

4、GSoP 模块

        特点:将其从低层引入到高层,其沿着通道维度或者空间维度捕获全局二阶统计信息,可方便地插入到现有网络中,在较小的开销下进一步提高其性能

5、Non-local block

解决问题:卷积操作是局部操作,重复局部操作具有计算效率低、优化困难和多跳依赖性建模困难等限制。

特点:利用非局部操作,捕获远程的依赖该非局部操作将输入特征图的各个位置特征的加权和作为某一位置的响应。

6、全局上下文模块 ( global context block,GC block)

特点:使用了与简化的 Non-local block 同样的上下文建模和融合方法、SE block 相同的转换方 法, GC block 在多种视觉识别任务中表现优于简化的 Non-local block SE block。

7、多级特征重标定密集连接卷积神经网络模型 ( multiple feature reweight DenseNet, MFR-

DenseNet)
        特点:在 DenseNet 上进行了注意力机制的探索,首先构建了通道特征重标定密集连接卷积神经网络(channel feature reweight DenseNet,CFR-DenseNet),使用挤压激励模块对通道特征重标定,随后构建了层间特征重标定密集连接卷积神经网络 ( inter-layer feature reweight DenseNet, ILFR-DenseNet),使用双挤压激励模块对层间特征进行重标定,最后将 CFR-DenseNet 和 ILFR-DenseNet 进行融合。

8、Split-Attention 模块

解决问题:ResNet 有限的感受野尺寸和跨通道交互的缺乏使得 ResNet 在分类以外的任务上表现较差。

特点:该模块沿着通道维度将特征图划分为几个组和更细粒度的分支,每个组的特征表示由其分支表示的加权组合表示,通过堆叠 Split-Attention 模块得到 ResNeSt 网络,该网络更易迁移到分类任务之外的其他任务。

四、轻量级网络

1、SqueezeNet

解决问题:为了提高内存利用率和运行速度。

特点:网络由 fire module 组成,SqueezeNet在达到与AlexNet同样精度的同时,参数量降低为AlexNet的五十分之一

2、Xception 模型

特点:该模型将 Inception 模块替换为深度可分离卷积。 深度可分离卷积首先在输入的每个通道上独立执行空间卷积,即深度卷积(depthwise convolution),随后将深度卷积输出的通道投影到新的通道空间, 即逐点卷积 ( pointwise convolution )。Xception 模型比具有同样参数量的 Inception v3 模 型在大型数据集上表现更优异,其可以更有效地利用参数。

3、MobileNet

MobileNet-V1:该网络使用了深度可分离卷积,除此之外,还提出了两个超参数———宽度乘数 α 和决议乘数 ρ ,使得其可根据应用的不同选择不同的模型大小。

MobileNet-V2:继续使用 MobileNetV1 中的深度可分离卷积,并在此基础上提出了使用倒置残差和线性瓶颈的模块。

MobileNet-V3:将神经架构搜素( neural architectre search,NAS) 与网络结构的设计结合,该网络除了使用 NAS 算法和 NetAdapt 算法来优化模型,还重新设计了瓶颈模块,并在网络的后半部分使用了新的激活函数 h-swish

4、Shuf-flfleNet

Shuf-flfleNetV1:

        解决问题:针对计算能力有限的移动设备。

        特点:在保持模型精度的同时大大减少了计算量。

Shuf-flfleNetV2:

        特点:在 ShuffleNetV1 的基础上, 引入通道分离操作,提出了 ShuffleNetV2,其不仅有效,而且准确。

        优化准则:输入输出通道数相同使内存访问成本最小;过多的分组卷积增加内存访问成本;网络碎片降低并行度;应减少逐元素操作

五、神经架构搜索(neural architecture search,NAS)

        其采用神经网络自动设计神经网络结构。 NAS 方法可分为 3 类:

        1) 基于设计不同搜索空间的 NAS 方法;

        2)基于模型优化的 NAS 方法;

        3) 其他改进的 NAS 方法。

1、基于设计不同搜索空间的 NAS 方法

(1)Zoph 等人(2018)设计了新的搜索空间,搜索空间包括结构相同参数不同的卷积层,搜索 最佳单元架构就转变成搜索最佳结构体,在小数据集上搜索网络构建块,然后迁移到大数据集上搜索最佳结构体比搜索整个网络结构快得多,并且通过简单地改变卷积单元数量和卷积单元中滤波器的数量,可以创建不同计算需求的网络架构

(2)Bello 等人(2017)提出神经优化器搜索,搜索空间中为优化器各种因素的组合,得到两个新的更新规则 PowerSign AddSign

(3)Ramachandran 等 人 (2017) 使用自动搜索技术发现了新的激活函数Swish,在许多富有挑战性的数据集上,其比使用广泛的 ReLU 激活函数效果更好。

(4)Cubuk 等人 (2019)提出了 AutoAugment 过程,可以自动搜索改进的数据增强策略

(5)Real 等人(2019)对演进算法进行改进,首次开发出超越手工设计的分类器 AmoebaNet-A改进有两点:

1) 为每个架构添加年龄属性,倾向于搜索年轻的模型;

2) 搜索空间为分类器,此搜索空间将卷积神经网络与有向图相关联,顶点表示隐藏状态,标签的边缘表示常见的网络操作,提出的变异规则仅通过将边缘的原点随机重新连接到不同的顶点,并通过随机重新标记边缘(覆盖整个搜索空间)来更改体系结构

2、基于模型优化的 NAS 方法

(1)Liu 等人(2018)提出使用基于序列模型的优化策略,在该策略中,以复杂度递增的顺序搜索模型,同时学习替代模型以指导在结构空间中进行搜索。

(2)Pham 等人(2018) 提出的 effificient neural architecture search(ENAS)强制所有子网络共享权重,以避免从头到尾地训练每个子网络,与当时某些自动设计的模型相比,使用 GPU 的 时间少得多

(3)Yang 等人(2018)提出了 NetAdapt 优化算法,贡献主要有两点:该算法在优化循环中加入了直接度量, 直接度量是由从目标平台获得的经验度量来评估的,这使得算法可以适应任何平台;该算法为自动约束网络优化算法,在满足约束条件时,使精度最大化

(4)Liu 等人 (2019)提出了可微架构搜索( differentiable architecture search,DARTS),DARTS 不再搜索候选的离散模型,而将搜索空间设置为连续且可微的,因此网络在验证集上可使用梯度下降来优化,使用较少的资源能获得不错的性能

(5)Tan 等人(2019a)提出了移动神经架构搜索(mobile neural architecture search,MNAS),其创新点有两点:将模型的准确率和延迟作为奖励信号,其中延迟通过在真实移动设备上执行模型来直接测量,而不是使用不准确的间接指标,例如 FLOPs;提出了新的分解层次搜索空间,避免了之前自动搜索方法中单元类型少的问题。

3、其他 NAS 方法

(1)Tan 等人(2019b)提出了复合扩展方法,扩展模型的有效性取决于基础模型,Tan 等人(2019b)使用神经架构搜索设计出了一种新的基础模型,使用复合扩展方法将该模型扩展,得到一系列模型,即 EfficientNets。在有资源预算的情况下,扩展模型可获得更好的精度。

(2)尽管自动搜索技术很有效,但得到的模型是单个的,并有一定的巧合性。Radosavovic 等人(2020) 提出了RegNet 设计空间,可以泛化为更大的计算状态调度长度和网络块类型,在相同训练设置下,RegNet 模型比 EfficientNets 模型快 5

六、小结

        DCNN 极大地推进了图像分类任务的进展。DCNN 通过多层的非线性变换,在大量图像训练数 据中提取特征以代替手工提取的特征,并且深层次的卷积神经网络具有极强的特征学习和表达能力, 能够学习到复杂的全局信息和上下文信息。 此外, DCNN 采用一些手段可达到轻量化的效果,方便应用于移动式设备和嵌入式设备中。 还可使用神经网络自动设计和优化 DCNN,得到性能较优异的模型的同时节省了人力和时间。

        除 DCNN 应用于图像分类外,循环神经网络、 图神经网络也可用于图像分类中。 CNN 更加关注局部特征,若标签之间具有很强的关联性,CNN 视野有限,不会很好地处理这类任务循环神经网络 (recurrent neural network,RNN)添加了反馈单元,将模型当前位置的输出反馈给模型,从而帮助下一位置进行决策。 LSTM 作为 RNN 的一种,能够解决RNN 无法处理长距离的依赖问题,还能够缓解 RNN梯度爆炸或消失问题,在处理长序列数据上非常有效。 图神经网络(graph neural network,GNN)是一个较新的研究领域,CNN 更擅于因果推理图像也可转化成图,对图的分析至关重要,GNN 是可直接应用于图的神经网络,对图级进行分类,在图像分类中有一定的应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/474795.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Xftp传输文件名乱码问题

背景 项目有个静态文件下载时是几天前的老文件,最新文件不下载。检查路径啥的都没问题后,确定就是当前文件夹。 发现 正当纳闷时候,当前文件中有一个乱码文件,没多想,让同事看一下,他看到老文件名是正常的…

鸿蒙Harmony应用开发—ArkTS-属性动画

组件的某些通用属性变化时,可以通过属性动画实现渐变过渡效果,提升用户体验。支持的属性包括width、height、backgroundColor、opacity、scale、rotate、translate等。布局类改变宽高的动画,内容都是直接到终点状态,例如文字、can…

2024Python计算机二级7

带符号的定点数之中,正数的原码、补码和反码均相同,负数的反码是对该数的原码除符号位外各位取反,补码是在该数的反码的最后(即最右边)一位上加1;不管是正数还是负数,其补码的符号位取反即是偏移…

Linux常用命令之文件权限类

1.1 Linux的文件属性 在Linux里使用ll或者ls-l命令来显示一个文件的属性以及文件所属的用户和组。 以-开头:普通文件 以d开头:目录 以l开头:链接 以c开头:字符类型的设备文件(例如:鼠标、键盘,他们输入…

网站HTTPS证书怎么获取?有免费的吗?

嘿,朋友们!想让你的网站更加安全可靠,让访客安心浏览吗?那就离不开SSL证书的帮助了。SSL证书就像是你网站的守护盾,它能够加密网站与用户浏览器间的通信,使得数据传输过程中既安全又私密。今天,…

【MySQL】存储过程、存储函数、触发器

目录 存储过程介绍技术背景存储过程的作用与优势存储过程跟自定义函数很像。它们的区别是: 存储过程的缺点存储过程的特性基本存储过程使用1.创建语法语法说明:使用案例1.创建获取新闻类别数量的存储过程2.创建获取指定新闻类别ID下新闻数量的存储过程 2…

冶炼金属---蓝桥杯c++B组真题

题目描述如下 本题当然可以简单的模拟题目含义,暴力去做,把v从1枚举到1e9,找哪两个数分别使得a/x等于b,并且是该情况的边界,但这样的时间复杂度是n,对于1e9来说是会超时的,我们要想办法优化 首…

IOS推送证书过期如何更新证书(uni-push)?

1. 生成CSR文件 1.2 选择存储到磁盘 - 填写相关信息 - 继续 - 保存后续使用 2. 登录苹果开发者后台,重新创建推送证书 2.1 点击Account - 进入此页面 点击证书、标识符和描述文件下的证书 2.2 点击Identifiers选择要更新的项目2.3 选择Push Notifications&#xf…

TTP 错误 500.19 - Internal Server Error

1、错误详细内容如下图所示: 2、以管理员身份运行命令提示符: %windir%\system32\inetsrv\appcmd unlock config -section:system.webServer/modules 3、问题解决了,哈哈哈哈~!

数据库运行状况和性能监控工具

数据库监控是跟踪组织中数据库的可用性、安全性和性能的过程,它涉及通过跟踪各种关键指标来分析数据库的性能,确保数据库的正常运行并具有深入的可见性,并在出现潜在问题时触发即时警报,以采取主动措施来确保数据库的高可用性。 …

炼丹!训练 stable diffusion 来生成LoRA定制模型

LoRA,英文全称Low-Rank Adaptation of Large Language Models,直译为大语言模型的低阶适应,这是微软的研究人员为了解决大语言模型微调而开发的一项技术。 比如,GPT-3有1750亿参数,为了让它能干特定领域的活儿&#xf…

【C++从练气到飞升】04---拷贝构造函数

🎈个人主页:库库的里昂 ✨收录专栏:C从练气到飞升 🎉鸟欲高飞先振翅,人求上进先读书。 目录 ⛳️推荐 一、拷贝构造函数的引入 1. 以日期类为例:进行的值拷贝是不会发生错误的 2. 以栈类为例:进行的值拷贝会发现发…

AI论文速读 |(Mamba×时空图预测!) STG-Mamba:通过选择性状态空间模型进行时空图学习

(来了来了,虽迟但到,序列建模的新宠儿mamba终于杀入了时空预测!) 论文标题:STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model 作者:Lincan Li, Hanchen Wang&…

Java中的I/O讲解(超容易理解)(中篇)

如果想观看更多Java内容 可上我的个人主页关注我,地址 子逸爱编程-CSDN博客https://blog.csdn.net/a15766649633?spm1000.2115.3001.5343 使用工具 IntelliJ IDEA Community Edition 2023.1.4 使用语言 Java8 代码能力快速提升小方法,看完代码自己…

学几招静态路由配置技巧,让你事半功倍!

中午好,我的网工朋友。 静态路由是在网络设备上手动配置的路由信息,用于指定数据包的传输路径。 无论是项目中交换机的静态路由配置,还是在公司网络中路由器的静态路由设置,都有非常多的应用。 与动态路由协议不同,…

java每日一题——幸运囚犯(合集遍历,查询数据练习)

前言: 合集基本学完了,做做题巩固下知识点。打好基础,daydayup! 题目如下: 目前有100名囚犯,每个囚犯的编号是1-200之间的随机数。现在要求依次随机生成100名囚犯的编号(要求这些囚犯的编号是不能重复的&a…

DCDC电源管理芯片MC34063A,内含温度补偿的参考电压源(1.25V)、比较器、能有效限制电流及控制工作周期的振荡器,驱动器及大电流输出开关管等

MC34063A 为一单片 DC-DC 变换集成电路,内含温度补偿的参考电压源(1.25V)、比较器、能有效限制电流及控制工作周期的振荡器,驱动器及大电流输出开关管等。外配少量元件,就能组成升压、降压及电压反转型 DC-DC 变换器。…

基于net的医院病历管理系统

摘 要 伴随着我国社会的发展,人民生活质量日益提高。互联网逐步进入千家万户,改变传统的管理方式,医院病历管理系统以互联网为基础,利用net技术,和SQL Server数据库开发设计一套医院病历管理系统,提高工作…

C++第九弹---类与对象(六)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 日期类 1、日期类的分析和设计 1.1、日期类的功能说明 1.2、日期类的分析和设计 1.2.1、数据结构的分析 1.2.2、文件结构设计 2、日期类的结构分析…

Blender 3D建模要点

3d模型可以为场景的仿真模拟带来真实感,它还有助于更轻松地识别场景中的所有内容。 例如,如果场景中的所有对象都是简单的形状,如立方体和圆形,则很难在仿真中区分对象。 1、碰撞形状与视觉形状 像立方体和球体这样的简单形状&a…