17_VGG深度学习图像分类算法

1.1 简介

VGG网络,全称为Visual Geometry Group网络,是由牛津大学的Visual Geometry Group和谷歌DeepMind的研究人员共同提出的深度卷积神经网络模型。这一模型因在2014年ILSVRC(ImageNet大规模视觉识别挑战赛)中取得图像分类任务第二名和定位任务第一名的佳绩而声名鹊起,展示了深度在卷积神经网络设计中的重要性。

VGG网络的核心设计理念在于使用多个连续的3x3卷积核来替代较大的卷积核(如5x5或7x7),这样的设计不仅保持了感受野的大小,还有效增加了网络的深度,使得模型能够学习到更加复杂的图像特征。VGG模型有两个常见的变体:VGG16和VGG19,分别包含16层和19层的可学习参数层(不包括池化层和激活函数层),这些层由多个卷积层和三个全连接层组成。

具体来说,VGG16网络结构包含13个卷积层和3个全连接层,而VGG19则在此基础上增加了几个卷积层。这些网络通常接受224x224像素、三通道(RGB)的输入图像,并通过一系列的3x3卷积操作和2x2的最大池化操作逐步降低空间维度,直至最后的全连接层输出1000维向量,对应于ImageNet数据集上的1000个类别。最终,通过Softmax函数转换这些输出为概率分布,以进行分类预测。

VGG网络的出现推动了深度学习领域对网络深度的探索,其简洁而有效的架构原则对后续的深度学习模型设计产生了深远的影响,成为了众多计算机视觉任务的基础模型之一。尽管随着技术的发展,出现了更为高效和高性能的网络(如ResNet、Inception等),但VGG依然是学习卷积神经网络基础和原理的经典案例。

VGG模型提出于论文《Very Deep Convolutional Networks for Large-Scale Visual Recognition》,下面我们就来学习一下这篇论文。

1.2 VGG16和VGG19

VGG16和VGG19是VGG网络的两个著名变体,它们都是由一系列卷积层、最大池化层、以及最后的几个全连接层组成。这两个模型的设计重点在于增加网络的深度,以提高对图像特征的学习能力。下面是VGG16和VGG19的具体构成细节:

VGG16 

VGG16模型包含16个可训练的权重层,其中包括13个卷积层(Convolutional Layers)和3个全连接层(Fully Connected Layers,或称 Dense Layers)。其具体结构如下:

  1. 输入层:接收224x224像素的RGB图像。
  2. 卷积块:VGG16由五个卷积块组成,每个块后跟着一个最大池化层(Max Pooling Layer)。
    • 第一个块包含2个连续的3x3卷积层,步长为1,填充为1(SAME padding)。
    • 接下来的四个块各包含3个连续的3x3卷积层。
    • 每个卷积层后都使用ReLU作为激活函数。
    • 每个卷积块之后是一个2x2、步长为2的最大池化层,用于减少空间维度。
  3. 全连接层
    • 第一个全连接层有4096个神经元。
    • 第二个全连接层同样有4096个神经元。
    • 最后一个全连接层有1000个神经元,对应于ImageNet数据集中的1000个分类标签。
  4. 输出层:使用Softmax函数,将前一层的输出转化为各个类别的概率分布。

VGG19 

VGG19相比VGG16,主要区别在于它拥有更多的卷积层,总计19个可训练的权重层,包括16个卷积层和3个全连接层。VGG19的结构与VGG16非常相似,只是在某些卷积块中添加了额外的卷积层,以进一步提升模型的表达能力。

  • VGG19的卷积块中,除了第一个块包含2个卷积层外,其余四个块各自包含了4个连续的3x3卷积层,而不是VGG16中的3个,这使得VGG19的深度增加。
  • 其余部分,包括最大池化层、全连接层和输出层的配置与VGG16相同。

虽然VGG19比VGG16更深,理论上能学习到更复杂的特征,但这也意味着计算成本和内存消耗更高。在实际应用中,VGG16由于其相对较低的复杂度和较高的性能,常常被用作基准模型或者预训练模型。两者均以其清晰的结构设计和良好的图像识别性能,在深度学习研究和实践中占据重要地位。不过,随着计算资源的进步,更多关注效率的模型(如ResNet系列)在许多场景下已经取代了VGG作为首选模型。

下图为VGG16的模型解释:

VGG16的参数和内存占用情况 

前两层的卷积占据了绝大部分的内存,第一层的全连接层占据了绝大部分参数。

1.3 为什么VGG全部使用3x3卷积

VGG网络选择全部使用3x3卷积核的原因主要有以下几点:

  1. 细粒度特征提取:3x3是能够捕捉到像素八邻域信息的最小尺寸卷积核。这意味着它可以在保留局部空间信息的同时,有效地提取图像中的细节特征。

  2. 等效感受野与更深层网络:通过堆叠多个3x3卷积层,VGG网络能够以较小的计算成本达到与较大卷积核(如5x5或7x7)相同的有效感受野。例如,两个3x3卷积层堆叠起来,其感受野相当于一个5x5的卷积核,而三个堆叠起来则接近于7x7的感受野。这种设计使网络能够学习到更深层次的抽象特征,而不会显著增加计算负担。

  3. 计算效率:相比于更大的卷积核,使用多个连续的3x3卷积核在计算上更加高效。例如,一个5x5卷积核的操作量相当于两个3x3卷积核操作量的和减去一个中间层的激活函数操作,总体上减少了参数数量和计算量。

  4. 模型深度的增加:VGG网络的设计哲学是通过增加网络的深度而非宽度来提高性能。3x3卷积核的小尺寸允许网络设计者轻松地堆叠更多层,进而探索更深的网络结构,这对于提升模型对复杂图像特征的学习能力至关重要。

  5. ReLU激活函数的配合:VGG网络每一层卷积之后都使用ReLU激活函数,这有助于缓解梯度消失问题,使网络能够更有效地训练更深的结构。

综上所述,VGG网络全部采用3x3卷积核的设计是出于对特征提取效率、模型复杂度控制、以及深度增加潜力的综合考量,这一策略在当时推动了深度学习领域对网络深度探索的浪潮。

1.4 VGG模型的特点

VGG网络的优点:

  1. 结构简洁统一:VGG网络结构设计简洁,主要由重复的卷积层和最大池化层构成,易于理解和实现。
  2. 深度加深提升性能:VGG通过增加网络深度,验证了更深的网络结构能够显著提升模型的识别精度。
  3. 小卷积核高效特征提取:使用多个3x3的小卷积核代替大卷积核,既减少了参数量,又能保持较大的感受野,有效提取图像特征,同时保持了计算效率。
  4. 感受野与参数量平衡:通过堆叠小卷积核,VGG在不增加太多参数的情况下,扩大了感受野,有利于捕获更复杂的图像特征。
  5. ReLU激活函数的使用:所有卷积层之后使用ReLU激活函数,有助于加速模型训练并缓解梯度消失问题。

VGG网络的缺点:

  1. 计算资源消耗大:VGG网络由于其深度和大量的参数,特别是全连接层中的参数,导致模型在计算资源和内存占用上要求较高。
  2. 训练时间长:由于模型的复杂性和参数量,VGG网络的训练过程可能比较漫长,特别是在硬件资源有限的情况下。
  3. 参数量过多:尽管小卷积核减少了参数,但整个模型的参数总量仍然很大,不利于在资源受限环境(如移动设备)上的部署。
  4. 过拟合风险:尽管深度增加提升了模型的表达能力,但也增加了过拟合的风险,需要更多的数据或正则化手段来缓解。
  5. 优化难度:较深的网络结构可能导致梯度传播问题,如梯度消失或爆炸,需要精心设计的初始化和学习率策略。

总的来说,VGG网络通过加深网络结构在图像识别任务上取得了显著成效,但其较大的计算需求和参数量限制了在特定场景下的应用,促使后来的研究者发展出更多计算高效且性能强大的网络结构,如残差网络(ResNet)和移动网络(MobileNet)等。

1.5 感受野的作用

感受野是指网络中某一层输出特征图(Feature Map)上的每一个像素点,追溯到输入图像时所覆盖或“感受”到的输入图像区域大小。换句话说,它描述了网络中一个特定神经元的响应与输入数据之间空间上的关联范围。随着网络层次的加深,通过卷积层和池化层的操作,每一层神经元的感受野通常会逐渐扩大,这意味着更高层的神经元能够捕捉到更广阔范围的输入特征,从而学习到更加抽象和全局的图像特征。理解感受野对于设计网络结构、控制模型复杂度以及优化模型性能具有重要意义。

感受野(Receptive Field)在深度学习,尤其是卷积神经网络(CNN)中,扮演着核心角色,其作用主要体现在以下几个方面:

  1. 特征层次理解:感受野定义了网络中某一层神经元对其输入数据的依赖区域大小。随着网络深度的增加,高层神经元的感受野通常会逐渐扩大,这使得它们能够捕捉到输入数据更广泛的空间上下文信息。因此,感受野帮助网络从底层的局部特征逐步过渡到高层的全局或抽象特征。

  2. 信息整合:通过调整卷积核大小、步长、填充等超参数,感受野的大小直接影响了网络如何整合局部信息。较大的感受野能够汇总更大范围的特征,有助于识别需要大范围上下文理解的任务,如物体识别中的目标位置和姿态估计。

  3. 模型设计指导:了解感受野的工作原理对于网络架构设计至关重要。例如,VGG网络通过堆叠多个小卷积核来替代大卷积核,既控制了参数量,又有效扩大了高层特征的感受野,这是基于对感受野原理的深刻理解。

  4. 性能优化:合理设置感受野可以帮助减少计算量和内存占用,同时维持或提升模型性能。例如,在目标检测或语义分割任务中,感受野大小直接影响到模型对目标细节的捕捉能力,以及对整体场景的理解能力。

  5. 解决过拟合:感受野的布局和大小还与模型的泛化能力相关。通过控制感受野,可以在一定程度上避免模型过度关注输入数据中的噪声或无关细节,从而有助于减轻过拟合现象。

  6. 视觉解释:感受野的概念有助于我们直观理解CNN如何逐步构建对输入图像的理解,这对于模型的可视化解释和可解释性研究至关重要。

1.6 迁移学习

迁移学习(Transfer Learning)是一种机器学习方法,其核心思想是利用在一个任务或领域上学到的知识来帮助完成另一个相关但不同的任务或领域的学习。这种方法基于这样一种观察:从一个大型数据集中学到的特征往往对其他相关任务也是有用的,即使这些任务的数据可能较少。

迁移学习的主要优势包括:

  1. 减少训练时间和计算资源:在许多情况下,预训练模型已经学习到了丰富的特征表示,新任务可以通过微调这些模型来显著加快训练速度,而不是从头开始训练。

  2. 提高模型性能:尤其是在数据稀缺的新任务中,使用迁移学习可以避免从零开始训练模型可能遇到的过拟合问题,从而提高模型的泛化能力。

  3. 降低标注成本:对于需要大量标注数据的任务,迁移学习可以通过利用已有的预训练模型来减少对新数据集的标注需求。

迁移学习的常见形式有几种:

  • 特征提取:使用预训练模型的前几层作为固定的特征提取器,只训练模型的顶层或新增的部分层以适应新的任务。

  • 微调(Fine-tuning):在预训练模型的基础上,对整个模型或部分层进行进一步训练,同时使用新任务的数据,这样可以在保留原有知识的同时,让模型适应新任务的特性。

  • 多任务学习:在同一个网络中同时训练多个相关任务,共享一部分表示层,使得各个任务之间可以相互促进学习。

  • 域适应:当源任务和目标任务来自不同但相关的域时,迁移学习还包括减少域间差异,使模型能够在新域中更好地泛化。

如下图:对于VGG的迁移学习,我们只需要在最后一层换成我们需要的分类个数就可以,保持之前所有层的模型结构不变,权重也不变(冻结住)。我们就可以把我们在imageNet预训练好的模型用于解决我这个类别的分类问题。

2. pytorch复现

# Author:SiZhen
# Create: 2024/7/7
# Description: pytorch搭建VGG16网络模型
import torch
import torch.nn as nn
from torch.nn import  functional as F

class VGG16(nn.Module):
    def __init__(self,input_size):
        super(VGG16, self).__init__()
        #定义网络结构
        #block 1
        self.conv1 = nn.Sequential(
            nn.Conv2d(in_channels=3,out_channels=64,kernel_size=3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=64,out_channels=64,kernel_size=3,padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2)
        )
        self.conv2 = nn.Sequential(
            nn.Conv2d(64,128,3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(128,128,3,padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2)
        )
        self.conv3 = nn.Sequential(
            nn.Conv2d(128,256,3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256,256,3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(256,256,3,padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2)
        )
        self.conv4 = nn.Sequential(
            nn.Conv2d(256,512,3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(512,512,3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(512,512,3,padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2)
        )
        self.conv5 = nn.Sequential(
            nn.Conv2d(512,512,3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(512,512,3,padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(512,512,3,padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2)
        )
        self.fc1 = nn.Linear(7*7*512,4096)
        self.fc2 = nn.Linear(4096,4096)
        self.fc3 = nn.Linear(4096,1000)

    def forward(self,x):
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.conv3(x)
        x = self.conv4(x)
        x = self.conv5(x)

        x = x.view(-1,7*7*512) #铺平
        x = self.fc1(x)
        x = self.fc2(x)
        x = self.fc3(x)
        output = F.softmax(x,dim=1)




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/781176.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

高级计算机体系结构--期末真题及题型总结

2024 年春季学期期末考题回顾一、名词解释二、简答题2007 年简答题2008 年简答题简答题答案 三、分析题1. MESI 和 Dragon 协议计算给定内存存取序列所需的时钟周期2007年第一题及参考答案例题及解答 2. 顺序一致性存储模型,判断进程的合法输出2007年第二题及参考答…

【网站推荐】Developer Roadmaps 开发者学习路线

你是否想学习某门技术而苦苦找不到学习路线。本文推荐一个网站,解决学习路径问题。 roadmap.sh 旨在创建路线图、指南和其他教育内容,以帮助指导开发人员选择路径并指导他们的学习。 技术路线包括了前端后端安卓iosUI设计等内容,一些技术比如…

CV- 人工智能-深度学习基础知识

一, 深度学习基础知识 1,什么是深度学习?机器学习是实现人工智能的一种途径,深度学习是机器学习的一个子集,也就是说深度学习是实现机器学习的一种方法。2, 传统机器学习算术依赖人工设计特征,并进行特征提取,而深度学习方法不需要人工,而是依赖算法自动提取特征。深度…

【网络安全】实验四(网络扫描工具的使用)

一、本次实验的实验目的 (1)掌握使用端口扫描器的技术,了解端口扫描器的原理 (2)会用Wireshark捕获数据包,并对捕获的数据包进行简单的分析 二、搭配环境 打开两台虚拟机,并参照下图&#xff…

sublime 3 背景和字体颜色修改

sublime 4 突然抽风,每次打开都显示 “plugin_host-3.3 has exited unexpectedly, some plugin functionality won’t be available until Sublime Text has been restarted” 一直没调好,所以我退回到sublime 3了。下载好了软件没问题,但是一…

运维系列.Nginx中使用HTTP压缩功能

运维专题 Nginx中使用HTTP压缩功能 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite:http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article:https://blog.csdn.net/qq_28550…

Vue3中的Composables组合式函数,Vue3实现minxins

Vue3中的Composables是什么 Vue3中的Composables 简单理解其实就是类React Hooks式的组合式函数封装方法。 Vue官方称为Composables 组合式函数。 1.抽离复用逻辑时 Vue2写法 (1)Vue2 中的mixins混入器写法缺点 (Vue3 optionsApi写法同理) 新建minxins…

【基于R语言群体遗传学】-10-适应性与正选择

在之前的博客中,我们学习了哈代温伯格模型,学习了Fisher模型,学习了遗传漂变与变异的模型,没有看过之前内容的朋友可以先看一下之前的文章: 群体遗传学_tRNA做科研的博客-CSDN博客 一些新名词 (1&#xf…

HCIE之IPV6三大动态协议ISIS BGP (十五)

IPV6 1、三大动态路由协议ipv61.1、ISIS1.1.1、ISIS多拓扑实验(需要详细看下lsdb verbose)1.2、ISIS TLV简单总结 1.2、BGP 2、IPv6 隧道技术2.1、ipv6手工隧道2.1.1、ipv6 gre手工隧道2.1.1.1、 ipv6、ipv4基础配置(省略)2.1.1.2…

【web APIs】快速上手Day05(Bom操作)

目录 Web APIs - 第5天笔记js组成window对象BOM定时器-延迟函数案例-5秒钟之后消失的广告 JS执行机制location对象案例-5秒钟之后跳转的页面 navigator对象histroy对象 本地存储(今日重点)localStorage(重点)sessionStorage&#…

cross attention交叉熵注意力机制

交叉注意力(Cross-Attention)则是在两个不同序列上计算注意力,用于处理两个序列之间的语义关系。在两个不同的输入序列之间计算关联度和加权求和的机制。具体来说,给定两个输入序列,cross attention机制将一个序列中的每个元素与另一个序列中…

Java请求webService,IDEA生成客户端调用代码

Axis是Apache开放源代码组织的一个项目,全称为Apache Extensible Interaction System,简称Axis。它是一个基于Java的SOAP(Simple Object Access Protocol,简单对象访问协议)引擎,提供创建服务器端、客户端和…

Linux基础: 二. Linux的目录和文件

文章目录 二. Linux的目录和文件1.1 目录概要1.2 目录详细说明 二. Linux的目录和文件 1.1 目录概要 command:ls / Linux的文件系统像一棵树一样,树干是根目录(/),树枝是子目录,树叶是文件; …

QML:Settings介绍

用途 提供持久的独立于平台的应用程序设置。 用户通常希望应用程序在会话中记住其设置(窗口大小、位置、选项等)。Settings能够以最小的工作量保存和恢复此类应用程序设置。 通过在Settings元素中声明属性来指定各个设置值。仅支持由QSettings识别的值…

2024 JuniorCryptCTF reppc 部分wp

Random cipher 文本编辑器打开附件 比较简单。脚本 Mutated Caesar 文本编辑器打开附件 比较简单。脚本 Pizza 附件拖入dnSpy 比较简单。脚本 l33t Leet,又称黑客语,是指一种发源于欧美地区的BBS、线上游戏和黑客社群所使用的文字书写方式,通…

Polkadot(DOT)即将爆雷?治理无能还歧视亚洲!资金将在两年内耗尽!是下一个FTX吗?

近期,关于Polkadot(DOT)生态圈的一系列负面消息引发了业界和投资者的广泛关注。从高昂的营销开支、缺乏实际业务亮点,再到治理问题和种族歧视指控,Polkadot似乎正面临着严峻的危机。业内人士警告,Polkadot的财政状况堪忧&#xff…

【C语言】qsort()函数详解:能给万物排序的神奇函数

🦄个人主页:修修修也 🎏所属专栏:C语言 ⚙️操作环境:Visual Studio 2022 目录 一.qsort()函数的基本信息及功能 二.常见的排序算法及冒泡排序 三.逐一解读qsort()函数的参数及其原理 1.void* base 2.size_t num 3.size_t size 4.int (*compar)(c…

机器学习Day12:特征选择与稀疏学习

1.子集搜索与评价 相关特征:对当前学习任务有用的特征 无关特征:对当前学习任务没用的特征 特征选择:从给定的特征集合中选择出相关特征子集的过程 为什么要特征选择? 1.任务中经常碰到维数灾难 2.去除不相关的特征能降低学习的…

认证授权auth

什么是认证授权 认证授权包含 认证和授权两部分。 什么是用户身份认证? 用户身份认证即当用户访问系统资源时,系统要求验证用户的身份信息,身份合法方可继续访问常见的用户身份认证表现形式有 用户名密码登录微信扫码登录等 什么是用户授…

【数据结构】链表带环问题分析及顺序表链表对比分析

【C语言】链表带环问题分析及顺序表链表对比分析 🔥个人主页:大白的编程日记 🔥专栏:C语言学习之路 文章目录 【C语言】链表带环问题分析及顺序表链表对比分析前言一.顺序表和链表对比1.1顺序表和链表的区别1.2缓存利用率&#…