YOLO系列正传(五)YOLOv4论文精解(上):从CSPNet、SPP、PANet到CSPDarknet-53

系列文章

YOLO系列基础

YOLO系列基础合集——小白也看得懂的论文精解-CSDN博客

YOLO系列正传

YOLO系列正传(一)类别损失与MSE损失函数、交叉熵损失函数-CSDN博客

YOLO系列正传(二)YOLOv3论文精解(上)——从FPN到darknet-53-CSDN博客

YOLO系列正传(三)神经网络的反向传播(back propagation)与公式推导-CSDN博客

YOLO系列正传(四)YOLOv3论文精解(下)——损失函数推导与其他优化项-CSDN博客

YOLO系列正传(五)YOLOv4论文精解(上):从CSPNet、SPP、PANet到CSPDarknet-53-CSDN博客


目录

系列文章

YOLO系列基础

YOLO系列正传

YOLOv4基础介绍

从CSPNet开始

背景与改进

过渡层详解

跨阶段连接分支卷积层详解

SPP模块详解

SPP背景介绍

什么是空间金字塔池化(SPP)?

PANet网络详解

背景与挑战

从FPN网络到PANet网络

CSPDarknet-53模型

CSP模块改进说明

SPP模块改进说明

SPP模块的结构

解释每一部分

PANet网络改进说明

 总结


YOLOv4基础介绍

YOLOv4进一步优化了YOLOv3,主要改进点包括:

  1. 主干网络:使用了CSPDarknet-53替代原YOLOv3中的Darknet-53。
  2. 新方法引入:例如Mish激活函数、Mosaic数据增强、DropBlock正则化和自对抗训练(SAT)。
  3. 优化策略:使用了CIoU Loss和多锚点匹配策略,使得模型在准确率和速度上实现了更好的平衡。

 我们本文专注与YOLOv4网络结构的内容,即CSPDarknet-53的结构梳理。

从CSPNet开始

背景与改进

        跨阶段部分连接网络CSPNet(Cross Stage Partial Network)是针对现有CNN设计的一种改进结构,旨在解决冗余梯度问题并减少计算成本。其实是类似残差结构中的一种,但是相比较于最基本的残差结构,CSPNet有两点不同:

  • CSPNet在密集层之后还有一层卷积作为过渡层
  • CSPNet在跨阶段连接分支上也有一层卷积进行信息的选择性传递。

有关CSPNet的基础内容,可以查看以下博客:

深度学习中的残差网络、加权残差连接(WRC)与跨阶段部分连接(CSP)详解-CSDN博客

以上博客讲诉了残差网络Residual、加权残差连接WRC、以及跨阶段部分连接CSP的基础信息。
本博文在上诉的基础上更进一步详解CSPNet的此两点不同

过渡层详解

过渡层的主要作用是用以在反向传播中梯度传导过程中过渡传导过程。图例如下:

(c)图是没有过渡层的CSPNet,(d)图是有过渡层的CSPNet

        我们先看a图,a图两层分支直接进行了concat拼接后进行Transition后续处理,那么在反向传播中,梯度传播到concat形成的大特征图的时候会对左右两条分支产生一样的前序梯度信息,那么在很大程度上,左右两条分支会产生冗余和重复。

我们此时看b图,b图中密集层(DenseBlock)处理完之后先进行了一次过渡层(Transition)操作(大多是卷积)再和另外一条分支进行concat操作。此时,当我们进行反向传播的时候,抵达concat之后的大特征图的时候梯度信息是一致的,但是梯度信息传递到过渡层的之后再传递给密集层的时候,梯度信息和另一分支就产生了差异性,这在很大程度上避免了梯度冗余和重复。

跨阶段连接分支卷积层详解

在基础残差网络中,我们是没有这一层卷积的,图例如下:

图a:普通的神经网络密集层,图b:Part1为一层卷积操作的CSP改造网络 

此处CSP增加这里的卷积的理由有哪些呢?有如下 两点:

  • 避免硬件计算资源浪费
  • 增加模型表达能力

        在传统残差网络中,密集层大多采用瓶颈层来降低计算量,那么很明显,针对低层的瓶颈层是无法吃满硬件计算资源的,这就给另一分支的构建提供了机会。也就是说另一分支完全可以增加复杂度而不会影响模型速度。给另一分支增加卷积层等处理模块可以避免计算资源的浪费。

        其次,在残差网络中,我们采用跳跃连接的方式是为了使得低层特征可以传递给高层输出,以不丢失低层特征信息,并以此使得模型的深度可以无限往下延深。实际上我们真正需要做的,是在尽可能少的层数里(降低推理速度)获取足够有效的特征信息,也就是说我们不需要模型无限延展,我们需要的是模型每一层的效率足够高,可以处理输出足够有效的特征信息,所以,在另一分支上增加卷积层提高模型效果的思路是完全可行的。

综上CSPNet的结构我们完全解释清晰了。

SPP模块详解

YOLOv4这一版本引入了空间金字塔池化技术(SPP:Spatial Pyramid Pooling)

图例如下:

SPP背景介绍

卷积层对所有的输入size都能正常运行,但是对于最后的检测头,若是采用了FC层(FC层的具体输出维度是固定的)就会产生对输入图像size的要求,这也是传统的CNN架构通常要求输入图像具有固定尺寸的原因,这一要求限制了网络的灵活性,直接resize又会导致图像尺寸信息的丢失。为了克服这一限制,许多研究者提出了不同的解决方案,其中之一就是空间金字塔池化(Spatial Pyramid Pooling,SPP)。SPP通过引入多层次的池化结构,有效地解决了图像尺寸固定的问题,使得CNN能够处理不同尺寸和尺度的图像。

什么是空间金字塔池化(SPP)?

        空间金字塔池化(SPP)的核心思想是通过在多个空间尺度上进行池化,从而生成一个固定长度的特征向量。具体来说,SPP方法通过在卷积神经网络的最后一层卷积层上添加一个池化层,将特征图分成多个不同大小的区域进行池化操作。这些池化操作可以是1×1、2×2、4×4等不同的空间网格,这样能够在不同的尺度上提取图像的特征。最终,来自各个尺度的池化特征会被拼接在一起,形成一个固定长度的特征向量。

空间金字塔池化层的工作原理可以通过以下几个步骤来概括:

  1. 输入特征图:最后一个卷积层生成的特征图,其空间尺寸根据输入图像的大小而不同。
  2. 多层次池化:SPP层将特征图分成多个不同大小的空间区域(如1×1、2×2、4×4等),并在每个区域内进行池化操作。这样,SPP层从不同尺度提取特征。
  3. 特征拼接:池化后的特征会被拼接在一起,形成一个固定长度的特征向量。
  4. 传递至全连接层:这个固定长度的特征向量被传递给全连接层,用于最终的分类或其他任务。

通过这一过程,SPP层能够有效地从不同尺寸的图像中提取重要特征,并为后续的高层任务提供稳健的输入。

PANet网络详解

背景与挑战

实例分割任务的主要挑战在于如何精确地分割图像中的每个实例,尤其是当不同实例之间存在重叠、形状复杂或者尺寸差异较大时。虽然像Mask R-CNN这样的基于深度学习的方法已经取得了较好的结果,但它们仍然面临以下问题:

  • 特征丢失: 网络中的高层特征提供了丰富的语义信息,但缺乏足够的细节。相反,低层特征包含更多的局部细节信息,却缺乏语义理解。
  • 边界模糊: 复杂实例的边界分割往往不够精细,导致误分割和漏分割现象。
  • 多尺度问题: 不同尺寸的物体在图像中可能有很大的差异,现有的分割方法在处理小物体和大物体时常常表现不佳。

        为了克服这些问题,PANet提出了一种新的路径聚合策略,将低层次的细节信息与高层次的语义信息进行有效融合,从而提高了实例分割的准确性。

从FPN网络到PANet网络

FPN通过自底向上的特征金字塔模型给低维特征数据提高了更高维的特征向量支持,简单来说较低层的数据通常用于检测小目标 ,高层特征用于检测大目标。

随着网络深度的加深,越深的网络会丢失越来越多的细节信息以保持对大范围特征信息的识别,而较低层的网络虽然保留了更多信息,但是却没有经过足够多的处理获取更高层级的特征信息。所以在以上的背景下,FPN被提出了,这使得小目标的检测头在保留大量细节信息的基础上也可以获得高层级特征向量。

也许有人就会问了,那为什么没有从低层直接向高层连接的向量给高层检测头提高更多的细节信息呢?没错,答案就是PANet层!

        图中b图展示了在左侧FPN层之后再次进行了PANet层,底层特征信息被传递给了高维数据

        PANet通过路径聚合模块,将多层次的特征进行有效融合。网络不仅仅依赖于高层的抽象语义信息,同时也保留了低层次的局部细节,从而更好地适应不同尺寸、不同复杂度的物体。这种多尺度特征融合方法使得PANet在处理大物体和小物体时,均能获得较好的分割效果。 

CSPDarknet-53模型

终于来到了我们今天的正题:YOLOv4的网络结构

模型图如下:

YOLOv4的网络结构图

YOLOv4 CSPDarknet-53 主干网络部分如下: 

标YOLOv4 CSPDarknet-53 主干网络题
大家可以参考以下YOLOv3模型的结构图:

YOLOv3的详解可以查看以下博客:

YOLO系列正传(二)YOLOv3论文精解(上)——从FPN到darknet-53-CSDN博客

其实,细心的读者可以发现,主干网络的逻辑是近乎一致的。

CSP模块改进说明

YOLOv3中的Residual残差模块和CSPNet思想结合构建了CSPBlock模块,由于使用了CSP模块,密集层也无需有瓶颈层了,全部都是一样的维度.其对比如下:

左图:YOLOv3Darknet-53网络残差结构,右图:YOLOv3CSP魔改后的残差结构 

可以看出,YOLOv4改进点无非就是以下两点:

  • Residual没有使用瓶颈层,提高了计算效率(毕竟瓶颈层是对计算是有负面影响的)
  • 使用CSP进行跨阶段连接,提升了特征提取能力

SPP模块改进说明

在YOLOv4中,SPP(Spatial Pyramid Pooling)模块是为了增强模型在处理不同尺度的物体时的表现。YOLOv4在模型中加入了SPP模块,旨在通过多尺度特征池化来捕获更多的上下文信息,帮助检测不同尺寸的物体。下面我将详细解释YOLOv4中SPP模块的设计。

SPP模块主要是为了达成以下目标:

  • 多尺度特征提取:SPP模块通过使用不同大小的池化层(max-pooling)来捕捉不同尺度的信息。这使得网络能够在不增加额外计算量的情况下,提取多尺度的上下文信息。
  • 增强局部特征的上下文信息:通过对不同大小的区域进行池化,SPP模块能够更好地理解输入图像的全局上下文信息,帮助模型对不同尺度的物体做出更准确的预测。

SPP模块的结构

在YOLOv4的cfg文件中,SPP模块的实现如下:

### SPP ###
[maxpool]
stride=1
size=5

[route]
layers=-2

[maxpool]
stride=1
size=9

[route]
layers=-4

[maxpool]
stride=1
size=13

[route]
layers=-1,-3,-5,-6
### End SPP ###

解释每一部分

[maxpool]:SPP模块在YOLOv4中包含三个不同大小的maxpool层,每个层使用不同的池化窗口大小,分别是5x59x913x13。这些池化层分别作用于不同尺度的区域来提取特征。

  • 第一层:池化大小为5x5,stride为1。这是最小的池化层,用于捕获较小范围的上下文信息。
  • 第二层:池化大小为9x9,stride为1。它比第一个池化层捕获更大的上下文信息。
  • 第三层:池化大小为13x13,stride为1。这是最大的池化层,可以捕获最大范围的上下文信息。

[route]:这些route层将不同池化层的输出连接在一起,以形成一个多尺度的特征图。

  • layers=-2:将来自前一层的输出连接到当前层。
  • layers=-4:将离当前层更远的输出连接起来,进行多尺度的特征融合。
  • layers=-1,-3,-5,-6:最终将所有池化层的输出(5x5, 9x9, 13x13池化的结果)通过route层合并到一起,形成一个丰富的特征图。

PANet网络改进说明

YOLOv4检测头图例如下:

其中P3、P4、P5是FPN金字塔的输出,后面的N3、N4、N5是PANet网络的输出。

我们可以清晰的看见FPN有一个由下向上的路径,PANet有一个由上向下的路径。这样网络不仅仅依赖于高层的抽象语义信息,同时也保留了低层次的局部细节,从而更好地适应不同尺寸、不同复杂度的物体。很好的补齐了FPN的不足和缺失。

 总结

至此,我们详细讲解了CSPNet、SPP、PANet的相关重点,以及YOLOv4模型网络CSPDarknet-53的模型结构内容!

最后,各位广大读者!看到这您也知道准备一篇类似的博客实属不易,还请多多点赞收藏哦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/944447.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis 实战篇 ——《黑马点评》(上)

《引言》 在进行了前面关于 Redis 基础篇及其客户端的学习之后,开始着手进行实战篇的学习。因内容很多,所以将会分为【 上 中 下 】三篇记录学习的内容与在学习的过程中解决问题的方法。Redis 实战篇的内容我写的很详细,为了能写的更好也付出…

DevOps实战:用Kubernetes和Argo打造自动化CI/CD流程(2)

DevOps实战:用Kubernetes和Argo打造自动化CI/CD流程(2) 背景 Tips 翻遍国内外的文档,关于 Argo 作为 CI/CD 当前所有开源的文档,博客,argo官方文档。得出的结论是: argo官方给出的例子都相对…

探索Flink动态CEP:杭州银行的实战案例

摘要:本文撰写自杭州银行大数据工程师唐占峰、欧阳武林老师。将介绍 Flink 动态 CEP的定义与核心概念、应用场景、并深入探讨其技术实现并介绍使用方式。主要分为以下几个内容: Flink动态CEP简介 Flink动态CEP的应用场景 Flink动态CEP的技术实现 Flin…

STM32F103RCT6学习之三:串口

1.串口基础 2.串口发送 1)基本配置 注意:实现串口通信功能需在keil中设置打开Use Micro LIB,才能通过串口助手观察到串口信息 2)编辑代码 int main(void) {/* USER CODE BEGIN 1 *//* USER CODE END 1 *//* MCU Configuration-------------…

Python中构建终端应用界面利器——Blessed模块

在现代开发中,命令行应用已经不再仅仅是一个简单的文本输入输出工具。随着需求的复杂化和用户体验的重视,终端界面也逐渐成为一个不可忽视的设计环节。 如果你曾经尝试过开发终端UI,可能对传统的 print() 或者 input() 函数感到不满足&#…

OpenHarmony-5.PM 子系统(2)

电池服务组件OpenHarmony-4.1-Release 1.电池服务组件 Battery Manager 提供了电池信息查询的接口,同时开发者也可以通过公共事件监听电池状态和充放电状态的变化。电池服务组件提供如下功能: 电池信息查询。充放电状态查询。关机充电。 电池服务组件架…

Java 网络原理 ①-IO多路复用 || 自定义协议 || XML || JSON

这里是Themberfue 在学习完简单的网络编程后,我们将更加深入网络的学习——HTTP协议、TCP协议、UDP协议、IP协议........... IO多路复用 ✨在上一节基于 TCP 协议 编写应用层代码时,我们通过一个线程处理连接的申请,随后通过多线程或者线程…

基于规则的系统架构:理论与实践

在当今信息化快速发展的时代,企业面临着日益复杂和多变的市场环境,传统的静态系统架构已难以满足快速响应业务变化的需求。基于规则的系统架构(Rule-Based System Architecture, RBSA)作为一种灵活、可扩展的架构模式,…

记一个itertools排列组合和列表随机排序的例子

朋友不知道哪里弄来了一长串单词列表,一定要搞个单词不重复的组合。那么这个时候我们就可以想到读书时所学的排列组合知识了,而这个在Python中可以怎么实现呢?我记录如下: 使用itertools模块实现排列组合 在 Python 中&#xff…

从0入门自主空中机器人-4-【PX4与Gazebo入门】

前言: 从上一篇的文章 从0入门自主空中机器人-3-【环境与常用软件安装】 | MGodmonkeyの世界 中我们的机载电脑已经安装了系统和常用的软件,这一篇文章中我们入门一下无人机常用的开源飞控PX4,以及ROS中无人机的仿真 1. PX4的安装 1.1 PX4固件代码的下载…

搭建vue项目

一、环境准备 1、安装node node官网:https://nodejs.org/zh-cn 1.1、打开官网,选择“下载”。 1.2、选择版本号,选择系统,根据需要自行选择,上面是命令安装方式,下载是下载安装包。 1.3、检查node安装…

深度学习笔记(5)——目标检测和图像分割

目标检测与图像分割 语义分割:如果没有语义信息,很难正确分类每个像素 解决方案:感知像素周围的语义,帮助正确分类像素 滑窗计算:计算非常低效,图像块的重叠部分会被重复计算很多次 解决方案:转向全卷积 全卷积问题:分类模型会大幅降低特征的分辨率,难以满足分割所需的高分辨…

go语言的成神之路-筑基篇-gin常用功能

第一节-gin参数绑定 目录 第一节-?gin参数绑定 ShouldBind简要概述 功能: 使用场景: 可能的错误: 实例代码 效果展示 第二节-gin文件上传 选择要上传的文件 选择要上传的文件。 效果展示? 代码部分 第三节-gin请求重定向 第…

【Leecode】Leecode刷题之路第93天之复原IP地址

题目出处 93-复原IP地址-题目描述 题目描述 个人解法 思路: todo代码示例:(Java) todo复杂度分析 todo官方解法 93-复原IP地址-官方解法 方法1:回溯 思路: 代码示例:(Java&…

【新方法】通过清华镜像源加速 PyTorch GPU 2.5安装及 CUDA 版本选择指南

下面详细介绍所提到的两条命令,它们的作用及如何在你的 Python 环境中加速 PyTorch 等库的安装。 1. 设置清华镜像源 pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple这条命令的作用是将 pip (Python 的包管理工具&#xf…

CES Asia 2025的低空经济展区有哪些亮点?

CES Asia 2025(赛逸展)的低空经济展区有以下亮点: • 前沿科技产品展示: 多款新型无人机将亮相,如固定翼无人机和系留无人机的最新型号,其在监测、救援和货物运输等方面功能强大。此外,还有可能…

python数据分析之爬虫基础:selenium详细讲解

目录 1、selenium介绍 2、selenium的作用: 3、配置浏览器驱动环境及selenium安装 4、selenium基本语法 4.1、selenium元素的定位 4.2、selenium元素的信息 4.3、selenium元素的交互 5、Phantomjs介绍 6、chrome handless模式 1、selenium介绍 (1…

Python学生管理系统(MySQL)

上篇文章介绍的Python学生管理系统GUI有不少同学觉得不错来找博主要源码,也有同学提到老师要增加数据库管理数据的功能,本篇文章就来介绍下python操作数据库,同时也对上次分享的学生管理系统进行了改进了,增加了数据库&#xff0c…

二,Python常用库(共16个)

二,常用库(共15个 二,Python常用库(共15个)1,os模块2,json模块2.1 猴子补丁S 3,random模块4,string模块5,异常处理5.1 错误类型5.1 逻辑错误两种处理方式5.1.1 错误时可以预知的5.1.2 错误时不可…

Linux第99步_Linux之点亮LCD

主要学习如何在Linux开发板点亮屏,以及modetest命令的实现。 很多人踩坑,我也是一样。关键是踩坑后还是实现不了,这样的人确实很多,从群里可以知道。也许其他人没有遇到这个问题,我想是他运气好。 1、修改设备树 1)、…