YOLOv5复现(论文复现)

YOLOv5复现(论文复现)

本文所涉及所有资源均在传知代码平台可获取

文章目录

    • YOLOv5复现(论文复现)
        • 概述
        • 模型结构
        • 正负样本匹配策略
        • 损失计算
        • 数据增强
        • 使用方式
          • 训练
          • 测试
          • 验证
          • Demo

概述

YOLOv5是由Ultralytics公司于2020年6月开源的目标检测模型,具有轻量化、易用性和高性能等特点,在不同的硬件平台上提供了很好的速度和性能平衡,凭借其优秀的实时性和准确性在工业、安防、无人驾驶和许多其他领域都有广泛的应用。YOLOv5是YOLO系列中最受欢迎的工作之一,但就其整体架构而言,YOLOv5可以看作是YOLOv4的“精心调教”版,通过对YOLOv4的网络结构、优化器超参、数据预处理超参、损失函数超参等多个超参数调优,使得YOLOv5的性能要远远优于YOLOv4,但整体架构仍旧延续了YOLOv4的Backbone+SPP+PaFPN+Head的结构,并无较大的改动。从结构上来看,YOLOv5仍采用了YOLOv4的CSPDarkNet结构,设计了width因子和depth因子来对模型做缩放,从而构建出了N/S/M/L/X等不同的模型尺度;从标签分配角度来看,YOLOv5依旧是anchor-based路线,且沿用了YOLOv3以来的anchor box参数,但将YOLOv4还在用的IoU-based匹配策略修改为shape-based匹配策略(长宽比阈值),可以为每个目标分配更多的正样本;从损失函数角度来看,还是objectness+classification+regression三部分损失,且损失函数与YOLOv4是一致的。从使用角度来看,YOLOv5相比YOLOv4有了很大的进步,采用了更加流行的pytorch框架,使得上手难度大大降低,并提供了更加完善的文档和更加丰富的预训练权重

模型结构

YOLOv5的结构可以大体上分为“主干网络backbone+SPP颈部网络+PaFPN特征金字塔+检测头”,如下图所示,图的上半部分为模型总览;下半部分为具体网络结构

在这里插入图片描述

首先是主干网络,和YOLOv4 的主干网络相同,都采用了基于CSP结构的CSPDarkNet网络,CSPNet是一种增强CNN学习能力的跨阶段局部网络。CSPNet全称是Cross Stage Partial Network,主要从网络结构设计的角度来解决以往工作在推理过程中需要很大计算量的问题,其能够在降低20%计算量的情况下保持甚至提高CNN的能力。不同的是,在YOLOv4中,CSPDarkNet遵循“12884”的设计来得到CSPDarkNet-53,而YOLOv5则进一步将其修改为“3993”的结构,以便后续在模型深度的层面上做缩放。相较于YOLOv4 的“12884”,YOLOv5则在模型的第一阶段中不加入CSP模块,仅仅使用一个kernel较大的卷积来做第一次的降采样,随后才使用CSP模块。整体上来看,和YOLOv4的CSPDarkNet-53的框架是一样的,没有本质区别,不过是在深度和宽度上做了一些调整,且第一阶段的结构不大相同:YOLOv4的第一阶段使用了CSP模块(深度为1),而YOLOv5的第一阶段仅使用一个大核卷积。为了调控YOLOv5的模型规模,一共设计了5套尺度因子,如下表所示,其中 depth 控制网络结构深度,主要作用在CSP模块中来调整其中的残差块的数量,进而调整了网络的深度;width 控制网络结构宽度,即模块输出特征图的通道数

模型尺度宽度因子width深度因子depth
N0.250.34
S0.500.34
M0.750.67
L1.01.0
X1.251.34

CSPDarkNet实现代码如下

# CSPDarkNet
class CSPDarkNet(nn.Module):
    def __init__(self, depth=1.0, width=1.0, act_type='silu', norm_type='BN', depthwise=False):
        super(CSPDarkNet, self).__init__()
        self.feat_dims = [round(64 * width), round(128 * width), round(256 * width), round(512 * width), round(1024 * width)]
        # P1/2
        self.layer_1 = Conv(3, self.feat_dims[0], k=6, p=2, s=2, act_type=act_type, norm_type=norm_type, depthwise=depthwise)
        # P2/4
        self.layer_2 = nn.Sequential(
            Conv(self.feat_dims[0], self.feat_dims[1], k=3, p=1, s=2, act_type=act_type, norm_type=norm_type, depthwise=depthwise),
            CSPBlock(in_dim       = self.feat_dims[1],
                     out_dim      = self.feat_dims[1],
                     expand_ratio = 0.5,
                     nblocks      = round(3*depth),
                     shortcut     = True,
                     act_type     = act_type,
                     norm_type    = norm_type,
                     depthwise    = depthwise)
        )
        # P3/8
        self.layer_3 = nn.Sequential(
            Conv(self.feat_dims[1], self.feat_dims[2], k=3, p=1, s=2, act_type=act_type, norm_type=norm_type, depthwise=depthwise),
            CSPBlock(in_dim       = self.feat_dims[2],
                     out_dim      = self.feat_dims[2],
                     expand_ratio = 0.5,
                     nblocks      = round(9*depth),
                     shortcut     = True,
                     act_type     = act_type,
                     norm_type    = norm_type,
                     depthwise    = depthwise)
        )
        # P4/16
        self.layer_4 = nn.Sequential(
            Conv(self.feat_dims[2], self.feat_dims[3], k=3, p=1, s=2, act_type=act_type, norm_type=norm_type, depthwise=depthwise),
            CSPBlock(in_dim       = self.feat_dims[3],
                     out_dim      = self.feat_dims[3],
                     expand_ratio = 0.5,
                     nblocks      = round(9*depth),
                     shortcut     = True,
                     act_type     = act_type,
                     norm_type    = norm_type,
                     depthwise    = depthwise)
        )
        # P5/32
        self.layer_5 = nn.Sequential(
            Conv(self.feat_dims[3], self.feat_dims[4], k=3, p=1, s=2, act_type=act_type, norm_type=norm_type, depthwise=depthwise),
            SPPF(self.feat_dims[4], self.feat_dims[4], expand_ratio=0.5),
            CSPBlock(in_dim       = self.feat_dims[4],
                     out_dim      = self.feat_dims[4],
                     expand_ratio = 0.5,
                     nblocks      = round(3*depth),
                     shortcut     = True,
                     act_type     = act_type,
                     norm_type    = norm_type,
                     depthwise    = depthwise)
        )

    def forward(self, x):
        c1 = self.layer_1(x)
        c2 = self.layer_2(c1)
        c3 = self.layer_3(c2)
        c4 = self.layer_4(c3)
        c5 = self.layer_5(c4)

        outputs = [c3, c4, c5]

        return outputs

对于颈部网络,yolov5使用了和YOLOv4中类似的SPP模块。SPP(Spatial Pyramid Pooling)利用不同的池化核尺寸提取特征的方式可以获得丰富的特征信息,有利于提高网络的识别精度。对每个特征图,使用三种不同尺寸的池化核进行最大池化,分别得到预设的特征图尺寸,最后将所有特征图展开为特征向量并融合,确保输入预定义全连接层的feature vector(特征向量)是固定尺寸。

对于特征金字塔,yolov5使用了PaFPN结构,将FPN(Feature pyramid network)和PANet(Path Aggregation Network)结合起来,通过Bottom-Up和Top-down结构充分融合高层特征和底层特征。相较于YOLOv4,YOLOv5在PaFPN中添加了CSP模块,取代了早期的包含5层卷积的简单模块,同时也加入了depth因子来调整PaFPN的深度。

对于检测头,输出objectness+classification+regression。采用的是解耦检测头,将检测头的类别特征分支的输出去做classification,将检测头的位置特征分支的输出去做regression和objectness

正负样本匹配策略

正负样本匹配策略的核心是确定预测特征图的所有位置中哪些位置应该是正样本,哪些是负样本,甚至有些是忽略样本。 匹配策略是目标检测算法的核心,一个好的匹配策略可以显著提升算法性能。采用了 anchor 和 gt_bbox 的 shape 匹配度作为划分规则,同时引入跨邻域网格策略来增加正样本。对于任何一个输出层,抛弃了常用的基于 IoU 匹配的规则,而是直接采用 shape 规则匹配,也就是该 GT Bbox 和当前层的 Anchor 计算宽高比,如果宽高比例大于设定阈值,则说明该 GT Bbox 和 Anchor 匹配度不够,将该 GT Bbox 暂时丢掉,在该层预测中该GT Bbox 对应的网格内的预测位置认为是负样本。接下来, 只需要确定这些anchor box都是来自于哪个特征金字塔等级,从而去计算目标框在相应的特征金字塔等级上的中心点坐标

损失计算

YOLOv5 中总共包含 3 个 Loss,分别为:

  • classification loss:使用的是 BCE loss
  • Objectness loss:使用的是 BCE loss
  • Regression loss:使用的是 CIoU loss

三个 loss 按照一定比例汇总,对Objectness 和classification 分别设置为1.0,对于Regression 则设置为5.0

数据增强

YOLOv5 中使用的数据增强比较多,包括:

  • Mosaic 马赛克
  • RandomAffine 随机仿射变换
  • MixUp
  • 图像模糊等采用Python的 albumentations库实现的变换
  • HSV 颜色空间增强
  • 随机水平翻转

其中 Mosaic 数据增强概率为 1,表示一定会触发,而对于 small 和 nano 两个版本的模型不使用 MixUp,其他的 l/m/x 系列模型则采用了 0.1 的概率触发 MixUp。小模型能力有限,一般不会采用 MixUp 等强数据增强策略。当四张640×640的图像被拼接成1280×1280的马赛克图像后,会再使用随机仿射变换从中截取出新的640×640图像,作为最终用于训练的马赛克增强

使用方式

创建python虚拟环境

conda create -n yolov5 python=3.8
conda activate yolov5

安装相关依赖

pip install -r requirents.txt

准备数据集(如果需要从头训练YOLOv5模型,则需要下载数据集,如果只是使用YOLOv5进行目标检测则可以不用下载,可以使用自己的数据进行测试)官网下载COCO数据集,如下图红色框所示

在这里插入图片描述

下载完成并解压后后目录如下:

F:\datasets
|___COCO2017
	|___annotations
		|____instances_train2017.json
		|____instances_val2017.json
		...
	|___train2017
		|____000000000009.jpg
		...
	|___val2017
		|____000000000139.jpg
		...

2.清洗COCO数据集,会在annotations目录下生成instances_train2017_clean.json和instances_val2017_clean.json

cd tools/
python clean_coco.py --root path/to/coco --image_set train
python clean_coco.py --root path/to/coco --image_set val

3.检查COCO数据集

python dataset/coco.py

下面的实验都以yolov5_s模型为例,如需换成其他模型,将命令中的参数-m yolov5_s换成其他模型即可,如-m yolov5_l

训练

使用COCO数据集从头开始训练YOLOv5模型(将下面的F:\datasets\换成自己数据集路径)

python train.py --cuda -d coco --root F:\datasets\ -m yolov5_s -bs 1 --max_epoch 300 --wp_epoch 1 --eval_epoch 10 --fp16 --ema --multi_scale
测试

使用COCO2017val数据集测试训练好的模型,会依次看到检测结果的可视化图像(将yolov5_s_coco_adamw.pth换成自己模型权重的路径)

python test.py -d coco --cuda -m yolov5_s --img_size 640 --weight yolov5_s_coco_adamw.pth --root F:\datasets\ --no_multi_labels --show
验证

使用COCO2017val数据集验证训练好的模型,会看到COCO风格的AP结果输出

python eval.py -d coco --cuda -m yolov5_s --img_size 640 --weight yolov5_s_coco_adamw.pth --root F:\datasets\
Average Precision (AP) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.444
Average Precision (AP) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.519
Average Recall (AR) @[ IoU=0.50:0.95 | area= all | maxDets= 1 ] = 0.324
Average Recall (AR) @[ IoU=0.50:0.95 | area= all | maxDets= 10 ] = 0.544
Average Recall (AR) @[ IoU=0.50:0.95 | area= all | maxDets=100 ] = 0.612
Average Recall (AR) @[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.432
Average Recall (AR) @[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.685
Average Recall (AR) @[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.766
ap50_95 : 0.3912800741053746
ap50 : 0.5693696831091651
Demo

使用自己的数据测试训练好的模型,需将下面的path_to_img和path_to_vid换成图片或视频的路径,将weight换成YOLOv5模型权重的路径.

图片

python demo.py --mode image --path_to_img dataset\demo\images --cuda --img_size 640 --model yolov5_s --weight yolov5_s_coco_adamw.pth --dataset coco --num_classes 80 --show

视频

python demo.py --mode video --path_to_vid dataset\demo\videos\01.mp4 --cuda --img_size 640 -m yolov5_s --weight yolov5_s_coco_adamw.pth --show --gif

文章代码资源点击附件获取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/888334.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【架构】prometheus+grafana系统监控

文章目录 一、Prometheus简介二、Grafana简介三、PrometheusGrafana系统监控的实现四、优势与应用场景 参考 PrometheusGrafana系统监控是一个强大的组合,用于实时监控和分析系统的性能与状态。以下是对这一组合在系统监控中的详细解析: 一、Prometheus…

【牛顿迭代法求极小值】

牛顿迭代法求极小值 仅供参考 作业内容与要求 作业内容 作业要求 递交报告 代码 编程实现 计算偏导数 故上述非线性方程组的根可能为 f ( x , y ) f(x, y) f(x,y)的极值点,至于是极小值点还是极大值点或鞍点,就需要使用微积分中的黑塞矩阵来判断了。…

避雷!Google Adsense联盟营销七大投放误区

你是否在使用Google AdSense进行广告投放?你是否想进一步优化你的投放策略?那么这篇文章你不可错过啦! Google AdSense为跨境商家提供了一个平台,我们可以通过展示相关广告来赚取收入。然而,即使是最有经验的商家也可…

C语言指针plus版练习

上期我们讲了进阶的指针,本期内容我们来强化一下上期学的内容 一、字符串左旋 实现一个函数,可以左旋字符串中的k个字符。 1.1 分析题目 假设字符串为abcde,左旋一个以后就变成bcdea,就是把第一个字符移到一个新的变量里面&#…

【C++篇】领略模板编程的进阶之美:参数巧思与编译的智慧

文章目录 C模板进阶编程前言第一章: 非类型模板参数1.1 什么是非类型模板参数?1.1.1 非类型模板参数的定义 1.2 非类型模板参数的注意事项1.3 非类型模板参数的使用场景示例:静态数组的实现 第二章: 模板的特化2.1 什么是模板特化?2.1.1 模板…

Leetcode 10. 正则表达式匹配

1.题目基本信息 1.1.题目描述 给你一个字符串 s 和一个字符规律 p,请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配。 ‘.’ 匹配任意单个字符‘*’ 匹配零个或多个前面的那一个元素 所谓匹配,是要涵盖 整个 字符串 s 的,而不是部分…

阿里云云虚拟主机SSL证书安装指南

在安装SSL证书的过程中,您需要确保已经正确获取了SSL证书文件,并且能够访问阿里云云虚拟主机的管理页面。以下是详细的步骤说明: 第一步:准备SSL证书 申请SSL证书:访问华测ctimall网站(https://www.ctimal…

初始爬虫12(反爬与反反爬)

学到这里,已经可以开始实战项目了,多去爬虫,了解熟悉反爬,然后自己总结出一套方法怎么做。 1.服务器反爬的原因 服务器反爬的原因 总结: 1.爬虫占总PV较高,浪费资源 2.资源被批量抓走,丧失竞争力…

ICC2:voltage area visual mode

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 使用 Voltage Areas Visual Mode 可以高亮与选择select power domains, level shifters,isolation cells, 和其他 power domains相关的cell。 打开visual mode的操作:Highlight > Color By &g…

1000题-计算机网络系统概述

术语定义与其他术语的关系SDU(服务数据单元)相邻层间交换的数据单元,是服务原语的表现形式。在OSI模型中,SDU是某一层待传送和处理的数据单元,即该层接口数据的总和。 - SDU是某一层的数据集,准备传递给下一…

【EXCEL数据处理】000010 案列 EXCEL文本型和常规型转换。使用的软件是微软的Excel操作的。处理数据的目的是让数据更直观的显示出来,方便查看。

前言:哈喽,大家好,今天给大家分享一篇文章!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 【EXCEL数据处理】000010 案列 EXCEL单元格格式。EXCEL文本型和常规型转…

RFID学习

24.10.5学习目录 一.简介1.组成2.RFID协议3.RFID卡 一.简介 RFID被称为无线射频识别,其是一种通信技术,通过无线电讯号耦合识别特定目标并读写相关数据; RFID主要位于典型物联网架构中的感知层,其因为具有非接触式特性&#xff…

TryHackMe 第7天 | Web Fundamentals (二)

继续介绍一些 Web hacking 相关的漏洞。 IDOR IDOR (Insecure direct object reference),不安全的对象直接引用,这是一种访问控制漏洞。 当 Web 服务器接收到用户提供的输入来检索对象时 (包括文件、数据、文档),如果对用户输入数据过于信…

基于SpringBoot健身房管理系统【附源码】

效果如下: 系统首页界面 系统注册详细页面 健身课程详细页面 后台登录界面 管理员主页面 员工界面 健身教练界面 员工主页面 健身教练主页面 研究背景 随着生活水平的提高和健康意识的增强,现代人越来越注重健身。健身房作为一种专业的健身场所&#x…

前端工程化17-邂逅原生的ajax、跨域、JSONP

5、邂逅原生的ajax 5.1、什么是ajax AJAX 全称为Asynchronous Javascript And XML,就是异步的 JS 和 XML。通过AJAX可以在浏览器中向服务器发送异步请求,最大的优势:页面无刷新获取数据。AJAX 不是新的编程语言,而是一种将现有的…

windows配置C++编译环境和VScode C++配置(保姆级教程)

1.安装MinGW-w64 MinGW-w64是一个开源的编译器套件,适用于Windows平台,支持32位和64位应用程序的开发。它包含了GCC编译器、GDB调试器以及其他必要的工具,是C开发者在Windows环境下进行开发的重要工具。 我找到了一个下载比较快的链接&#…

Excel下拉菜单制作及选项修改

Excel下拉菜单 1、下拉菜单制作2、下拉菜单修改 下拉框(选项菜单)是十分常见的功能。Excel支持下拉框制作,通过预设选项进行菜单选择,可以避免手动输入错误和重复工作,提升数据输入的准确性和效率 1、下拉菜单制作 步…

硬盘数据恢复的方法有哪几种?9种妙招速览

在当今数字化时代,硬盘数据的安全至关重要。然而,数据丢失的情况时有发生,掌握硬盘数据恢复方法显得尤为重要。本文将详细介绍几种有效的硬盘数据恢复方法,帮助用户在遇到数据丢失问题时,能够迅速采取措施,…

LabVIEW提高开发效率技巧----使用动态事件

在LabVIEW开发过程中,用户交互行为可能是多样且不可预知的。为应对这些变化,使用动态事件是一种有效的策略。本文将从多个角度详细介绍动态事件的概念及其在LabVIEW开发中的应用技巧,并结合实际案例,说明如何通过动态事件提高程序…

github——指标统计

github——指标统计 它的作用特定项目统计首页展示 github-readme-stats是一个可以统计指定用户github指标的项目。可以使用此项目统计自己的github,用于首页展示。效果如图: 它的作用 它可以: 统计git操作统计账户编程语言构成比例解除githu…