YOLOv5改进 | 卷积篇 | SPD-Conv空间深度转换卷积(高效空间编码技术)

一、本文介绍

本文给大家带来的改进内容是SPD-Conv(空间深度转换卷积)技术。SPD-Conv是一种创新的空间编码技术,它通过更有效地处理图像数据来改善深度学习模型的表现。SPD-Conv的基本概念:它是一种将图像空间信息转换为深度信息的技术,从而使得卷积神经网络(CNN)能更加有效地学习图像特征。这种方法通过减少信息损失和提高特征提取的准确性,优化了模型对小物体和低分辨率图像的处理能力。我在YOLOv8中利用SPD-Conv被用于替换传统的步长卷积和池化层,在不牺牲精确度的情况下减少计算复杂度(精度甚至略有提升)。本文后面会有SPD-Conv的代码和使用方法,手把手教你添加到自己的网络结构中(值得一提的是该卷积模块可以做到轻量化模型的作用GFLOPs由8.9降低到8.2,参数量也有一定降低)

推荐指数:⭐⭐⭐⭐⭐

  专栏回顾:YOLOv5改进专栏——持续复现各种顶会内容——内含100+创新

训练结果对比图->  

二、SPD-Conv构建块原理

论文地址:论文官方地址

代码地址:


2.1 SPD-Conv的基本原理

SPD-Conv(空间到深度卷积)的基本原理是用于改进传统卷积神经网络(CNN)中对小物体和低分辨率图像处理的性能。它主要通过以下几个关键步骤实现:

1. 替换步长卷积和池化层:SPD-Conv设计用来替代传统CNN架构中的步长卷积层和池化层。步长卷积和池化层在处理低分辨率图像或小物体时会导致细粒度信息的丢失。

2. 空间到深度(SPD)层:SPD层的作用是降采样特征图的通道维度,同时保留信息。这种方式可以避免传统方法中的信息丢失。

3. 非步长卷积层:在SPD层之后,SPD-Conv使用一个非步长(即步长为1)的卷积层。这有助于在降低通道数量的同时利用可学习的参数对特征进行处理。

以下是我对这个图的理解:

1. 特征图 (a):传统的特征图,具有通道数 C_{1}​,高度和宽度。
2. 空间到深度变换 (b):通过空间到深度操作,将像素的空间块重新排列到深度/通道维度,增加通道数到 4C_{1}​,同时将空间维度缩小2倍。
3. 通道合并 (c):不同的通道组在通道维度上进行合并。
4. 加法操作 (d):合并的特征图可能会与其他处理过的特征图(图中未详细展示)进行加法操作。
5. 非步长卷积 (e):对结果特征图应用步长为1的卷积,减少通道维度至C_{2}​,同时保持空间分辨率,其仍是原始大小的1/2。

2.1.1替换步长卷积和池化层

论文中提出的SPD-Conv构建块是为了替代传统CNN中的步长卷积和池化层。步长卷积和池化层在处理低分辨率图像和小物体时会导致信息的丢失。SPD-Conv使用空间到深度(SPD)层,该层将特征图的空间维度转换成深度维度,通过增加通道数来保留更多信息。随后是非步长卷积层,它保持了空间维度,减少了通道数。这种替代方法避免了信息的丢失,并允许网络捕获更精细的特征,从而提高了在复杂任务上的性能。

上图是SPD-Conv论文中的一个图表,展示了如何在YOLOv5的结构中实施SPD-Conv(在YOLOv8中同样适用)。图中标红的部分代表了SPD-Conv替换传统卷积操作的地方。YOLOv5的架构被分为三个主要部分:

1. 主干网络(Backbone):这是特征提取的核心部分,每个SPD和Conv层的组合都替换了原始YOLOv5中的步长卷积层。
2. 颈部(Neck):这部分用于进一步处理特征图,以获得不同尺度的特征,从而提高检测不同大小物体的能力。它也包含SPD和Conv层的组合,以优化特征提取。
3. 头部(Head):这是决策部分,用于物体检测任务,包括定位和分类。头部保持了YOLO原始架构的设计。

直连线表示直接的前向连接,虚线代表跳跃连接,用于整合不同层次的特征。


2.1.2 空间到深度(SPD)层

空间到深度(SPD)层是SPD-Conv中的一个关键组件,其作用是将输入特征图的空间块(像素块)重新排列进入深度(通道)维度,以此来增加通道数,同时减少空间分辨率,但不丢失信息。通过这种方式,这一转换允许CNN捕捉和保留在处理小物体和低分辨率图像时经常丢失的精细信息。SPD层后面紧跟的是非步长卷积层,它进一步处理重新排列后的特征图,确保有效特征的提取和使用​​。通过这种方法,SPD-Conv能够在特征提取阶段保留更丰富的信息,从而提高模型对于小物体和低分辨率图像的识别性能。


2.1.3 非步长卷积层

在SPD-Conv的背景下,非步长卷积层采用的是步长为1的卷积操作,意味着在卷积过程中,滤波器(或称为卷积核)会在输入特征图上逐像素移动,没有跳过任何像素。这样可以确保在特征图的每个位置都能应用卷积核,最大程度地保留信息,并生成丰富的特征表示。非步长卷积层是紧随空间到深度(SPD)层的一个重要组成部分。在SPD层将输入特征图的空间信息重新映射到深度(通道)维度后,非步长卷积层(即步长为1的卷积层)被用来处理这些重新排列的特征图。由于步长为1,这个卷积层不会导致任何进一步的空间分辨率降低,这允许网络在不损失细节的情况下减少特征图的通道数。这种方法有助于改善特征的表征,特别是在处理小物体或低分辨率图像时,这些场景在传统CNN结构中往往会丢失重要信息。


2.2 检测效果

上图比较了标准YOLOv5m模型和集成了SPD-Conv的改进版本YOLOv5-SPD-m的性能。紫色框表示标准YOLOv5m的预测,绿色框显示了YOLOv5-SPD-m的预测。蓝色框代表地面真相(ground truth)。红色箭头突出了两个模型预测之间的差异。

从图像中我们可以看出,YOLOv5-SPD-m(绿色框)的预测与地面真相更为接近,与YOLOv5m(紫色框)的预测相比,这表明将SPD-Conv整合进YOLOv5能增强模型准确检测物体的能力,这对于需要精确定位和识别的应用来说至关重要,例如自动驾驶或监控。

三、SPD-Conv完整代码

我们找到如下的目录'yolov5-master/models'在这个目录下创建一个文件目录(注意是目录,因为我这个专栏会出很多的更新,这里用一种一劳永逸的方法)文件目录起名modules,然后在下面新建一个文件,将我们的代码复制粘贴进去。

class SPDConv(nn.Module):
    """Standard convolution with args(ch_in, ch_out, kernel, stride, padding, groups, dilation, activation)."""
    default_act = nn.SiLU()  # default activation
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, d=1, act=True):
        """Initialize Conv layer with given arguments including activation."""
        super().__init__()
        c1 = c1 * 4
        self.conv = nn.Conv2d(c1 , c2, k, s, autopad(k, p, d), groups=g, dilation=d, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = self.default_act if act is True else act if isinstance(act, nn.Module) else nn.Identity()

    def forward(self, x):
        x = torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1)
        """Apply convolution, batch normalization and activation to input tensor."""
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        """Perform transposed convolution of 2D data."""
        x = torch.cat([x[..., ::2, ::2], x[..., 1::2, ::2], x[..., ::2, 1::2], x[..., 1::2, 1::2]], 1)
        return self.act(self.conv(x))

四、手把手教你添加SPD-Conv

4.1 细节修改教程

4.1.1 修改一

我们找到如下的目录'yolov5-master/models'在这个目录下创建一个文件目录(注意是目录,因为我这个专栏会出很多的更新,这里用一种一劳永逸的方法)文件目录起名modules,然后在下面新建一个文件,将我们的代码复制粘贴进去。


​4.1.2 修改二

然后新建一个__init__.py文件,然后我们在里面添加一行代码。注意标记一个'.'其作用是标记当前目录。


4.1.3 修改三 

然后我们找到如下文件''models/yolo.py''在开头的地方导入我们的模块按照如下修改->

(如果你看了我多个改进机制此处只需要添加一个即可,无需重复添加。)

​​​​


4.1.4 修改四

然后我们找到parse_model方法,按照如下修改->

到此就修改完成了,复制下面的ymal文件即可运行。


4.2 SPD-Conv的yaml文件(仔细看这个否则会报错)

4.2.1 SPD-Conv的yaml文件一

下面的配置文件为我修改的SPD-Conv的位置(这里需要注意的是你可以和初始的yaml对比一下修改了SPD-Conv的参数被修改了,你如果不修改该卷积那么则不需要修改另外两个参数),同时该卷积只能替换卷积核为3和步长为2的卷积。

# YOLOv5 🚀 by Ultralytics, AGPL-3.0 license

# Parameters
nc: 80  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.25  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, SPDConv, [128]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, SPDConv, [256]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, SPDConv, [512]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, SPDConv, [1024]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]

# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, SPDConv, [256]],
   [[-1, 14], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, SPDConv, [512]],
   [[-1, 10], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]


4.2.2 SPD-Conv的yaml文件二

# YOLOv5 🚀 by Ultralytics, AGPL-3.0 license

# Parameters
nc: 80  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.25  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, SPDConv, [128]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, SPDConv, [256]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, SPDConv, [512]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, SPDConv, [1024]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]

# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]

4.3 SPD-Conv运行成功截图

附上我的运行记录确保我的教程是可用的。 


五、本文总结 

到此本文的正式分享内容就结束了,在这里给大家推荐我的YOLOv5改进有效涨点专栏,本专栏目前为新开的平均质量分98分,后期我会根据各种最新的前沿顶会进行论文复现,也会对一些老的改进机制进行补充,目前本专栏免费阅读(暂时,大家尽早关注不迷路~),如果大家觉得本文帮助到你了,订阅本专栏,关注后续更多的更新~

专栏回顾:YOLOv5改进专栏——持续复现各种顶会内容——内含100+创新

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/254160.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

叙永县微公益协会举办“对不适触碰说‘NO’”预防性侵教育活动

(梁平 赵维维)12月16日,一场主题为“对不适触碰说‘NO’”的预防性侵教育活动在叙永县摩尼社工站成功举行。此次活动由叙永县微公益协会主办,得到了叙永县民政局和摩尼镇人民政府的大力支持和指导。本次活动旨在加强儿童性教育&am…

字节跳动回应被 OpenAI 封禁账户:正与 OpenAI 联系沟通

据 The Verge 报道,字节跳动一直在秘密使用 OpenAI 的技术开发自己的具有竞争性的大语言模型,这违反了 OpenAI 的服务条款。目前,字节跳动的账户已被 OpenAI 暂停。 OpenAI 的服务条款规定,公司所输出的模型不能被用于「开发任何…

a*算法代码 python,python isalpha方法

大家好,小编来为大家解答以下问题,a*算法代码 python,python isalpha方法,今天让我们一起来看看吧! 更新: GitHub - pierrepaleo/sift_pyocl: An implementation of SIFT on GPU with OpenCL python-siftgp…

回收站数据恢复,分享3个可行方法!

“我真的太粗心啦!本来想删除一些电脑里不重要的文件,但是不小心把一些很重要的文件一起删除了,这可怎么办呢?我应该通过什么方法找回这些文件呢?” 在使用电脑的过程中,误删文件是很多用户都无法避免的一件…

【Swiss-Model 同源建模】

Swiss-Model是一种同源建模方法,其基本原理是利用序列的同源性来推断蛋白质的三维结构。具体来说,就是通过找到与目标蛋白质序列同源且结构已知的模板蛋白质,来预测目标蛋白质的结构。 同源建模的主要步骤包括: 模板的确定&…

【网络协议】网络运维管理神经-SNMP协议

文章目录 什么是SNMP?SNMP的组件SNMP的历史版本SNMP端口SNMP配置案例SNMP工作原理SNMP的基本工作原理SNMP的操作类型SNMP TrapsSNMP Inform SNMP的应用场景推荐阅读 什么是SNMP? SNMP(Simple Network Management Protocol,简单网…

css的元素显示模式(有单行文字垂直居中,侧边栏等案例)

目录 1. 什么是元素的显示模式 2. 元素显示模式的类型 块元素 行内元素 行内块元素 3. 元素显示模式的转换 4.文字垂直居中 5.具体实现案例 1. 什么是元素的显示模式 定义:元素显示模式就是元素(标签)以什么方式进行显示,…

SpringBoot整合Redis——实现点赞功能

目录 点赞功能 设计思路 实现 正在思考和学习的问题 回顾redis中的set 使用方法 使用场景 回顾springboot整合redis 1.引入必要的依赖。 2.在配置文件application.properties/yml中 配置redis的连接信息 3. 测试 点赞功能 设计思路 点赞功能的两个接口: 1.点赞&…

Spring之容器:IOC(1)

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

自动封箱打包码垛缠绕流水线案例

广西交投在某地新建工厂后,需要建设一条生产隧道灯,后段自动封箱打包码垛缠绕包装线。 凯隆包装在深入了解客户需求后,结合客户实际生产情况,为客户量身定制了集智能感应系统、产品自动折盖上下封箱、捆扎两道打包带、码垛机械臂自…

Linux平台下HTTP协议使用指南与代码展示

在Linux平台下,HTTP协议的应用非常广泛,它被用于Web开发、网络爬虫、API调用等场景。了解并掌握HTTP协议,对于Linux系统的开发和使用都非常重要。下面,我们将为您介绍Linux平台下HTTP协议的使用指南,并通过代码展示来帮…

设计模式(3)--对象结构(4)--装饰

1. 意图 动态地给一个对象添加一些额外的功能。 2. 四种角色 抽象组件(Component)、具体组件(Concrete Component)、抽象装饰(Decorator)、具体装饰(Concrete Decorator) 3. 优点 3.1 比静态继承更灵活。 3.2 避免在层次结构高层的类有太多的特征。"即用即付"&…

【洛谷算法题】P1424-小鱼的航程(改进版)【入门2分支结构】Java题解

👨‍💻博客主页:花无缺 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 本文由 花无缺 原创 收录于专栏 【洛谷算法题】 文章目录 【洛谷算法题】P1424-小鱼的航程(改进版)【入门2分支结构】&#x1f30f…

程序员必备算法

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和技术。关…

60.Sentinel源码分析

Sentinel源码分析 1.Sentinel的基本概念 Sentinel实现限流、隔离、降级、熔断等功能,本质要做的就是两件事情: 统计数据:统计某个资源的访问数据(QPS、RT等信息) 规则判断:判断限流规则、隔离规则、降级规…

Linux下I2C调试工具--for--Zynq MPSOC/Jetson Xavier

Linux下I2C调试工具 1、简介 i2c-tools是一个专门调试i2c的工具,无需编写任何代码即可轻松调试IC设备,可获取挂载的设备及设备地址,还可以在对应的设备指定寄存器设置值或者获取值等功能。i2c-tools有如下几个常用测试命令i2cdetect, i2cdu…

【Go】基于GoFiber从零开始搭建一个GoWeb后台管理系统(四)用户管理、部门管理模块

第一篇:【Go】基于GoFiber从零开始搭建一个GoWeb后台管理系统(一)搭建项目 第二篇:【Go】基于GoFiber从零开始搭建一个GoWeb后台管理系统(二)日志输出中间件、校验token中间件、配置路由、基础工具函数。 …

新手运行若依项目|若依项目各部分介绍|并修改自己需要的页面

新手运行若依项目|若依项目各部分介绍|并修改自己需要的页面 文章目录 新手运行若依项目|若依项目各部分介绍|并修改自己需要的页面前言IEDA如何运行若依项目若依项目目录简介ruo-yi common工具类ruoyi-framework 框架核心其他部分ruo一admin后台服务通用配置 application.yml数…

STM32 TIM定时中断设计

单片机学习 目录 文章目录 一、定时器定时中断设计步骤 二、定时器配置 1.RCC开启时钟 2.选择时钟源 3.配置时基单元 4.配置输出中断控制 5.配置NVIC 6.运行控制 三、设计中断函数 总结 一、定时器定时中断设计步骤 定时中断基本框架结构图: 根据结构图可按步骤配置…

AWS RDS慢日志文件另存到ES并且每天发送邮件统计慢日志

1.背景:需要对aws rds慢日志文件归档到es,让开发能够随时查看。 2.需求:并且每天把最新的慢日志,过滤最慢的5条sql 发送给各个产品线的开发负责人。 3.准备: aws ak/sk ,如果rds 在不同区域需要认证不同的…