多篇论文介绍-可变形卷积

01 具有双层路由注意力的 YOLOv8 道路场景目标检测方法

01 摘要:

随着机动车的数量不断增加,道路交通环境变得更复杂,尤其是光照变化以及复杂背景都会干扰目标检测算法的准确性和精度,同时道路场景下多变形态的目标也会给检测任务造成干扰,针对这一系列问题,提出了一种YOLOv8n_T方法,在YOLOv8的基础上首先针对骨干网络构建了基于可变形卷积的D_C2f块,强化了特征提取网络对复杂背景下目标的特征学习,更好地适应道路目标复杂多变的情形;其次增加了双层路由注意力模块,以查询自适应的方式去除不相关的区域,留下相关度最高的区域;最后针对道路上行人、交通灯等小目标增加小目标检测层,实验表明,提出的 YOLOv8n_T有效提高了模型在道路场景下的目标检测精度,在BDD100K数据集上的平均精度比原始YOLOv8n提升了6.8个百分点,比YOLOv5n提升了11.2个百分点。

关键词:可变形卷积;道路场景;目标检测;YOLO;注意力机制

02 模块介绍

        在道路场景下,车辆行人等目标多样且复杂,由于目标的大小、形状、位置、方向等都育有一定的变化性,因此使用传统的卷积操作往往难以准确地捕获目标的准确位置,甚至可能会导致目标漏检或误检的问题。为了解决上述问题,本文采用 DAI等4提出的可变形卷积网络,重新构建了YOLOv8算法中C2f网络结构来提升网络的检测能力。
        在传统卷积中,每个卷积核都是固定形状的,因此无法处理物体形变的情况。而可变形卷积中,每个卷积核不再是一个固定的矩形,而是由一个基础网格和一组偏移量共同组成的可变形矩形。在进行卷积操作时,可以根据形状偏移量动态地调整卷积核的形态,从而更好地适应物体的形变。

 

02 基于空间注意力和可变形卷积的田间障碍物检测方法

01 摘要

摘要:为了解决传统田间障碍物识别方法依赖人工提取特征,计算耗时较长,难以实现在非结构化田间环境下实时作业识别的问题,提出一种优化的Mask R-CNN模型的非结构化农田障碍物实例分割方法。以ResNet50残差网络为基础,将空间注意力(Spatial attention, SA)引入残差结构,聚焦跟踪目标的显著性表观特征并主动抑制噪声等无用特征的影响;引入可变形卷积(Deformable convolution, DCN),通过加入偏移量,增大感受野,提高模型的鲁棒性。构建包含农田典型障碍物的数据集,通过对比实验研究在ResNet残差网络结构中的不同阶段中加入空间注意力和可变形卷积时的模型性能差异。结果表明,与Mask R-CNN原型网络相比,在ResNet的阶段2、阶段3、阶段5加入空间注意力和可变形卷积后,改进Mask R-CNN的边界框(Bbox)和掩膜(Mask)的平均精度均值(mAP)分别从、64.5%、56.9%提高到71.3%、62.3%。本文提出的改进Mask R-CNN可以很好地实现农田障碍物检测,可为植保无人机在非结构化农田环境下安全高效工作提供技术支撑。
关键词:田间障碍物;Mask R-CNN;空间注意力;可变形卷积

02 模块介绍

        由于非结构化田间障碍物形态各异,面积大小不一,这给障碍物识别任务带来了很大的困难,而且以往的卷积神经网络对整体特征的提取是依靠其固定的卷积结构,对于形态各异的目标特征提取的适应、调节能力较弱,目标识别能力不强,泛化能力差。实际上,传统的神经网络的卷积核通常是固定尺寸、固定大小的(3×3、5×5),难以自适应目标的形状变化[25]。为了解决限制传统卷积神经网络识别能力的这一难题,DAI等126提出了一种可变形卷积网络,替代传统的标准卷积,经研究表明,通过可变形卷积网络增加可训练的偏移量,从而适应目标形状的变化,有利于提高目标检测的鲁棒性[34-36]

        二维卷积的操作步骤为:①在输入特征图x上使用规则网格 R 进行采样;②用 加权的采样值进行求和。 一个 3×3 的卷积为

 

03 改进 YOLOv5 的高精度跌倒检测算法

01 摘要

摘要:针对原始YOLOv5在人体跌倒检测任务中无法有效应对复杂细节捕捉、变形处理、不同尺度目标适应和遮挡检测的困境,提出了一种基于C2D改进YOLOv5模型的新型高精度跌倒检测算法C2D-YOLO。首先,提出了一种名为C2D的新型特征提取模块,通过融合可变形卷积、标准卷积和通道空间混合注意机制,将其添加到主干网络中,旨在增强特征表征能力、更好地捕捉复杂细节和处理变形。其次,在颈部网络中,采用了Swin Transformer Block替代C3模块的瓶颈层,旨在最大限度地保留特征信息,以提升对不同尺度目标的检测精度并改善遮挡情况下的性能。最后,在借鉴YOLOX解耦结构的基础上对Yolov5的Head模块进行改进,旨在优化分类和回归性能。实验结果表明,相比现有的YOLOv5s,该方法的mAPO.5和mAP0.5:0.95分别提高了3.2%和6.5%,明显提升了检测精度,减少了误检率。
关键词: YOLOv5;跌倒检测; C2D; Swim Transformer Block;解耦结构

02 模块介绍

        跌倒检测任务场景具备独特且复杂的特征,包括广泛的姿态变化、丰富的细节以及目标形变。因此,在特征提取阶段仅使用标准卷积会导致一系列问题。首先,仅采用标准卷积( Standard Convolution, sC137)可能未能有效捕捉目标的细粒度细节,尤其是在涉及姿态较大的跌倒动作时,其感受野调整能力有限,导致细节信息的丢失或模糊。其次,标准卷积无法适应目标的形变,无法自适应地调整卷积核的采样位置,导致目标的定位准确性下降,容易产生误检。
        为了适应跌倒检测场景的特点并弥补仅使用标准卷积的不足,在特征提取阶段引入了可变形卷积第二版(Deformable ConvNets version 2,DCNv2[38] ) 。

        DCNv2通过引入可学习的形变参数,具备更强的感受野调整能力,能够更好地捕捉目标的细粒度细节并适应目标的形变。这种模块的引入填补了标准卷积在跌倒检测中的局限性,提升了特征表示能力和目标定位准确性,从而有效提升跌倒检测系统的性能和鲁棒性。这种优化方法能够更准确地检测和识别跌倒事件,提高整个系统在复杂场景下的可靠性。
        可变形卷积DCN是一种改进的卷积操作,通过引入偏移量来调整卷积核的形状,以更好地提取输入特征。DCNv2是对可变形卷积的改进,通过学习偏移和加权,提高了模型从变形物体中提取特征的能力。如图2所示,DCNv2包含两个步骤。首先是偏移量生成:通过卷积操作生成卷积核在输入特征图上沿着x和y方向的采样点偏移量。其次是采样和卷积:利用输入特征图和计算得到的偏移量进行双线性插值,确定卷积核在输入特征图上的采样点位置。最后,利用这些采样点进行卷积操作。

04 改进 YOLOv8 算法的遥感图像目标检测

01 摘要

摘要:针对遥感图像目标检测算法漏检和误检率高、目标定位不精确、无法准确识别目标类别等问题,提出一种改进YOLOv8的目标检测算法。为提高模型的损失函数对梯度分配的灵活性,适应各种形状和尺寸的物体,设计了非单调聚焦机制与边界框几何因素相结合的边界框回归损失函数;为扩大模型的感受野并削弱遥感图像背景对检测目标的影响,采用全局注意力机制与残差块结合的方式,设计了残差全局注意力机制;为使模型适应遥感图像中目标物体的形变与不规则排列,对YOLOv8模型中的C2f模块进行改进,融入可变形卷积与可变形RoI池化层。实验结果表明,在 DOTA数据集和RSOD数据集上,改进YOLOv8算法的mAP@0.5达到72.1%和94.6%,优于其它对比主流算法,提高了遥感图像目标检测的精度,为遥感图像识别提供了新的手段。
关键词目标检测;YOLOv8;WloU;GAM注意力机制;可变形卷积

02 模块介绍

        传统的卷积操作中,卷积核具有固定的像素点的位置,对输入图像的每个位置应用相同的卷积核。而在实际上,不同位置的图像可能具有不同的形变,常规卷积无法适应遥感图像的不规则布局与非刚性形变,因此可能导致遥感目标的特征提取不准确。
        以3*3卷积为例,普通卷积对于每一个输出特征图y,都要从输入特征图进行规则采样,再经过加权计算。其中采样是以中心位置向四周扩散得到的9个点,所得到的网格定义为R,如式( 16)所示

05 基于 SimAM 注意力机制的 DCN-YOLOv5 水下目标检测

01 摘要

摘要:【目的】针对水下环境复杂,水下目标因光线折射等问题导致的目标边界模糊或外观、形状可能会发生非刚性形变,使水下目标检测困难,提出了一种基于SimAM注意力机制的 DCN-YOLOv5水下目标检测方法。【方法】首先,采用YOLOv5所使用的双向金字塔网络(BiFPN, Bi-directional Feature Pyramid Network)在多个尺度上提取和融合特征信息,从而提高目标辨别的准确度;其次,针对水下目标的外观、形状的变化问题,将C3模块中的CBS模块结合可变形卷积(DCN, Deformable Convolution),提出DBS模块并组成D3模块替换部分C3模块,以适应水下目标的外观、形状的变化;同时,融入加权注意力机制(SimAM自适应地调节模型的关注度,进一步在复杂场景下增强特征表达能力;最后,考虑目标边界模糊,为改善目标定位精度,采用WIloU(Wise-loU)损失函数来替换交叉嫡损失,能够更好地适应不同目标类型和尺寸的特点,提高算法鲁棒性。【结果】实验结果表明,DCN-YOLOv5可以达到87.57%的平均精度(mAP),检测效果优于YOLOv5网络和其他经典网络,平均每张图像的识别时间仅为24.5ms。【结论】通过实验结果可以证明模型在检测精度明显提升的同时兼顾检测的实时性,对水下目标检测用于实际用途有着一定的参考价值。
关键词:水下目标检测; SimAM注意力机制;可变形卷积; WloU

02 模块介绍

        深度学习领域中,为了更好地捕捉和建模非刚性形态,Dai等[16提出了可变形卷积(DCN),DCN 通过添加可学习的偏移量的卷积层和全连接层,改进了传统的固定卷积核。这种改进使得模型能够根据不同物体或结构的形状变化来调整卷积核的大小和形状。通过降低模型的复杂性,DCN能够更好地适应图像中的目标,并提高对非刚性变形和遮挡等复杂情况的处理能力。Zhu等[17提出的DCNv2通过更全面地整合可变形卷积的特性,并引入了扩展可变形建模范围的调节机制,进一步提高了可变形卷积模型的建模能力。相比于DCN,DCNv2不仅能够调整感知输入特征的偏移量,还可以调节来自不同空间位置的输入特征的幅度,使得DCNv2在处理自适应能力有限问题方面表现出更好的性能。DCNv2的计算公式如式(2)一式(4)所示。

并获得更准确的像素值。

06 基于 YOLOv5 的无人机航拍改进目标检测算法 Dy-YOLO

01 摘要

摘要:由于无人机航拍具有场景复杂多样,目标尺度变化剧烈,高速低空运动模糊等诸多特性,给目标检测带来了很大的挑战.针对无人机航拍目标检测效果不佳的问题,提出了Dy-YOLO模型,在YOLOv5的基础上引入Dynamic Head注意力,从尺度感知、空间位置、多任务3个角度探索具有注意力机制的预测头潜力;设计了C3-DCN结构和Dymamic Head注意力相互配合增强特征提取能力;此外,还使用SimOTA标签分配方式来弥补小样本的损失,并使用CARAFE ( content-aware ressembly of features)上采样算子,有效增强了不同卷积特征图的融合效果.在VisDrone2019测试集上,Dy-YOLO检测的平均均值精度达到了38.2%,较基线方法YOLOv5提高了7.1%,同时与主流的检测方法相比也取得更高的检测精度.结果表明,Dy-YOLO算法对于无人机航拍检测任务具有较好的性能.
关键词:目标检测;注意力机制; 无人机航拍;YOLOv5;可变形卷积网络
 

02 模块介绍

        Dynamic Head中提到,主干中使用可变形卷积(deformable convolutional network,DCN) [24可以与所提出的动态头部互补,传统的卷积采用固定尺寸的卷积核,在感受野内使用固定的权重进行特征提取,不能很好地适应几何形变,而可变形卷积通过引入额外的可学习参数来动态地调整感受野中不同位置的采样位置和权重,这使得可变形卷积能够在处理具有形变、遮挡或不规则形状的图像时更加有效.但是 DCN 的一大缺陷在于,其采样点经过偏移之后的新位置会超出我们理想中的采样位置,导致部分可变形卷积的卷积点可能是一些和物体内容不相关的部分;DCNv2[2$l则针对偏移干扰问题引入了一种调制机制:

07 改进DenseNet 在抽油井示功图故障诊断的研究

01 摘要

摘要:油田开采主要采用有杆抽油机。对其进行故障检查采用的主要是人工方法,不仅耗费大量的人力和财力,而且识别结果易受到经验因素影响。示功图可以反映有杆抽油机井的工作状态,可用于抽油机故障类型检测。因此,本文提出了一种基于DenseNet注重动态调整特征提取的模型来进行示功图分类,在传统卷积神经网络的基础上加入可变形卷积,使用Focal-Loss 损失函数替代交叉嫡损失函数,通过Adam优化算法加快网络的收敛速度,实现了12种工况模式的识别。关键词深度学习;图像分类;示功图;密集连接卷积网络

02 模块介绍

        与传统模型相比,DenseNet-DC 模型构建了更加注重动态调整特征提取的网络结构:摒弃传统模 型 3 × 3 密集层卷积设计,将其替换为可变形卷积,针对不同输入,动态调整感受野,更有利于网络的训练和学习。可变形卷积模块中对于输出的特征图P上的点xo定义为公式(1):

\

08  一种基于深度学习模型的无人机巡检输电线路山火检测方法

01 摘要

摘要:输电巡检图像的背景复杂,目标检测易受干扰,基于YOLOX神经网络模型,提出一种输电线路山火检测方法。首先采用YOLOX的主干特征提取网络框架,并将其中多尺度特征提取模块的常规卷积替换为可变形卷积;其次在加强特征提取阶段增加了通道注意力和空间注意力模块的融合,能够自适应火焰的外形多变特点,更加有效地提取到山火特征,从而提高目标检测的准确率。经实验验证,所提方法能够较为准确地检测到山火,满足日常巡检的需求。
关键词:输电线路巡检;山火识别;神经网络;目标检测; YOLOX

02 模块介绍

        在 YOLOX 网络中,多尺度特征由空间金字塔池化模块提取。该模块采样的区域是固定的形状,其限制了网络对烟火的识别能力。可变形卷积网络l5l将常规卷积修改为可变形卷积。常规标准卷积核为固定方形,而可变形卷积为每个卷积的采样点加上了一个偏移量,当偏移为小数时,需要通过双线性插值⒁变换将所有新的采样点聚集起来形成新的特征图,保证空间分辨率不变。可变卷积的引入使得感受野的形状不再固定,可以更好地匹配山火燃烧时外形变化的特点。基于可变形卷积,本文修改了多尺度特征提取模块。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/180222.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉的应用19-基于pytorch框架搭建卷积神经网络CNN的卫星地图分类问题实战应用

大家好,我是微学AI,今天给大家介绍一下计算机视觉的应用19-基于pytorch框架搭建卷积神经网络CNN的卫星地图分类问题实战应用。随着遥感技术和卫星图像获取能力的快速发展,卫星图像分类任务成为了计算机视觉研究中一个重要的挑战。为了促进这一…

使用Python的turtle模块创建一幅哆啦A梦

1.1引言: 在Python中,turtle模块是一个非常有趣且强大的工具,它允许我们以一个可视化和互动的方式学习编程。通过调用各种命令,我们可以引导turtle画出一个指定的图形。在本博客中,我们将使用turtle模块来绘制一幅哆啦…

UML建模图文详解教程01——Enterprise Architect安装与使用

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl Enterprise Architect概述 官方网站:https://www.sparxsystems.cn/products/ea/;图示如下: Enterprise Architect是一个全功能的、基于…

IDEA中注释快捷键及模板

单行注释 将光标放置于要注释所在行,使用 Ctrl /, 添加行注释,再次使用,去掉行注释 若需要将多行进行单行注释,只需要选中要注释的多行,然后使用 Ctrl /, 添加行注释,再次使用&a…

【Linux】权限理解【文件权限以及目录权限详解、以及umsk程序掩码知识详解】

权限理解 一、Linux权限的概念二、su [用户名] : 切换用户三、Linux权限管理文件(一)文件访问者的分类(人)(二)文件类型和访问权限(事物属性)(1)第…

【开源】基于JAVA的在线课程教学系统

项目编号: S 014 ,文末获取源码。 \color{red}{项目编号:S014,文末获取源码。} 项目编号:S014,文末获取源码。 目录 一、摘要1.1 系统介绍1.2 项目录屏 二、研究内容2.1 课程类型管理模块2.2 课程管理模块2…

tp8 使用rabbitMQ

php8.0 使用 rabbitmq 要使用 3.6版本以上的&#xff0c; 并且还要开启 php.ini中的 socket 扩展 php think make:command SimpleMQProduce //创建一个生产者命令行 php think make:command SimpleMQConsumer //创建一个消费者命令行 生产者代码 <?php declare (strict_ty…

SpringBoot:异步任务基础与源码剖析

官网文档&#xff1a;How To Do Async in Spring | Baeldung。 Async注解 Spring框架基于Async注解提供了对异步执行流程的支持。 最简单的例子是&#xff1a;使用Async注解修饰一个方法&#xff0c;那么这个方法将在一个单独的线程中被执行&#xff0c;即&#xff1a;从同步执…

【无标题】文本超过一行隐藏,鼠标经过显示提示框

创建一个组件专门用来出来文字的 <template><div class"tooltip-wrap"><el-tooltipref"tlp":content"text"effect"dark":disabled"!tooltipFlag":placement"placement"popper-class"tooltip…

centos查看空间使用情况

查看磁盘使用空间 df -h 查看该目录下其他目录的大小 du -sh *

基于Python实现的一个命令行文本计数统计程序,可统计纯英文txt文本中的字符数,单词数,句子数,Python文件行数

项目简介 这是一个用 Python 编写的命令行文本计数统计程序。 基础功能&#xff1a;能正确统计导入的 纯英文txt文本 中的 字符数&#xff0c;单词数&#xff0c;句子数。扩展功能&#xff1a;能正确统计导入的 Python 文件中的代码行数&#xff0c;注释行数&#xff0c;空白…

pip安装python包到指定python版本下

python -m pip install 包名1.命令行进入到指定python安装目录。比如我电脑上有python3.8也有python3.9。准备给python3.9安装指定的包

nginx国密ssl测试

文章目录 文件准备编译部署nginx申请国密数字证书配置证书并测试 文件准备 下载文件并上传到服务器&#xff0c;这里使用centos 7.8 本文涉及的程序文件已打包可以直接下载。 点击下载 下载国密版openssl https://www.gmssl.cn/gmssl/index.jsp 下载稳定版nginx http://n…

【Python】tensorboard实时查看模型训练过程的方法示例

本文对tensorboard实时查看模型训练过程的方法进行实例详解&#xff0c;以帮助大家理解和使用。 步骤1&#xff1a;查看训练过程保存的文件中是否有这个文件&#xff0c;红框内的。 步骤2&#xff1a;如果有&#xff0c;则打开终端&#xff0c;激活安装过tensorboard的环境。…

20231122给RK3399的挖掘机开发板适配Android12

20231122给RK3399的挖掘机开发板适配Android12 2023/11/22 9:30 主要步骤&#xff1a; rootrootrootroot-X99-Turbo:~$ tar --use-compress-programpigz -xvpf rk356x_android12_220722.tgz rootrootrootroot-X99-Turbo:~$ cd rk_android12_220722/ rootrootrootroot-X99-Tur…

C++ 标准模板库:容器

1. list 容器 1.1 初始化&#xff0c;获取读取 #include <iostream> #include<list>using namespace std;void printList(const list<int>&L){for(list<int>::const_iterator it L.begin(); it ! L.end(); it){cout << *it <<"…

让国内AI模型解题:滑动窗口中找出最大值,文心一言,通义千问错误率100%,讯飞星火略胜一筹

最近&#xff0c;一些大厂陆续放出了自己的AI模型&#xff0c;处于日常的使用和准确度&#xff0c;我通过一道试题来看一下文心一言、讯飞星火和通义千万的回答结果 本道题是一道很经典的算法题&#xff0c;请在滑动窗口中找出最大值 文心一言 第一次给出答案 package main…

Cypress-浏览器操作篇

Cypress-浏览器操作篇 页面的前进与后退 后退 cy.go(back); cy.go(-1);前进 cy.go(forward); cy.go(1);页面刷新 cy.reload() cy.reload(forceReload) cy.reload(options) cy.reload(forceReload, options)**options&#xff1a;**只有 timeout 和 log forceReload 是否…

深入理解路由协议:从概念到实践

路由技术是Internet得以持续运转的关键所在&#xff0c;路由是极其有趣而又复杂的课题&#xff0c;永远的话题。 SO&#xff1a;这是一个解析路由协议的基础文章。 目录 前言路由的概念路由协议的分类数据包在网络中的路由过程理解路由表的结构路由器关键功能解析 前言 在互联…

Navicat 技术指引 | 适用于 GaussDB 的自动运行功能

Navicat Premium&#xff08;16.2.8 Windows版或以上&#xff09; 已支持对 GaussDB 主备版的管理和开发功能。它不仅具备轻松、便捷的可视化数据查看和编辑功能&#xff0c;还提供强大的高阶功能&#xff08;如模型、结构同步、协同合作、数据迁移等&#xff09;&#xff0c;这…