开放词汇的航拍对象检测

🏡作者主页:点击! 

🤖编程探索专栏:点击!

⏰️创作时间:2024年12月11日18点20分


神秘男子影,
  秘而不宣藏。
泣意深不见,
男子自持重,
   子夜独自沉。

论文链接

点击开启你的论文编程之旅icon-default.png?t=O83Ahttps://www.aspiringcode.com/content?id=17326323563497&uid=4a0cfd6a8664413180c12145111fed44

引言

航空目标检测,涉及在航空图像中定位和分类感兴趣的目标,由于其广泛的应用需求,已变得越来越重要,包括地球监测、灾难搜索和救援。大多数现有的航空检测器只能识别训练集中预定义的类别,主要关注准确性而忽视效率。这些检测器的一个主要限制是它们依赖于将图像特征映射到固定类别索引集,这限制了它们发现新类别的能力。

CLIP有能力将视觉-语言特征映射到可比较的表示空间。这提供了打破传统目标检测中固有类别限制的机会。关于自然图像的工作已经探索了图像和文本之间的关系,赋予模型开放词汇检测能力,取得了显著的成功。这些方法大致可以分为两类。第一类使用像FPN这样的网络来提取目标提议,然后使用预训练的VLMs进行分类。然而,这些基于两阶段检测器的方法包含了沉重的计算负担。第二类方法要么使用预训练的VLMs生成区域-文本对,要么集成检测和定位任务,旨在收集足够的数据从头开始训练专门的VLMs进行检测任务。

在本文中,我们介绍了开放词汇航空目标检测Transformer(OVA-DETR),这是一种为航空场景设计的高效开放词汇检测器。

具体来说,OVA-DETR基于标准RTDETR框架,适应航空检测的效率需求。基于图像-文本对齐的概念,整合了CLIP编码器,并引入了区域-文本对比损失,取代了传统检测器中的类别回归损失,从而打破了预定义类别的限制。此外,考虑到航空图像中的小目标和复杂背景,提出了双向视觉-语言融合方法,这是一种文本引导的编码器-解码器结构,通过利用跨模态融合有效地提取与类别相关的图像特征。具体来说,这个结构包括双注意力融合编码器(DAFE)和多级文本引导融合解码器(MTFD)。DAFE增强了编码器部分的特征提取过程。而MTFD旨在通过多级文本引导方法提高小目标的检测性能。

在DIOR数据集上进行了Zero-Shot检测以比较OVA-DETR与其他的开放词汇检测器在速度和召回率方面的差异。结果表明OVA-DETR在速度和召回率均远超其他的方法。

OVA-DETR

模型架构

OVA-DETR的整体架构如上图所示。具体来说,OVA-DETR是基于RTDETR(Zhao et al. 2024)开发的,以适应航空检测的高效率需求。为了克服传统检测器的类别限制,集成了一个文本编码器和一个图像编码器,构建了一个对比头和区域-文本对比损失,以促进更好的图像-文本对齐。此外,引入了双向视觉-语言融合(Bi-VLF)方法,包括双注意力融合编码器(DAFE)和多级文本引导融合解码器(MTFD)。这种方法通过跨模态融合增强了图像特征提取,并注入了类别信息。

图像-文本对齐

在这一部分,专注于连接图像和文本特征。最初,集成了一个文本编码器,将类别词汇转换为类别嵌入。为了增强视觉和语言特征之间的联系,随后引入了CLIP图像编码器。最后,引入了一个对比头,并构建了一个区域-文本对比损失,以取代传统分类回归损失,从而将视觉语义特征对齐到一个可比较的表示空间。

文本编码器

为了将类别语义整合到检测器中,采用了CLIP文本编码器。编码器接受一个类别词汇表C∈RnC∈Rn并产生类别嵌入T=TextEncoder(C)∈Rn×dT=TextEncoder(C)∈Rn×d,其中nn代表类别名称的数量,dd表示类别嵌入的维度。

图像编码器

与自然图像不同,航空目标检测领域缺乏足够的数据来从头开始支持开放词汇检测器的训练。为了增强视觉语义集成并桥接视觉和文本特征之间的联系,引入了CLIP图像编码器。具体来说,为了确保效率,选择了ResNet-50版本,通过移除最终的AttnPool层进行修改,并返回骨干网络的最后三层作为多尺度特征输出。给定一个图像I∈RH×W×3I∈RH×W×3,提取的图像特征{F3,F4,F5}=ImageEncoder(I)∈RH′×W′×C{F3,F4,F5}=ImageEncoder(I)∈RH′×W′×C,其中H′H′、W′W′和CC分别表示特征图的高度、宽度和通道数。

对比头

对比头的设计使得视觉-语义特征能够映射到一个可比较的表示空间。具体来说,考虑到高效检测的需求,使用线性层将视觉特征的维度与文本特征对齐。视觉-文本相似度S(vi,tj)S(vi,tj)的计算如下:

其中vivi是第ii个查询嵌入,tjtj是第jj个文本嵌入,αα和ββ分别是可学习的缩放因子和偏移量。

区域-文本对比损失

为了连接图像和文本特征,引入了一个区域-文本对比损失来取代传统检测器中的类别回归损失。具体来说,给定一个图像和类别词汇,OVA-DETR为每个解码器输出NN个目标预测{(Bi,Si)}i=1N{(Bi,Si)}i=1N,其中NN表示查询的数量。这些预测的对应标签表示为{(Bk,Tk)}k=1K{(Bk,Tk)}k=1K。使用匈牙利分配进行标签分配,使用区域-文本相似度分数而不是传统的分类分数来计算匹配成本。基于查询-文本相似度和分配结果之间的Varifocal损失,构建了区域-文本对比损失LcLc。遵循先前的工作,采用IoU损失LiouLiou和L1损失LL1LL1进行框回归。训练损失公式如下:

其中λλ、μμ和νν分别代表对比损失、IoU损失和L1损失的损失权重。

双向视觉-语言融合

通过整合图像-文本对齐方法,已经扩展了检测能力,超越了预定义的类别。在这一节中,进一步介绍了双向视觉-语言融合(Bi-VLF),这是一种文本引导的编码器-解码器结构,旨在利用跨模态融合。这种结构包括双注意力融合编码器(DAFE)和多级文本引导融合解码器(MTFD)。DAFE通过将类别信息作为线索注入到多尺度图像特征中来增强特征提取。MTFD通过使用多级文本引导方法来解码图像特征,提高了小目标的检测性能。

双注意力融合编码器

DAFE旨在通过整合相关类别语义来增强特征提取。具体来说,CLIP编码器提取的图像和文本特征提供了更好的视觉-语义关系。这种对齐使得能够将相应的类别信息通过跨模态融合注入到每个图像特征中。然而,对于背景特征,并没有类别嵌入,DAFE提出了一个双注意力机制来抑制将类别信息注入到这些区域,从而使网络主要关注前景。

如上图所示,DAFE是一个交叉注意力模块,具有softmax和sigmoid激活函数。具体来说,给定来自图像编码器的多尺度图像特征Fi∈RH×W×CFi∈RH×W×C和类别嵌入T∈RN×DT∈RN×D,使用交叉注意力实现跨模态融合。为了抑制将类别嵌入注入到背景特征中,计算图像特征和类别嵌入之间的最大相似度,应用sigmoid函数获得每个图像特征是前景的概率,然后将这个概率与文本特征表示T(v)jT(v)j相乘。图像特征的更新如下:

其中Fi(q)Fi(q)表示多尺度特征中第ii层图像特征的查询投影,Tj(k)Tj(k)和Tj(v)Tj(v)分别表示文本嵌入的键和值投影,ϕϕ表示softmax函数,σσ表示sigmoid函数。

多级文本引导融合解码器

MTFD旨在提高对小目标的检测能力。以前的基于CNN的目标检测器通过放大低级特征的重要性来增强对小目标的敏感性。受此启发,提出了MTFD,它使用多级类别嵌入作为指导来解码更相关的图像特征。

具体来说,如上图所示,使用多尺度图像特征增强文本编码器的类别嵌入,获得多级类别嵌入,这些嵌入不仅包含类别语义信息,还包含对应于不同级别的对象的视觉特征信息。定义形成多级类别嵌入的过程如下:

其中TT代表文本编码器的类别嵌入,IiIi表示第ii级别的多尺度图像特征,MHCA表示多头交叉注意力。不同级别的结果多级类别嵌入为:

随后,在每个解码器中使用多头交叉注意力(MHCA)将多级类别嵌入整合到对象查询中,在每个解码器层ii更新对象查询QiQi如下:如果ii = 1:

如果ii = 2或3:

如果ii = 4, 5或6:

其中QiQi是第ii个解码器层的对象查询。这种方法有助于从多尺度图像特征中提取与类别嵌入相关的图像特征。值得注意的是,为低级类别嵌入分配了三个解码器层,增强了对小目标的检测性能。

实验

数据集

在评估零样本航空目标检测时,使用了三个基准数据集:xView、DIOR和DOTA。

然而,由于DIOR中的新类别与DOTA中的基础类别存在重叠,调整了DOTA中的类别分割,以避免新类别的泄露。最终的类别分割如下:xView包含48个基础类别和12个新类别,DIOR包含16个基础类别和4个新类别,DOTA包含11个基础类别和4个新类别。此外,对xView和DOTA数据集进行了裁剪。对于传统的航空目标检测,OVA-DETR在Visdrone和UAVDT基准数据集上进行了评估。

评估指标

使用标准检测指标,包括平均精度均值(mAP)、召回率、谐波均值(HM)和每秒帧数(FPS)来进行评估。mAP和召回率是使用0.5的交并比(IoU)阈值计算的。HM计算反映了在基础和新类别上的整体性能。

零样本航空检测性能

我们在xView数据集上将OVA-DETR的结果与最先进方法进行了比较,评估了在两种评估设置下提出的模型:零样本检测(ZSD)以及广义零样本检测(GZSD),实验结果如下表。

在零样本检测中,OVA-DETR在召回率上实现了8.3%的增益,并且在mAP上比SOTA方法增加了近1.0%。结果证明了检测新类别的更强能力,并证明了所提出的检测器打破了预定义类别的限制。在GZSD设置下,OVA-DETR也实现了基础和新类别的最佳召回率。

值得注意的是,召回率的HM比最佳比较方法高7.9%。mAP的HM略低于DescReg,这是由于采用了较轻的骨干网络,但在基础类别上仍实现了最佳mAP。xView与其他航空数据集相比包含更小的物体,表明OVA-DETR有效地提高了航空图像中小目标的检测性能。

上表展示了OVA-DETR在DIOR和DOTA数据集上的性能。在DIOR的ZSD设置下,上表展示了OVA-DETR在DIOR和DOTA数据集上的性能。在DIOR的ZSD设置下,OVA-DETR超过了YOLO-World 33.1%。GZSD设置下的mAP略低于YOLO-World-L,这是由于其使用大规模数据集对整个检测器进行预训练。然而,OVA-DETR在ZSD设置下实现了最佳mAP。在GZSD设置中也观察到了类似的优势,OVA-DETR在两个数据集上都显示出mAP和召回率的显著提高。OVA-DETR超过了YOLO-World 33.1%。GZSD设置下的mAP略低于YOLO-World-L,这是由于其使用大规模数据集对整个检测器进行预训练。然而,OVA-DETR在ZSD设置下实现了最佳mAP。在GZSD设置中也观察到了类似的优势,OVA-DETR在两个数据集上都显示出mAP和召回率的显著提高。

此外,如上表所示,OVA-DETR在DIOR数据集上的FPS性能与DescReg和YOLO-World进行了比较。OVA-DETR实现了87 FPS的显著推理速度,比DescReg快7.9倍,比YOLO-World快3倍。这些结果突出了所提出的OVA-DETR的效率,更适合开放场景。

传统航空检测性能

我们将OVA-DETR扩展到传统的航空目标检测任务,并在Visdrone数据集上评估了其性能。如下表所示。

OVA-DETR在不同的输入分辨率下进行了测试。在800×800的输入分辨率下,OVA-DETR实现了58.8%的mAP,略低于使用复杂、粗到细检测流程和更大输入分辨率的UFPMP-Det。与RT-DETR相比,OVA-DETR将mAP提高了2.3%,进一步证明了所提出方法的有效性。当分辨率增加到1280×1280时,mAP提高了4.8%,实现了最先进的性能。这些结果表明OVA-DETR可以同时实现高精度和速度,适应航空检测任务的需求。

消融实验

下表展示了所提出的图像-文本对齐和双向视觉-语言融合(Bi-VLF)的有效性,包括双注意力融合编码器(DAFE)和多级文本引导融合解码器(MTFD)。

为了克服预定义类别的限制,将文本编码器、对比头和区域-文本对比损失整合到RT-DETR作为基线。基线实现了45.6%的召回率HM,表明模型能够通过图像-文本对齐方法检测新类别,尽管其能力有限。为了实现区域-文本对比损失并实现图像-文本对齐的目标,采用了预训练的图像编码器,取得了显著的性能提升:在GZSD设置下,mAP的HM提高了3.0%,召回率的HM提高了17.2%;在ZSD设置下,mAP从2.6%提高到7.2%。通过进一步引入DAFE,ZSD mAP提高了2.1%,mAP的HM提高了2.6%,这意味着将相关类别信息注入每个图像特征有助于模型关注前景,提高准确性。

同样,所提出的MTFD也提高了ZSD mAP 1.3%和mAP的HM 3.4%,证明了使用多级类别嵌入指导解码器提取与类别相关的图像特征对提高性能的贡献,特别是在航空检测中,目标主要以小尺度出现。最后,当同时使用DAFE和MTFD时,与没有Bi-VLF的方法相比,ZSD mAP提高了4.7%,mAP的HM提高了5.7%,突出了Bi-VLF编码器-解码器结构的优越性。

复现

复现过程如下。

环境配置:

git clone https://github.com/GT-Wei/OVA-DETR.git 

git clone https://github.com/flytocc/mmdetection.git 
cp -r OVA-DETR/* ./mmdetection/


conda create -n OVA-DETR python==3.8 -y
conda activate OVA-DETR

conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3 -c pytorch

pip install -U openmim
mim install mmengine
mim install "mmcv==2.0.0"
pip install transformers open_clip_torch
pip install git+https://github.com/openai/CLIP.git 

cd mmdetection 
pip install -v -e .

训练:

CUDA_VISIBLE_DEVICES=0,1,2,3 ./tools/dist_train.sh configs/OVA_DETR/OVA_DETR_4xb4-80e_dior_dota_xview.py 4

评估:

CUDA_VISIBLE_DEVICES=0,1,2,3 ./tools/dist_test.sh configs/OVA_DETR/OVA_DETR_4xb4-80e_dior_dota_xview.py ./pretrain_model/epoch30.pt 4

下载模型:

mkdir pretrain_model
wget https://github.com/flytocc/mmdetection/releases/download/model_zoo/rtdetr_r50vd_8xb2-72e_coco_ff87da1a.pth 
wget https://github.com/GT-Wei/OVA-DETR/releases/download/v1.0.0/epoch_30.pth 
wget https://github.com/GT-Wei/OVA-DETR/releases/download/v1.0.0/epoch_45.pth

部分推理结果展示:

总结

OVA-DETR是一种用于航空目标检测的高效率开放词汇检测器,它利用图像-文本对齐和融合技术。具体来说,为了打破传统检测器中预定义类别的限制,将类别语义整合到检测器中,并构建了一个区域-文本对比损失,以对齐图像和文本特征。

进一步引入了一种双向视觉-语言融合方法,包括双注意力融合编码器和多级文本引导融合解码器,它们共同构成了一个文本引导的编码器-解码器结构。双注意力融合编码器旨在增强前景特征提取,而多级文本引导融合解码器旨在提取与类别相关的图像特征,并专注于低级特征以提高小目标检测性能。

实验结果表明,OVA-DETR在开放词汇性能和速度方面都优于传统检测器,表明它打破了传统检测器的类别限制,并将航空目标检测扩展到了开放场景。

成功的路上没有捷径,只有不断的努力与坚持。如果你和我一样,坚信努力会带来回报,请关注我,点个赞,一起迎接更加美好的明天!你的支持是我继续前行的动力!"

"每一次创作都是一次学习的过程,文章中若有不足之处,还请大家多多包容。你的关注和点赞是对我最大的支持,也欢迎大家提出宝贵的意见和建议,让我不断进步。"

神秘泣男子

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/934720.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【PyQt5教程 四】Qt Designer 样式表(styleSheet)实现基本小部件的自定义动态效果和资源浏览器背景添加方法

目录 一、成果演示: 二、样式表的使用方法: (1)样式表语法和属性: (2)样式表代码示例: (3)伪类和状态: (4)复合选择器&#xff…

2024小迪安全基础入门第十二课

目录 一、请求头&返回包-方法&头修改&状态码等 二、 数据包分析-红队攻击手法&蓝队流量研判 三、数据包构造-Reqable自定义添加修改请求 一、Reqable概述 二、数据包构造基本步骤 三、Reqable常见用法示例 四、使用 Reqable 进行安全测试 一、请求头&am…

Springboot3 Mybatis-plus 3.5.9

1. Mybatis-plus 官网&#xff1a;链接 1. 依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-spring-boot3-starter</artifactId><version>3.5.9</version> </dependency>2. 注解配置表名、字段…

android——录制屏幕

录制屏幕 1、界面 2、核心代码 import android.app.NotificationChannel import android.app.NotificationManager import android.app.PendingIntent import android.app.Service import android.content.Context import android.content.Intent import android.graphics.Bi…

js面试题|[2024-12-10]

1.延迟加载JS有哪些方式&#xff1f; 延迟加载&#xff1a;async、defer 例如&#xff1a;<script defer type"text/javascript" srcscript.js></script> defer&#xff1a;等html全部解析完毕&#xff0c;才会执行js代码&#xff0c;顺次执行js脚本 asy…

【数据结构——查找】顺序查找(头歌实践教学平台习题)【合集】

目录&#x1f60b; 任务描述 相关知识 测试说明 我的通关代码: 测试结果&#xff1a; 任务描述 本关任务&#xff1a;实现顺序查找的算法。 相关知识 为了完成本关任务&#xff0c;你需要掌握&#xff1a;1.根据输入数据建立顺序表&#xff0c;2.顺序表的输出&#xff0c;…

基于微信小程序+Springboot+Vue社区超市管理系统的分析与设计(源码+lw+讲解部署等)

&#x1f497; 博主介绍✌ 3Dex&#xff08;全栈开发工程师&#xff09;&#xff0c;专注于4smile等项目的建设与优化&#xff0c;在软件开发与技术实现方面积累了丰富的经验。专注于Java、小程序、前端、Python等技术领域毕业项目实战&#xff0c;以及程序定制化开发。✌ 擅长…

自然语言处理:从入门到精通全指引

一、引言 自然语言处理&#xff08;NLP&#xff09;作为人工智能领域的关键分支&#xff0c;旨在让计算机理解、生成和处理人类语言&#xff0c;近年来取得了令人瞩目的成就&#xff0c;在智能客服、机器翻译、文本分析、语音助手等众多领域发挥着重要作用。从入门到精通自然语…

[leetcode100] 101. 对称二叉树

https://leetcode.cn/problems/symmetric-tree/description/?envTypestudy-plan-v2&envIdtop-100-liked 心血来潮&#xff0c;突然感觉很久没做leetcode&#xff0c;刷一题。 看到“简单”&#xff0c;哦吼&#xff0c;应该很快吧。 结果真是《简单》 题目描述 给你一个…

GPIO在ZYNQ7000中的结构和相关寄存器解析

GPIO MASK DATA LSW和 MASK DATA MSW LSW和MSW分别是LSW (Least Significant Word)和MSW (Most Significant Word)。 因为DATA是u32,所以如果寄存器的基址是XGPIOPS_DATA_LSW_OFFSET&#xff0c;那么32位就能同时让高16位的MASK DATA MSW]31:16和 MASK DATA LSW的bit7同时为…

设计模式-装饰器模式(结构型)与责任链模式(行为型)对比,以及链式设计

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言1.装饰器模式1.1概念1.2作用1.3应用场景1.4特点1.5类与对象关系1.6实现 2责任链模式2.1概念2.2作用2.3应用场景2.4特点2.5类与对象关系2.6实现 3.对比总结 前言…

TesseractOCR-GUI:基于WPF/C#构建TesseractOCR简单易用的用户界面

前言 前篇文章使用Tesseract进行图片文字识别介绍了如何安装TesseractOCR与TesseractOCR的命令行使用。但在日常使用过程中&#xff0c;命令行使用还是不太方便的&#xff0c;因此今天介绍一下如何使用WPF/C#构建TesseractOCR简单易用的用户界面。 普通用户使用 参照上一篇教…

解决 IntelliJ IDEA 启动错误:插件冲突处理

引言 在使用 IntelliJ IDEA 进行开发时&#xff0c;我们可能会遇到各种启动错误。本文将详细介绍一种常见的错误&#xff1a;插件冲突&#xff0c;并提供解决方案。 错误背景 最近&#xff0c;有用户在启动 IntelliJ IDEA 时遇到了一个错误&#xff0c;提示信息为&#xff1a…

多线程的知识总结(8):用 thread 类 或全局 async (...) 函数,创建新线程时,谁才是在新线程里第一个被执行的函数

&#xff08;40&#xff09;用 thread 类 或全局 async (…) 函数&#xff0c;创建新线程时&#xff0c;谁才是在新线程里第一个被执行的函数&#xff1f; 弄清楚这个问题&#xff0c;有利于推测和理解线程中代码的执行流程。根据 thread 类 和 async &#xff08;…&#xff0…

ChatGPT 4:解锁AI文案、绘画与视频创作新纪元

文章目录 AI文案&#xff1a;激发文字的魅力&#xff0c;重塑营销与传播AI绘画&#xff1a;解锁艺术的无限可能&#xff0c;激发创意灵感AI视频&#xff1a;重塑视频创作流程&#xff0c;提升制作效率GPTs&#xff1a;构建个性化AI应用&#xff0c;赋能各行各业《ChatGPT 4 应用…

【pyspark学习从入门到精通23】机器学习库_6

目录 分割连续变量 标准化连续变量 分类 分割连续变量 我们经常处理高度非线性的连续特征&#xff0c;而且只用一个系数很难拟合到我们的模型中。 在这种情况下&#xff0c;可能很难只通过一个系数来解释这样一个特征与目标之间的关系。有时&#xff0c;将值划分到离散的桶中…

linux 进程间通信:匿名管道pipe()

进程间内存独立且相互不可见&#xff0c;进程间通信需要特殊方法 匿名管道pipe() /* Create a one-way communication channel (pipe). If successful, two file descriptors are stored in PIPEDES; bytes written on PIPEDES[1] can be read from PIPEDES[0]. Retu…

哈默纳科Harmonic谐波减速机机器人精准高效动力传递的核心力量

在当今科技飞速发展的时代&#xff0c;机器人技术正以惊人的速度改变着我们的生产与生活方式。而在机器人的精密机械结构中&#xff0c;哈默纳科 Harmonic 谐波减速机扮演着不可或缺的角色&#xff0c;成为机器人精准高效动力传递的关键所在。 1.高精度与灵活性&#xff1a;哈默…

Codigger SIDE之Helix编辑器

在Codigger的多维世界中&#xff0c;Helix编辑器以其卓越的性能和灵活性&#xff0c;成为开发者手中的利剑。基于Rust构建&#xff0c;Helix不仅继承了Vim编辑器的经典特性&#xff0c;更以其现代化的功能&#xff0c;重新定义了代码编辑的边界。 模式切换的艺术 Helix的模式切…

Scala的正则表达式二

验证用户名是否合法 规则 1.长度在6-12之间 2.不能数字开头 3.只能包含数字&#xff0c;大小写字母&#xff0c;下划线def main(args: Array[String]): Unit {val name1 "1admin"//不合法&#xff0c;是数字开头val name2 "admin123"//合法val name3 &quo…