开放词汇的航拍对象检测

🏡作者主页：点击！

🤖编程探索专栏：点击！

⏰️创作时间：2024年12月11日18点20分

神秘男子影,
秘而不宣藏。
泣意深不见,
男子自持重,
子夜独自沉。

论文链接

点击开启你的论文编程之旅https://www.aspiringcode.com/content?id=17326323563497&uid=4a0cfd6a8664413180c12145111fed44

引言

航空目标检测，涉及在航空图像中定位和分类感兴趣的目标，由于其广泛的应用需求，已变得越来越重要，包括地球监测、灾难搜索和救援。大多数现有的航空检测器只能识别训练集中预定义的类别，主要关注准确性而忽视效率。这些检测器的一个主要限制是它们依赖于将图像特征映射到固定类别索引集，这限制了它们发现新类别的能力。

CLIP有能力将视觉-语言特征映射到可比较的表示空间。这提供了打破传统目标检测中固有类别限制的机会。关于自然图像的工作已经探索了图像和文本之间的关系，赋予模型开放词汇检测能力，取得了显著的成功。这些方法大致可以分为两类。第一类使用像FPN这样的网络来提取目标提议，然后使用预训练的VLMs进行分类。然而，这些基于两阶段检测器的方法包含了沉重的计算负担。第二类方法要么使用预训练的VLMs生成区域-文本对，要么集成检测和定位任务，旨在收集足够的数据从头开始训练专门的VLMs进行检测任务。

在本文中，我们介绍了开放词汇航空目标检测Transformer（OVA-DETR），这是一种为航空场景设计的高效开放词汇检测器。

具体来说，OVA-DETR基于标准RTDETR框架，适应航空检测的效率需求。基于图像-文本对齐的概念，整合了CLIP编码器，并引入了区域-文本对比损失，取代了传统检测器中的类别回归损失，从而打破了预定义类别的限制。此外，考虑到航空图像中的小目标和复杂背景，提出了双向视觉-语言融合方法，这是一种文本引导的编码器-解码器结构，通过利用跨模态融合有效地提取与类别相关的图像特征。具体来说，这个结构包括双注意力融合编码器（DAFE）和多级文本引导融合解码器（MTFD）。DAFE增强了编码器部分的特征提取过程。而MTFD旨在通过多级文本引导方法提高小目标的检测性能。

在DIOR数据集上进行了Zero-Shot检测以比较OVA-DETR与其他的开放词汇检测器在速度和召回率方面的差异。结果表明OVA-DETR在速度和召回率均远超其他的方法。

OVA-DETR

模型架构

OVA-DETR的整体架构如上图所示。具体来说，OVA-DETR是基于RTDETR（Zhao et al. 2024）开发的，以适应航空检测的高效率需求。为了克服传统检测器的类别限制，集成了一个文本编码器和一个图像编码器，构建了一个对比头和区域-文本对比损失，以促进更好的图像-文本对齐。此外，引入了双向视觉-语言融合（Bi-VLF）方法，包括双注意力融合编码器（DAFE）和多级文本引导融合解码器（MTFD）。这种方法通过跨模态融合增强了图像特征提取，并注入了类别信息。

图像-文本对齐

在这一部分，专注于连接图像和文本特征。最初，集成了一个文本编码器，将类别词汇转换为类别嵌入。为了增强视觉和语言特征之间的联系，随后引入了CLIP图像编码器。最后，引入了一个对比头，并构建了一个区域-文本对比损失，以取代传统分类回归损失，从而将视觉语义特征对齐到一个可比较的表示空间。

文本编码器

为了将类别语义整合到检测器中，采用了CLIP文本编码器。编码器接受一个类别词汇表C∈RnC∈Rn并产生类别嵌入T=TextEncoder(C)∈Rn×dT=TextEncoder(C)∈Rn×d，其中nn代表类别名称的数量，dd表示类别嵌入的维度。

图像编码器

与自然图像不同，航空目标检测领域缺乏足够的数据来从头开始支持开放词汇检测器的训练。为了增强视觉语义集成并桥接视觉和文本特征之间的联系，引入了CLIP图像编码器。具体来说，为了确保效率，选择了ResNet-50版本，通过移除最终的AttnPool层进行修改，并返回骨干网络的最后三层作为多尺度特征输出。给定一个图像I∈RH×W×3I∈RH×W×3，提取的图像特征{F3,F4,F5}=ImageEncoder(I)∈RH′×W′×C{F3,F4,F5}=ImageEncoder(I)∈RH′×W′×C，其中H′H′、W′W′和CC分别表示特征图的高度、宽度和通道数。

对比头

对比头的设计使得视觉-语义特征能够映射到一个可比较的表示空间。具体来说，考虑到高效检测的需求，使用线性层将视觉特征的维度与文本特征对齐。视觉-文本相似度S(vi,tj)S(vi,tj)的计算如下：

其中vivi是第ii个查询嵌入，tjtj是第jj个文本嵌入，αα和ββ分别是可学习的缩放因子和偏移量。

区域-文本对比损失

为了连接图像和文本特征，引入了一个区域-文本对比损失来取代传统检测器中的类别回归损失。具体来说，给定一个图像和类别词汇，OVA-DETR为每个解码器输出NN个目标预测{(Bi,Si)}i=1N{(Bi,Si)}i=1N，其中NN表示查询的数量。这些预测的对应标签表示为{(Bk,Tk)}k=1K{(Bk,Tk)}k=1K。使用匈牙利分配进行标签分配，使用区域-文本相似度分数而不是传统的分类分数来计算匹配成本。基于查询-文本相似度和分配结果之间的Varifocal损失，构建了区域-文本对比损失LcLc。遵循先前的工作，采用IoU损失LiouLiou和L1损失LL1LL1进行框回归。训练损失公式如下：

其中λλ、μμ和νν分别代表对比损失、IoU损失和L1损失的损失权重。

双向视觉-语言融合

通过整合图像-文本对齐方法，已经扩展了检测能力，超越了预定义的类别。在这一节中，进一步介绍了双向视觉-语言融合（Bi-VLF），这是一种文本引导的编码器-解码器结构，旨在利用跨模态融合。这种结构包括双注意力融合编码器（DAFE）和多级文本引导融合解码器（MTFD）。DAFE通过将类别信息作为线索注入到多尺度图像特征中来增强特征提取。MTFD通过使用多级文本引导方法来解码图像特征，提高了小目标的检测性能。

双注意力融合编码器

DAFE旨在通过整合相关类别语义来增强特征提取。具体来说，CLIP编码器提取的图像和文本特征提供了更好的视觉-语义关系。这种对齐使得能够将相应的类别信息通过跨模态融合注入到每个图像特征中。然而，对于背景特征，并没有类别嵌入，DAFE提出了一个双注意力机制来抑制将类别信息注入到这些区域，从而使网络主要关注前景。

如上图所示，DAFE是一个交叉注意力模块，具有softmax和sigmoid激活函数。具体来说，给定来自图像编码器的多尺度图像特征Fi∈RH×W×CFi∈RH×W×C和类别嵌入T∈RN×DT∈RN×D，使用交叉注意力实现跨模态融合。为了抑制将类别嵌入注入到背景特征中，计算图像特征和类别嵌入之间的最大相似度，应用sigmoid函数获得每个图像特征是前景的概率，然后将这个概率与文本特征表示T(v)jT(v)j相乘。图像特征的更新如下：

其中Fi(q)Fi(q)表示多尺度特征中第ii层图像特征的查询投影，Tj(k)Tj(k)和Tj(v)Tj(v)分别表示文本嵌入的键和值投影，ϕϕ表示softmax函数，σσ表示sigmoid函数。

多级文本引导融合解码器

MTFD旨在提高对小目标的检测能力。以前的基于CNN的目标检测器通过放大低级特征的重要性来增强对小目标的敏感性。受此启发，提出了MTFD，它使用多级类别嵌入作为指导来解码更相关的图像特征。

具体来说，如上图所示，使用多尺度图像特征增强文本编码器的类别嵌入，获得多级类别嵌入，这些嵌入不仅包含类别语义信息，还包含对应于不同级别的对象的视觉特征信息。定义形成多级类别嵌入的过程如下：

其中TT代表文本编码器的类别嵌入，IiIi表示第ii级别的多尺度图像特征，MHCA表示多头交叉注意力。不同级别的结果多级类别嵌入为：

随后，在每个解码器中使用多头交叉注意力（MHCA）将多级类别嵌入整合到对象查询中，在每个解码器层ii更新对象查询QiQi如下：如果ii = 1：

如果ii = 2或3：

如果ii = 4, 5或6：

其中QiQi是第ii个解码器层的对象查询。这种方法有助于从多尺度图像特征中提取与类别嵌入相关的图像特征。值得注意的是，为低级类别嵌入分配了三个解码器层，增强了对小目标的检测性能。

实验

数据集

在评估零样本航空目标检测时，使用了三个基准数据集：xView、DIOR和DOTA。

然而，由于DIOR中的新类别与DOTA中的基础类别存在重叠，调整了DOTA中的类别分割，以避免新类别的泄露。最终的类别分割如下：xView包含48个基础类别和12个新类别，DIOR包含16个基础类别和4个新类别，DOTA包含11个基础类别和4个新类别。此外，对xView和DOTA数据集进行了裁剪。对于传统的航空目标检测，OVA-DETR在Visdrone和UAVDT基准数据集上进行了评估。

评估指标

使用标准检测指标，包括平均精度均值（mAP）、召回率、谐波均值（HM）和每秒帧数（FPS）来进行评估。mAP和召回率是使用0.5的交并比（IoU）阈值计算的。HM计算反映了在基础和新类别上的整体性能。

零样本航空检测性能

我们在xView数据集上将OVA-DETR的结果与最先进方法进行了比较，评估了在两种评估设置下提出的模型：零样本检测（ZSD）以及广义零样本检测（GZSD），实验结果如下表。

在零样本检测中，OVA-DETR在召回率上实现了8.3%的增益，并且在mAP上比SOTA方法增加了近1.0%。结果证明了检测新类别的更强能力，并证明了所提出的检测器打破了预定义类别的限制。在GZSD设置下，OVA-DETR也实现了基础和新类别的最佳召回率。

值得注意的是，召回率的HM比最佳比较方法高7.9%。mAP的HM略低于DescReg，这是由于采用了较轻的骨干网络，但在基础类别上仍实现了最佳mAP。xView与其他航空数据集相比包含更小的物体，表明OVA-DETR有效地提高了航空图像中小目标的检测性能。

上表展示了OVA-DETR在DIOR和DOTA数据集上的性能。在DIOR的ZSD设置下，上表展示了OVA-DETR在DIOR和DOTA数据集上的性能。在DIOR的ZSD设置下，OVA-DETR超过了YOLO-World 33.1%。GZSD设置下的mAP略低于YOLO-World-L，这是由于其使用大规模数据集对整个检测器进行预训练。然而，OVA-DETR在ZSD设置下实现了最佳mAP。在GZSD设置中也观察到了类似的优势，OVA-DETR在两个数据集上都显示出mAP和召回率的显著提高。OVA-DETR超过了YOLO-World 33.1%。GZSD设置下的mAP略低于YOLO-World-L，这是由于其使用大规模数据集对整个检测器进行预训练。然而，OVA-DETR在ZSD设置下实现了最佳mAP。在GZSD设置中也观察到了类似的优势，OVA-DETR在两个数据集上都显示出mAP和召回率的显著提高。

此外，如上表所示，OVA-DETR在DIOR数据集上的FPS性能与DescReg和YOLO-World进行了比较。OVA-DETR实现了87 FPS的显著推理速度，比DescReg快7.9倍，比YOLO-World快3倍。这些结果突出了所提出的OVA-DETR的效率，更适合开放场景。

传统航空检测性能

我们将OVA-DETR扩展到传统的航空目标检测任务，并在Visdrone数据集上评估了其性能。如下表所示。

OVA-DETR在不同的输入分辨率下进行了测试。在800×800的输入分辨率下，OVA-DETR实现了58.8%的mAP，略低于使用复杂、粗到细检测流程和更大输入分辨率的UFPMP-Det。与RT-DETR相比，OVA-DETR将mAP提高了2.3%，进一步证明了所提出方法的有效性。当分辨率增加到1280×1280时，mAP提高了4.8%，实现了最先进的性能。这些结果表明OVA-DETR可以同时实现高精度和速度，适应航空检测任务的需求。

消融实验

下表展示了所提出的图像-文本对齐和双向视觉-语言融合（Bi-VLF）的有效性，包括双注意力融合编码器（DAFE）和多级文本引导融合解码器（MTFD）。

为了克服预定义类别的限制，将文本编码器、对比头和区域-文本对比损失整合到RT-DETR作为基线。基线实现了45.6%的召回率HM，表明模型能够通过图像-文本对齐方法检测新类别，尽管其能力有限。为了实现区域-文本对比损失并实现图像-文本对齐的目标，采用了预训练的图像编码器，取得了显著的性能提升：在GZSD设置下，mAP的HM提高了3.0%，召回率的HM提高了17.2%；在ZSD设置下，mAP从2.6%提高到7.2%。通过进一步引入DAFE，ZSD mAP提高了2.1%，mAP的HM提高了2.6%，这意味着将相关类别信息注入每个图像特征有助于模型关注前景，提高准确性。

同样，所提出的MTFD也提高了ZSD mAP 1.3%和mAP的HM 3.4%，证明了使用多级类别嵌入指导解码器提取与类别相关的图像特征对提高性能的贡献，特别是在航空检测中，目标主要以小尺度出现。最后，当同时使用DAFE和MTFD时，与没有Bi-VLF的方法相比，ZSD mAP提高了4.7%，mAP的HM提高了5.7%，突出了Bi-VLF编码器-解码器结构的优越性。

复现

复现过程如下。

环境配置：

git clone https://github.com/GT-Wei/OVA-DETR.git 

git clone https://github.com/flytocc/mmdetection.git 
cp -r OVA-DETR/* ./mmdetection/


conda create -n OVA-DETR python==3.8 -y
conda activate OVA-DETR

conda install pytorch==1.11.0 torchvision==0.12.0 torchaudio==0.11.0 cudatoolkit=11.3 -c pytorch

pip install -U openmim
mim install mmengine
mim install "mmcv==2.0.0"
pip install transformers open_clip_torch
pip install git+https://github.com/openai/CLIP.git 

cd mmdetection 
pip install -v -e .

训练：

CUDA_VISIBLE_DEVICES=0,1,2,3 ./tools/dist_train.sh configs/OVA_DETR/OVA_DETR_4xb4-80e_dior_dota_xview.py 4

评估：

CUDA_VISIBLE_DEVICES=0,1,2,3 ./tools/dist_test.sh configs/OVA_DETR/OVA_DETR_4xb4-80e_dior_dota_xview.py ./pretrain_model/epoch30.pt 4

下载模型：

mkdir pretrain_model
wget https://github.com/flytocc/mmdetection/releases/download/model_zoo/rtdetr_r50vd_8xb2-72e_coco_ff87da1a.pth 
wget https://github.com/GT-Wei/OVA-DETR/releases/download/v1.0.0/epoch_30.pth 
wget https://github.com/GT-Wei/OVA-DETR/releases/download/v1.0.0/epoch_45.pth

部分推理结果展示：