OGMN: Occlusion-guided Multi-task Network for Object Detection in UAV Images

OGMN: Occlusion-guided Multi-task Network for Object Detection in UAV Images用于无人机图像目标检测的遮挡引导多任务网络

摘要

物体之间的遮挡是无人机图像中物体检测中被忽视的挑战之一。由于无人机的高度和角度可变，无人机图像中的遮挡比自然场景中的遮挡更频繁。与自然场景图像的遮挡相比，无人机图像的遮挡存在特征混淆问题和局部聚集特性。我们发现，提取定位物体之间的遮挡有利于检测器解决这一挑战。根据这一发现，引入了遮挡定位任务，该任务与目标检测任务一起构成了我们的遮挡引导多任务网络（OGMN）。OGMN包含遮挡的定位和两个遮挡引导的多任务交互。详细地**，提出了一种遮挡估计模块（OEM）来精确定位遮挡**。然后，OGMN利用遮挡定位结果来实现具有两个多任务交互的遮挡引导检测。

介绍

无人机场景中，遮挡的发生率比CityPersons数据集等自然场景中的多十倍左右。这种高频遮挡对探测器来说是一个巨大的挑战，但在无人机图像目标检测中却被忽视了。与自然场景不同，无人机图像中的遮挡可以概括如下：（1）局部聚焦：遮挡在无人机图像中聚集，而不是在自然图像中零星分布。物体的不均匀分布和局部拥挤是无人机图像特有的问题。遮挡与这些问题同时发生，因此遮挡也具有局部聚集的特征，如图2的红框区域所示。

在这里插入图片描述

（2）特征混淆。通用检测器倾向于学习判别特征，但遮挡对象的判别特征很可能在空间位置上被其他遮挡对象遮挡。从相机的拍摄角度来看，自然场景图像大多从物体的侧视图获取，遥感图像大多从对象的俯视图获取，而无人机图像介于两者之间。因此，无人机图像中的物体特征包括物体的侧面特征和物体的顶部特征，这些特征是丰富而复杂的。所有这些因素使得现有的检测器更难提取这些遮挡对象区域的语义特征信息。类似于特征混淆问题，我们将这种问题命名为遮挡对象的特征混淆。基于这些遮挡特性，我们提出了一种新的遮挡引导多任务网络，以提高无人机图像的检测性能。

如图3所示，
在这里插入图片描述

通用检测器根据编码器输出预测检测结果，编码器的输出缺乏遮挡感知。但是，解决遮挡挑战需要检测器能够感知遮挡，这与该图像分类工作中的定位遮挡类似。这种感知的困难在于，现有的物体检测工作没有这样的遮挡定位实现。因此，迫切需要一种能够定位遮挡的检测器。受多任务范式的启发，我们首次将遮挡定位任务引入检测器，以形成一种新的遮挡引导多任务网络（OGMN），该网络将遮挡定位和对象检测相结合。

第一步的实现使模型能够感知遮挡，但没有完全利用它进行检测。遮挡定位任务的引入使模型能够感知遮挡，但它并没有完全用于检测。因此，能否充分有效地利用遮挡定位结果也是一个问题。受这项工作中多任务交互的启发，OGMN设计了两种新的遮挡引导的多任务交互，以在检测中利用遮挡定位结果。从本质上讲，我们的OGMN由三种技术组成：

首先，为了预测遮挡位置信息，提出了一种新的遮挡估计模块和相应的训练真值生成方法，如图3所示，我们将OEM作为遮挡定位解析器嵌入到通用检测器中，以形成一个新的多任务网络，用于遮挡定位任务和对象检测任务。

其次，我们设计了两个任务的解码器之间的多任务交互，以解决遮挡对象的特征混淆问题。我们提出了一种检测解码器遮挡去耦头（ODH）来代替原来的检测头。ODH将来自OEM的遮挡定位结果解耦为编码器输出特征，以生成用于检测任务解耦特征。

最后，为了追求更好的检测性能，我们为检测过程提出了一种两阶段渐进细化过程（TPP），以解决遮挡的局部聚集特性。

TPP检测原始图像，并选择遮挡对象与遮挡定位结果聚合的几个子区域。因此，模型细化检测这些遮挡子区域并输出精细检测结果，这些精细检测结果与原始图像的检测结果合并以形成最终检测结果。此外，TPP的子区域选择是训练阶段隐含的数据扩充，使模型对遮挡对象更具鲁棒性。

贡献

（1）首次系统分析了无人机图像目标检测中导致检测性能较差的遮挡挑战，并将其归纳为特征混淆问题和局部聚集特征。我们提出了一个遮挡引导多任务网络（OGMN）来应对这一挑战。

（2）为了定位遮挡，我们将遮挡定位任务引入到检测器中，并提出一个新的遮挡估计模块（OEM）来精确估计遮挡位置信息，并提出一种用于训练阶段的遮挡图真实值生成方法。

（3）为了充分利用遮挡定位结果，我们提出了一种用于遮挡引导的多任务交互的遮挡解耦头（ODH）和两阶段渐进细化过程（TPP），他们实现了更高的检测精度和更稳健的检测性能。

总结

为了定位遮挡，将遮挡定位任务引入到检测器中，提出了一个新的遮挡估计模块（OEM）来精确估计遮挡位置信息，并提出一种用于训练阶段的遮挡图真实值生成方法。

ODH（用于遮挡引导的多任务交互的遮挡解耦头）和TPP（两阶段渐进细化过程）

方法

如图4所示，我们提出的**遮挡引导多任务网络（OGMN）**由以下三个关键技术组成：遮挡估计模块（OEM）、遮挡解耦头（ODH）和两阶段渐进细化过程（TPP）。OGMN是基于多任务范式设计的，包括遮挡定位和两个遮挡引导的多任务交互。原始设备制造商在无人机图像中定位遮挡，并输出遮挡引导多任务交互的遮挡定位结果。ODH将遮挡定位结果解耦为分类和定位任务，以及通过对遮挡框进行加权来挖掘遮挡样本。OGMN设计了一个两阶段渐进细化过程（TPP），以自适应地找出遮挡子区域，对原始图像进行粗检测，并对遮挡子对象进行精细检测，然后将粗检测和精细检测结果与非最大值抑制进行合并。

遮挡引导的多任务网络

为了解决无人机图像对象检测中的遮挡挑战以提高检测性能，我们采用了遮挡引导的多任务学习范式来设计我们遮挡引导检测网络（OGMN），包括遮挡定位和两个遮挡引导多任务交互。
OGMN的目标是获得遮挡对象的多尺度特征和遮挡空间位置。与(Sun)中的讨论类似，遮挡对象可以描述为遮挡区域与非遮挡区域的组合。因此，具有K个遮挡区域和n-k个非遮挡区域的遮挡对象表示为：
$B=(l_1^{occ}，.....l_k^{occ}，l_{k+1}^{unocc}，l_n^{unocc})$

$l_i^{occ}$ 是第i个遮挡区域， $l_i^{unocc}$ 是第i个非遮挡区域。

遮挡位置的信息被描述为 $F_{occ}$ ，遮挡位置取决于B。因此，遮挡引导检测器可以参考遮挡对象的遮挡位置信息来实现对遮挡对象的检测。根据贝叶斯定律，检测结果可以描述为 $P(B|F_{occ},F_i)$ 用于由输入图像的编码器提取的多尺度特征 $F_i$ ：
$p(B|F_{occ},F_i)=\frac{p(F_{occ}|B.F_i)*p(B|F_i)}{p(F_{occ})}$

$p(F_{occ}|B,F_i)$ 是在给定编码器的特征 $F_i$ 和遮挡的检测的情况下获得遮挡位置信息的概率。 $p(B|F_i)$ 是在给定编码器特征的情况下获得遮挡对象的概率 $F_i$ 。

假设输入图像中的遮挡对象，则检测结果是具有最大后验概率的位置：
$B^* = \underset{B}{\arg\max}(p(B|F_{\text{occ}},F_i)) \\ = \underset{B}{\arg\max}(p(|F_{\text{occ}|B} \times p(B|F_i))$
因此，检测取决于似然模糊 $p(F_{occ}|B,F_i)$ 和空间先验 $p(B|F_i)$ 。在本文中，我们提出了一个遮挡引导的多任务网络来对这两个因素进行建模，定位遮挡可以对似然模型 $p(F_{occ}|B,F_i)$ 进行建模。空间先验 $p(B|F_i)$ 可以被建模为对象检测过程。

实现遮挡定位是OGMN的核心。OGMN的策略可以概括为使用遮挡定位结果来指导检测。遮挡定位的实现是该策略实现的前提，准确可靠的遮挡定位结果是整个策略有效性的保证。但是现有的目标检测工作并没有实现一种遮挡定位的方法。因此，提出了一种新的遮挡估计模块，并将其嵌入到检测器中，以形成一个既考虑遮挡定位任务又考虑目标检测任务的新的多任务网络。在这项工作中，新的遮挡定位和对象检测是OGMN中的两个相关任务，它们可以共享互补信息，并充当彼此的正则化子，有可能提高各自的性能**。由于遮挡定位任务的特征与对象检测所需的特征部分相同，因此它们可以共享一个编码器进行特征提取**。由于这一点，与两个任务的每个任务一个编码器相比，网络中的参数数量和由此产生的内存占用大大减少。对于网络架构，整个网络架构由一个共享特征提取编码器和两个独立的任务解码器组成，这是一个多任务网络范式，如图3所示：

在这里插入图片描述

多任务交互是提高模型性能的有效方法。我们网络中的解码阶段为两个不同的任务使用两个单独的任务专用头，这满足了两个任务的独立输出，但缺乏充分的交互。为了充分利用遮挡定位结果，ODH和TPP被设计为两个遮挡引导的多任务交互，以在检测中利用遮挡定位的结果来实现更好的检测性能,ODH和TPP的设计是基于无人机图像的遮挡特性。为了解决遮挡对象的特征混淆问题，我们设计了ODH来代替原来的通用检测头。根据遮挡的局部聚焦特性，我们提出了一种两阶段渐进细化过程来改进检测过程。

遮挡估计模块（OEM）

遮挡估计模块网络

遮挡估计任务是OGMN的核心，OGMN需要准确的遮挡定位结果来指导检测。现有的物体检测工作没有实现这一要求的方法。因此，迫切需要一种能够充分表达遮挡定位任务的新型遮挡定位网络。本文根据无人机图像的遮挡小尺度特性，设计了一种具有无人机图像遮挡估计器功能的遮挡定位解码网络。为此，设计了一种新型的遮挡估计模块。

OEM网络包括多个上采样，这样做是为了更准确地估计遮挡。原因是无人机图像中的大多数物体都是小规模物体，它们之间的遮挡较小，此外编码器在多次下采样后输出特征。为了准确定位遮挡，OEM使用PixelShuffle对特征图进行上采样以提高分辨率。CSP块可以很好地与当前位置和周围位置的特征交互，因此该块用于在每次上采样后利用局部上下文信息，总之上采样和卷积交互的交替是OEM的设计标准。图4显示了OEM网络的更多细节。来自编码器的部分多尺度特征图被输入到OEM，并输出具有遮挡空间信息的遮挡置信图。因此，图像的每个像素位置都被赋予遮挡置信度值，该值构成像素级遮挡定位结果。
在这里插入图片描述

因此，给定来自网络中编码器的多尺度特征图片 $F_i$ ，并将第p个序列中的PixelShuffle和CSP表示为 $U_p(*)$ 和 $C_p(*)$ ，OEM的遮挡置信度图可以被表示为：
$M_i^{occ} = \pi_{p=0}^pC_p(U_p(F_i))$

其中P表示重复串联的模块数量。

遮挡定位真值的生成

在OEM能够充分表达定位任务之后，确定OEM是否能够输出准确的遮挡定位结果的另一个关键是生成训练真值标签。具有足够拟合潜力的网络精确输出的关键是参与网络训练的真值标签。根据该原则，网络中的OEM在训练过程中受到监督。但是，可用的无人机图像对象检测数据集没有用遮挡位置进行标记，也没有为OEM训练提供真实标签。因此，我们需要为OEM的监督训练设计一种新的真值标签生成方法，并设计一种由ground truth真值盒生成的遮挡图真值标签的新生成方法。

如图5左侧所示，只有object ground truth的重叠区域用高斯核进行模糊处理，以使遮挡图更符合真实的遮挡分布。然而，在用这种生成方法训练OEM后，输出遮挡置信度图中包含的语义信息与对象检测所需的语义信息相差太大。这种差异使得网络在训练中很难平衡这两项任务。这导致整个网络的收敛性较差。为了更好地收敛网络，回归更精确的遮挡语义信息，本文提出了一种突出遮挡的生成方法，以生成有效的遮挡图真值标签进行训练。

在这里插入图片描述

如图5右侧所示，我们提出的生成方法通过突出object ground truth内的遮挡区域来最大限度减少差异，这增强了两个任务的相关性，并实现了网络的更好收敛。

OGMN的训练损失函数对应于多任务网络的结构，该结构由两个任务的训练损失组成。给定N个输入图像，其中第N个输入图像为，真实遮挡图为 $T_n$ ，遮挡估计任务 $L_{occ}$ 的损失函数基于均方误差，如下所示：
$L_{occ} = \frac{1}{N}\sum_{n=1}^N(O(E(I_n))-T_n)^2$

$E (*)$ 和 $O (*)$ 其中分别表示OGMN中的编码器和遮挡定位解码器。

遮挡解耦头

OEM的设计成功地引入了遮挡定位任务，检测模型可以感知遮挡。尽管OEM能够准确地估计遮挡定位结果，但这些结果仍然没有直接和充分地用于对象检测任务。解码器阶段充分的任务交互是提高每个任务性能的重要方法，而该模型仍然缺乏多任务交互。由于遮挡定位是首次引入，因此在现有工作中不存在对象检测和遮挡定位任务的多任务交互。因此，我们需要在遮挡定位结果的指导下，在两个任务解码器之间设计一种新的多任务交互。同样，由于检测头中的分类和定位之间的不一致性，两个任务解码器之间的新的多任务交互需要使用解耦策略进行设计。

在ODH中，所提出的解耦方法将遮挡定位结果独立地融合到分类和回归网络中。解耦的优点是可以提取两个任务所需的差异特征。此外，通过实验发现，简单的分类网络性能不好。ODH引入了大卷积核来增加感受野，两个任务的网络分支在通道维度上独立堆叠图像特征图和遮挡特征图，然后通过1*1卷积减少通道数，并使用大的内核卷积模块增强它们各自的融合特征。我们将编码器输出的多尺度特征表示为 $F_i$ ，解耦方法可以描述为以下函数。其中 $Conv_{1 \times 1}(*)$ 分别表示特征的级联、具有批量归一化层的1x1卷积和ReLU激活，而LK(*)是大的核卷积。

$\left\{ \begin{aligned} &F_i^{cls} = LK(Conv_{1*1}(Cat(F_i^{encoder},O(F_i)))) \\ &F_i^{loc} = Conv_{1*1}(Cat(F_i^{encoder},O(F_i))) \end{aligned} \right.$

$O (*)$ 表示OGMN中的遮挡定位解码器。

作为补充，ODH提出了遮挡盒加权的采样策略来挖掘遮挡困难样本，（Lin)都专注于困难样本挖掘，也通过对困难样本框进行加权。但他们发现困难样本的方式是通过训练损失。这无法选择遮挡采样。因此，本文提出从原始设备制造商回归的遮挡置信图图表示为 $map_{occ}$ ，其中包含像素级遮挡置信度分数。所提出的遮挡硬样本挖掘是实例级的，而不是像素级的。为了将像素级置信度转换为实例级，我们将预测的框坐标和遮挡置信度图相结合，并计算像素级置信得分之和作为实例的置信度。遮挡硬样本挖掘的使用伴随着损失函数的加权。对象检测任务分类损失 $L_{cls}$ 定位损失 $L_{loc}$ 描述如下：
$\left\{ \begin{aligned} &L^{cls} =\frac{1}{N} \sum_{n=1}^NL_n = -\frac{1}{N}(\sum_{n=1}^N(w_n^{occ}\sum_{c=1}^C)y_n^clogp_n^c)\\ &L^{loc} = \sum_{n}^N(w_n^{occ}\sum_{k \in (x,y,h,w)})smooth_{L_1}(t_n^k-v_n^k)) \end{aligned} \right.$
其中
$w_n^{occ} = \left\{ \begin{aligned} &2 \ sum(t_n,M_n^{occ} >= Thr_{occ})\\ &1 \ sum(t_n,M_n^{occ} < Thr_{occ}) \end{aligned} \right.$
其中C表示类别的数量，并且 $y_n^c$ 是一个符号函数，如果样本n的真类别等于c，则取值为1，否则取值为0。 $p_n^c$ 表示样本n属于预测类别c的概率。 $v_n^k \in (t_n^x,t_n^y,t_n^w,t_n^h , t_n^k \in (t_n^x,t_n^y,t_n^w,t_n^h))$ 表示GT的框坐标和样本n的预测框坐标。表示对应于样本n的预测框 $t_n$ 的 $M_n^{occ}$ 中的遮挡置信度得分的总和。 $Thr_{occ}$ 是选择遮挡对象的阈值。

总训练损失函数是两个具有平衡权重的任务的总和，用于平衡每个任务，如下所示：

$L_{total} = \lambda _{occ}L_{occ} + \lambda _{cls}L_{cls}+ \lambda _{loc}L_{loc}$
$\lambda_{occ},\lambda_{cls},\lambda_{loc}$ 表示遮挡定位任务、分类任务的权重参数，和目标检测任务中的定位任务。 $L_{occ}$ 是遮挡定位任务损失函数， $L_{cls}$ 和 $L_{}$ 是检测损失函数。
loc

两阶段渐进细化过程

尽管ODH是两个任务解码器之间的遮挡引导交互，但仍然缺乏交互遮挡定位任务和检测过程。对于无人机图像目标检测中的检测过程，这些工作中的图像裁剪策略（2020）是改进检测过程的另一种方法，该策略可以有效的裁剪出目标的聚集区域。但现有的工作是以数据为导向的，他们忽略了遮挡对象是难以检测的事实。因此，需要在遮挡定位任务和检测过程之间进行遮挡引导的图像裁剪，我们根据遮挡的局部聚焦特性提出了一种两阶段渐进细化过程（TPP），如图6所示。

在这里插入图片描述

与现有工作相比，我们的TPP用遮挡对象的指导代替了整体数据的指导，这与（2016）中的硬样本类似。TPP粗略地检测原始图像，精细地检测裁剪的遮挡区域，构成检测过程的两阶段渐进细化过程。

TPP的优点是它是一个由遮挡对象引导的精细检测过程。详细地说，OGMN的检测结果来自两个阶段，包括源图像的粗略检测结果和遮挡子区域的精细检测结果。检测器首先预测下采样源图像的粗略结果，主要是显著对象的边界框、类别和置信度。在裁剪与由遮挡置信图自适应地选择的遮挡子区域相对应的子图像之后，检测器精细地检测这些子图像以输出更准确地结果。精细检测阶段是提高遮挡对象等硬样本检测的关键。NMS将两个阶段的结果合并以输出最终检测结果。值得一提的是，OGMN对遮挡对象更具鲁棒性，因为遮挡子区域的选择是基于遮挡定位结果的，并且大多数遮挡对象都在这些区域中，因此可以对遮挡对象进行精细检测，此过程对于提高遮挡对象模型的稳健性非常有帮助。

算法1中记录了详细检测中遮挡子区域的自适应选择。

在这里插入图片描述

我们将原始输入图像表示为I，最终检测结果为 $R_{final}$ ，检测结果近似于：
$R_{final} = NMS[D(E(I),O(E(I))), \\ \cup _{q=0}^QD(E(I_q),O(E(I_q)))]$

$E (*)$ 表示网络中用于提取多尺度特征图的编码器，D(8)和O(*)分别表示对象检测编码器和遮挡定位编码器。 $I_0,....I_N$ 表示用算法1选择的遮挡子图像 $I_0,...,I_Q = Select(D(E(I)),I)$ 。

子区域的大小由图像中对象的比例差确定。数据集的统计数据显示，无人机图像中较大的物体是较小物体的四倍多。因此，为了尽可能多地消除图像中对象的比例差异，将子区域的大小的最小值确定为图像大小的四分之一。

同时，为了确保分割的子图像能够覆盖大部分遮挡对象，子区域大小的最大值不固定。如算法1所述，使用k均值聚类算法生成的子区域已经保证覆盖感知到的遮挡对象，并且基于这些子区域坐标，根据最小值约束来矫正子区域的大小。这样可以确保子区域覆盖感知到的遮挡对象，同时消除图像中对象之间的比例差异。

隐式训练数据扩充被纳入我们提出的两阶段渐进细化过程中。在测试阶段，遮挡子区域的精细检测结果与原始图像的检测结果相融合，而在训练阶段，则用于优化模型。这种隐式训练数据增强类似于通用数据增强技术，如均匀裁剪和随机裁剪。但这些通用技术都是以数据为导向的，缺乏对遮挡的感知。而我们的方法在训练阶段通过隐式训练数据增强，很好地感知到遮挡，并引导模型关注遮挡对象。这使得模型对于遮挡硬样本更加稳健。我们的TPP中的隐式训练数据扩充可以描述如下：

通过算法1利用遮挡定位结果来选择遮挡子区域。在训练阶段，这些区域被裁剪出来并调整大小到合适的比例，作为新的训练数据，并与源图像I一起形成整个训练数据。