摘要
红外小目标检测是一项重要的计算机视觉任务,涉及在红外图像中识别和定位微小物体,这些物体通常仅包含几个像素。然而,由于物体尺寸极小以及红外图像中通常复杂的背景,这项任务面临困难。在本文中,我们提出了一种深度学习方法 HCF-Net,通过多个实用模块显著提高了红外小目标检测的性能。具体来说,它包括并行补丁感知注意力(PPA)模块、维度感知选择性集成(DASI)模块和多空洞通道细化器(MDCR)模块。PPA 模块使用多分支特征提取策略来捕获不同尺度和级别的特征信息。DASI 模块实现自适应通道选择和融合。MDCR 模块通过多个深度可分离卷积层捕获不同感受野范围的空间特征。在 SIRST 红外单帧图像数据集上的大量实验结果表明,所提出的 HCF-Net 性能良好,优于其他传统和深度学习模型。代码可在 https://github.com/zhengshuchen/HCFNet 获取。
关键词:红外小目标检测,深度学习,多尺度特征。
一、引言
红外小目标检测是一种在红外图像中识别和检测微小物体的关键技术。由于红外传感器能够捕获物体发出的红外辐射,这种技术即使在黑暗或低光环境中也能实现微小物体的精确检测和识别。因此,它在军事、安全、海上救援和火灾监测等多个领域具有显著的应用前景和价值。
然而,红外小目标检测仍然面临以下挑战。首先,深度学习是目前红外小目标检测的主要方法。但是,几乎所有现有的网络都采用经典的下采样方案。由于红外小物体尺寸小,通常伴随着微弱的热信号和模糊的轮廓,在多次下采样过程中存在信息丢失的重大风险。其次,与可见光图像相比,红外图像缺乏物理信息且对比度较低,使得小物体容易淹没在复杂的背景中。
为了应对这些挑战,我们提出了一种名为HCF-Net的红外小目标检测模型。该模型旨在更精确地描述物体的形状和边界,通过将红外小目标检测作为语义分割问题来提高物体定位和分割的准确性。如图1所示,它包含三个关键模块:PPA、DASI和MDCR,这些模块从多个层面解决了上述挑战。
具体来说,作为编码器-解码器的主要组成部分,PPA模块采用层次特征融合和注意力机制来保持和增强小物体的表示,确保在多次下采样步骤中保留关键信息。DASI模块增强了U-Net中的跳跃连接,专注于高维和低维特征的自适应选择和精细融合,以增强小物体的显著性。MDCR模块位于网络的深层,强化了多尺度特征提取和通道信息表示,捕获不同感受野范围的特征。它更精细地建模物体与背景之间的差异,提高了定位小物体的能力。这些模块的有机结合使我们能够更有效地应对小目标检测的挑战,提高检测性能和鲁棒性。
综上所述,本文的主要贡献可以总结如下:
-
我们将红外小目标检测建模为语义分割问题,并提出了HCF-Net,一个可以从头开始训练的逐层上下文融合网络。
-
提出了三个实用模块:并行补丁感知注意力(PPA)模块、维度感知选择性集成(DASI)模块和多空洞通道细化器(MDCR)模块。这些模块有效缓解了红外小目标检测中物体丢失和背景区分度低的问题。
-
我们在公开可用的单帧红外图像数据集SIRST上评估了所提出HCF-Net的检测性能,并证明其相比几种最先进的检测方法具有显著优势。
二、相关工作
A. 传统方法
在红外小目标检测的早期阶段,主要的方法是基于模型的传统方法,通常分为基于滤波器的方法、基于人类视觉系统的方法和低秩方法。基于滤波器的方法通常局限于特定和均匀的场景。例如,TopHat[1]使用各种滤波器估计场景背景,以从复杂背景中分离出物体。基于人类视觉系统的方法适用于具有大物体和强背景区分度的场景,如LCM[2],它通过测量中心点与其周围环境的对比度来实现。低秩方法适用于快速变化和复杂的背景,但在实际应用中缺乏实时性能,通常需要额外的辅助手段,如GPU加速。这些方法包括IPI[3],它使用低秩分解将低秩背景与稀疏形状的物体相结合;PSTNN[4]采用基于张量核范数的非凸方法;RIPT[5]专注于重加权的红外补丁张量;以及NIPPS[6],这是一种高级优化方法,试图将低秩和先验约束结合起来。尽管传统方法在特定场景中有效,但它们容易受到杂波和噪声的干扰。在复杂的现实场景中,物体建模受到模型超参数的影响很大,导致泛化性能较差。
B. 深度学习方法
近年来,随着神经网络的快速发展,深度学习方法在红外小目标检测任务上取得了显著进展。深度学习方法[7]-[14]相比传统方法具有更高的识别准确率,且不依赖于特定场景或设备,表现出更强的鲁棒性和更低的成本,逐渐在该领域占据主导地位。王等人[15]使用在ImageNet大规模视觉识别挑战赛(ILSVRC)数据上训练的模型来完成红外小目标检测任务。梁奎等人[16]结合过采样生成的数据,提出了一种多层网络用于小目标检测。赵等人[17]开发了一种结合红外小目标语义约束信息的编码器-解码器检测方法(TBCNet)。王等人[18]使用生成器和判别器处理两个不同任务:漏检和误报,实现了这两方面的平衡。纳西尔等人[19]提出了一种用于自动目标识别(ATR)的深度卷积神经网络模型。张等人提出了AGPCNet[20],其中引入了注意力引导上下文模块。戴等人引入了非对称上下文调制ACM[21],并发布了第一个真实世界的红外小目标数据集SIRST。吴等人[22]提出了一种“U-Net中的U-Net”框架,以实现目标的多级表示学习。
三、方法
本节将详细讨论HCF-Net。如图1所示,HCF-Net是一个升级版的U-Net架构,由三个关键模块组成:PPA、DASI和MDCR。这些模块使我们的网络更适合检测红外小目标,并有效应对小目标损失和背景特征不明显等挑战。接下来,我们将在第III-A节中简要介绍PPA,然后在第III-B节中概述DASI,最后在第III-C节中介绍MDCR。
A. 并行补丁感知注意力模块
在红外小目标检测任务中,小目标在多次下采样操作中容易丢失关键信息。如图1所示,PPA替代了编码器和解码器基础组件中的传统卷积操作,以更好地应对这一挑战。
1) 多分支特征提取:PPA的主要优势在于其多分支特征提取策略。如图2所示,PPA采用并行多分支方法,每个分支负责在不同尺度和层次上提取特征。这种多分支策略有助于捕捉目标的多尺度特征,从而提高小目标检测的准确性。具体来说,该策略涉及三个并行分支:局部卷积分支、全局卷积分支和串行卷积分支。给定输入特征张量 F ∈ R H ′ × W ′ × C \mathbf{F} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C} F∈RH′×W′×C,它首先通过逐点卷积进行调整,得到 F ′ ∈ R H ′ × W ′ × C ′ \mathbf{F}^{\prime} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} F′∈RH′×W′×C′。然后,通过这三个分支,可以分别计算出 F local ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {local }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Flocal ∈RH′×W′×C′, F global ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {global }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fglobal ∈RH′×W′×C′,以及 F conv ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv ∈RH′×W′×C′。最后,将这三个结果相加,得到 F ~ ∈ R H ′ × W ′ × C ′ \tilde{\mathbf{F}} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} F~∈RH′×W′×C′。
具体来说,局部分支和全局分支之间的区别是通过控制补丁大小参数 p p p来建立的,这通过在空间维度上聚合和位移非重叠补丁来实现。此外,我们计算非重叠补丁之间的注意力矩阵,以实现局部和全局特征的提取和交互。
首先,我们使用计算效率高的操作,包括Unfold和reshape,将 F ′ \mathbf{F}^{\prime} F′分割成一组空间上连续的补丁,形状为 ( p × p , H ′ / p , W ′ / p , C ) \left(p \times p, H^{\prime} / p, W^{\prime} / p, C\right) (p×p,H′/p,W′/p,C)。接着,我们进行通道平均化操作,得到形状为 ( p × p , H ′ / p , W ′ / p ) \left(p \times p, H^{\prime} / p, W^{\prime} / p\right) (p×p,H′/p,W′/p)的结果。然后,我们使用FFN(Feed-Forward Network)进行线性计算。随后,我们应用激活函数,以获得线性计算特征在空间维度上的概率分布,并相应地调整它们的权重。
在加权结果中,我们采用特征选择[24]来从标记和通道中选择与任务相关的特征。具体来说,设 d = H ′ × W ′ p × p d = \frac{H^{\prime} \times W^{\prime}}{p \times p} d=p×pH′×W′,并将加权结果表示为 ( t i ) i = 1 C ′ \left(\mathbf{t}_{i}\right)_{i=1}^{C^{\prime}} (ti)i=1C′,其中 t i ∈ R d \mathbf{t}_{i} \in \mathbb{R}^{d} ti∈Rd表示第 i i i个输出标记。特征选择对每个标记进行操作,输出为 t ^ i = P ⋅ sim ( t i , ξ ) ⋅ t i \hat{\mathbf{t}}_{i} = \mathbf{P} \cdot \operatorname{sim}\left(\mathbf{t}_{i}, \xi\right) \cdot \mathbf{t}_{i} t^i=P⋅sim(ti,ξ)⋅ti,其中 ξ ∈ R C ′ \xi \in \mathbb{R}^{C^{\prime}} ξ∈RC′和 P ∈ R C ′ × C ′ \mathbf{P} \in \mathbb{R}^{C^{\prime} \times C^{\prime}} P∈RC′×C′是与任务相关的参数, sim ( ⋅ , ⋅ ) \operatorname{sim}(\cdot, \cdot) sim(⋅,⋅)是范围在 [ 0 , 1 ] [0,1] [0,1]之间的余弦相似度函数。这里, ξ \xi ξ作为任务嵌入,指定了哪些标记与任务相关。每个标记 t i \mathbf{t}_{i} ti都根据其与任务嵌入的相关性(通过余弦相似度衡量)重新加权,有效地模拟了标记选择。随后,我们对每个标记的通道进行线性变换 P \mathbf{P} P,然后进行重塑和插值操作,最终生成特征 F local ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {local }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Flocal ∈RH′×W′×C′和 F global ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {global }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fglobal ∈RH′×W′×C′。最后,我们用由三个 3 × 3 3 \times 3 3×3卷积层组成的串行卷积替代了传统的 7 × 7 7 \times 7 7×7、 5 × 5 5 \times 5 5×5和 3 × 3 3 \times 3 3×3卷积层。这会产生三个不同的输出: F conv 1 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 1} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 1∈RH′×W′×C′, F conv 2 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 2} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 2∈RH′×W′×C′,和 F conv 3 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 3} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 3∈RH′×W′×C′。随后,我们将这些输出相加,以得到串行卷积的输出 F conv ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv ∈RH′×W′×C′。
2)特征融合与注意力机制:通过多分支特征提取之后,我们利用注意力机制进行自适应特征增强。注意力模块包含一系列高效的通道注意力[25]和空间注意力[26]组件。在这个上下文中, F ~ ∈ R H × W × C ′ \tilde{\mathbf{F}} \in \mathbb{R}^{H \times W \times C^{\prime}} F~∈RH×W×C′ 会依次经过一个一维通道注意力图 M c ∈ R 1 × 1 × C ′ \mathbf{M}_{c} \in \mathbb{R}^{1 \times 1 \times C^{\prime}} Mc∈R1×1×C′ 和一个二维空间注意力图 M s ∈ R H ′ × W ′ × 1 \mathbf{M}_{s} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times 1} Ms∈RH′×W′×1 的处理。这个过程可以总结如下:
F c = M c ( F ~ ) ⊗ F ~ , F s = M s ( F c ) ⊗ F c , F ′ ′ = δ ( B ( dropout ( F s ) ) ) \begin{array}{c} \mathbf{F}_{c} = \mathbf{M}_{c}(\tilde{\mathbf{F}}) \otimes \tilde{\mathbf{F}}, \quad \mathbf{F}_{s} = \mathbf{M}_{s}\left(\mathbf{F}_{c}\right) \otimes \mathbf{F}_{c}, \\ \mathbf{F}^{\prime \prime} = \delta\left(\mathcal{B}\left(\text{dropout}\left(\mathbf{F}_{s}\right)\right)\right) \end{array} Fc=Mc(F~)⊗F~,Fs=Ms(Fc)⊗Fc,F′′=δ(B(dropout(Fs)))
其中, ⊗ \otimes ⊗ 表示逐元素乘法, F c ∈ R H × W × C ′ \mathbf{F}_{c} \in \mathbb{R}^{H \times W \times C^{\prime}} Fc∈RH×W×C′ 和 F s ∈ R H × W × C ′ \mathbf{F}_{s} \in \mathbb{R}^{H \times W \times C^{\prime}} Fs∈RH×W×C′ 分别表示经过通道和空间选择后的特征, δ ( ⋅ ) \delta(\cdot) δ(⋅) 和 B ( ⋅ ) \mathcal{B}(\cdot) B(⋅) 分别表示修正线性单元(ReLU)和批量归一化(BN),而 F ′ ′ ∈ R H × W × C ′ \mathbf{F}^{\prime \prime} \in \mathbb{R}^{H \times W \times C^{\prime}} F′′∈RH×W×C′ 是 PPA(可能指的是某个特定模块或处理的缩写)的最终输出。
B. 维度感知选择性集成模块
在红外小目标检测的多级下采样过程中,高维特征可能会丢失关于小目标的信息,而低维特征可能无法提供足够的上下文信息。为解决这个问题,我们提出了一种新颖的通道划分选择机制(如图3所示),使DASI(维度感知选择性集成模块)能够根据目标的大小和特性自适应地选择适当的特征进行融合。具体来说,DASI首先通过卷积和插值等操作将高维特征
F
h
∈
R
H
h
×
W
h
×
C
h
\mathbf{F}_{\mathbf{h}} \in \mathbb{R}^{H_{h} \times W_{h} \times C_{h}}
Fh∈RHh×Wh×Ch 和低维特征
F
1
∈
R
H
l
×
W
l
×
C
l
\mathbf{F}_{1} \in \mathbb{R}^{H_{l} \times W_{l} \times C_{l}}
F1∈RHl×Wl×Cl 与当前层的特征
F
u
∈
R
H
×
W
×
C
\mathbf{F}_{\mathbf{u}} \in \mathbb{R}^{H \times W \times C}
Fu∈RH×W×C 进行对齐。
随后,DASI在通道维度上将它们均等地划分为四个部分,得到
(
h
i
)
i
=
1
4
∈
R
H
×
W
×
C
4
\left(\mathbf{h}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}}
(hi)i=14∈RH×W×4C,
(
l
i
)
i
=
1
4
∈
R
H
×
W
×
C
4
\left(\mathbf{l}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}}
(li)i=14∈RH×W×4C 和
(
u
i
)
i
=
1
4
∈
R
H
×
W
×
C
4
\left(\mathbf{u}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}}
(ui)i=14∈RH×W×4C,其中
h
i
\mathbf{h}_{i}
hi、
l
i
\mathbf{l}_{i}
li 和
u
i
\mathbf{u}_{i}
ui 分别表示高维特征、低维特征和当前层特征的第
i
i
i 个划分部分。这些划分部分是根据以下公式计算得到的:
α
=
sigmoid
(
u
i
)
,
u
i
′
=
α
l
i
+
(
1
−
α
)
h
i
,
F
u
′
=
[
u
1
′
,
u
2
′
,
u
3
′
,
u
4
′
]
,
F
u
^
=
δ
(
B
(
Conv
(
F
u
′
)
)
)
,
\begin{array}{c} \alpha=\operatorname{sigmoid}\left(\mathbf{u}_{i}\right), \quad \mathbf{u}_{i}^{\prime}=\alpha \mathbf{l}_{i}+(1-\alpha) \mathbf{h}_{i}, \\ \mathbf{F}_{u}^{\prime}=\left[\mathbf{u}_{1}^{\prime}, \mathbf{u}_{2}^{\prime}, \mathbf{u}_{3}^{\prime}, \mathbf{u}_{4}^{\prime}\right], \quad \hat{\mathbf{F}_{\mathbf{u}}}=\delta\left(\mathcal{B}\left(\operatorname{Conv}\left(\mathbf{F}_{\mathbf{u}}^{\prime}\right)\right)\right), \end{array}
α=sigmoid(ui),ui′=αli+(1−α)hi,Fu′=[u1′,u2′,u3′,u4′],Fu^=δ(B(Conv(Fu′))),
其中, α ∈ R H × W × C 4 \alpha \in \mathbb{R}^{H \times W \times \frac{C}{4}} α∈RH×W×4C 表示通过激活函数应用于 u i \mathbf{u}_{i} ui 得到的值, u i ′ ∈ R H × W × C 4 \mathbf{u}_{i}^{\prime} \in \mathbb{R}^{H \times W \times \frac{C}{4}} ui′∈RH×W×4C 表示每个分区的选择性聚合结果。在通道维度上合并 ( u i ′ ) i = 1 4 \left(\mathbf{u}_{i}^{\prime}\right)_{i=1}^{4} (ui′)i=14 后,我们得到 F u ′ ∈ R H × W × C \mathbf{F}_{u}^{\prime} \in \mathbb{R}^{H \times W \times C} Fu′∈RH×W×C。操作 Conv ( ) \text{Conv}() Conv()、 B ( ) \mathcal{B}() B() 和 δ ( ) \delta() δ() 分别表示卷积、批量归一化(BN)和修正线性单元(ReLU),最终输出为 F u ^ ∈ R H × W × C \hat{\mathbf{F}_{u}} \in \mathbb{R}^{H \times W \times C} Fu^∈RH×W×C。
如果 α > 0.5 \alpha>0.5 α>0.5,则模型优先考虑细粒度特征;而如果 α < 0.5 \alpha<0.5 α<0.5,则模型更强调上下文特征。
C. 多扩张通道细化模块
在多扩张通道细化模块(MDCR)中,我们引入了多个具有不同扩张率的深度可分离卷积层,以捕获不同感受野大小的空间特征。这允许我们更详细地建模对象与背景之间的差异,从而增强其识别小对象的能力。
如图4所示,MDCR将输入特征 F a ∈ R H × W × C \mathbf{F}_{\mathbf{a}} \in \mathbb{R}^{H \times W \times C} Fa∈RH×W×C沿通道维度划分为四个不同的头部,生成 ( a i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{a}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (ai)i=14∈RH×W×4C。然后,每个头部都经过具有不同扩张率的独立深度可分离扩张卷积,得到 ( a i ′ ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{a}_{i}^{\prime}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (ai′)i=14∈RH×W×4C。我们将卷积扩张率指定为 d 1 , d 2 , d 3 d_1, d_2, d_3 d1,d2,d3和 d 4 d_4 d4。
a i ′ = D D W Conv ( a i ) , \mathbf{a}_{i}^{\prime}=D D W \text{Conv}\left(\mathbf{a}_{i}\right), ai′=DDWConv(ai),
其中, a i ′ \mathbf{a}_{i}^{\prime} ai′表示通过对第 i i i个头部应用深度可分离扩张卷积而获得的特征。操作 D D W Conv ( ) D D W \text{Conv}() DDWConv()表示深度可分离扩张卷积,而 i i i的取值范围为 1 , 2 , 3 , 4 1,2,3,4 1,2,3,4。
MDCR通过通道分割和重组来增强特征表示。具体来说,我们将
a
i
′
\mathbf{a}_{i}^{\prime}
ai′分割成单独的通道,以获得每个头部的
(
a
i
j
)
j
=
1
C
4
∈
R
H
×
W
×
1
\left(\mathbf{a}_{i}^{j}\right)_{j=1}^{\frac{C}{4}} \in \mathbb{R}^{H \times W \times 1}
(aij)j=14C∈RH×W×1。接着,我们在各个头部之间交错这些通道,形成
(
h
j
)
j
=
1
C
4
∈
R
H
×
W
×
4
\left(\mathbf{h}_{j}\right)_{j=1}^{\frac{C}{4}} \in \mathbb{R}^{H \times W \times 4}
(hj)j=14C∈RH×W×4,从而增强多尺度特征的多样性。随后,我们使用逐点卷积进行组内和跨组信息融合,得到输出
F
o
∈
R
H
×
W
×
C
\mathbf{F}_{\mathbf{o}} \in \mathbb{R}^{H \times W \times C}
Fo∈RH×W×C,实现轻量级且高效的聚合效果。
h
j
=
W
inner
(
[
a
1
j
,
a
2
j
,
a
3
j
,
a
4
j
]
)
,
F
o
=
δ
(
B
(
W
outer
(
[
h
1
,
h
2
,
…
,
h
j
]
)
)
)
,
\begin{array}{c} \mathbf{h}_{j}=\mathbf{W}_{\text {inner }}\left(\left[\mathbf{a}_{1}^{j}, \mathbf{a}_{2}^{j}, \mathbf{a}_{3}^{j}, \mathbf{a}_{4}^{j}\right]\right), \\ \mathbf{F}_{\mathbf{o}}=\delta\left(\mathcal{B}\left(\mathbf{W}_{\text {outer }}\left(\left[\mathbf{h}_{1}, \mathbf{h}_{2}, \ldots, \mathbf{h}_{j}\right]\right)\right)\right), \end{array}
hj=Winner ([a1j,a2j,a3j,a4j]),Fo=δ(B(Wouter ([h1,h2,…,hj]))),
其中,
W
inner
\mathbf{W}_{\text {inner }}
Winner 和
W
outer
\mathbf{W}_{\text {outer }}
Wouter 是逐点卷积中使用的权重矩阵。这里,
a
i
j
\mathbf{a}_{i}^{j}
aij表示第
i
i
i个头部的第
j
j
j个通道,而
h
j
\mathbf{h}_{j}
hj表示第
j
j
j组特征。我们有
i
∈
1
,
2
,
3
,
4
i \in 1,2,3,4
i∈1,2,3,4和
j
∈
1
,
2
,
…
,
C
4
j \in 1,2, \ldots, \frac{C}{4}
j∈1,2,…,4C。函数
δ
(
)
\delta()
δ()和
B
(
)
\mathcal{B}()
B()分别对应修正线性单元(ReLU)和批量归一化(BN)。
D. 损失设计
如图1所示,我们采用了深度监督策略来进一步解决下采样过程中小对象丢失的问题。每个尺度的损失由二元交叉熵损失(Bce)和交并比损失(Iou)组成,定义如下:
l
i
=
Bce
(
y
,
y
^
)
+
Iou
(
y
,
y
^
)
,
L
=
∑
i
=
0
5
λ
i
⋅
l
i
,
l_{i}=\operatorname{Bce}(y, \hat{y})+\operatorname{Iou}(y, \hat{y}), \quad \mathcal{L}=\sum_{i=0}^{5} \lambda_{i} \cdot l_{i},
li=Bce(y,y^)+Iou(y,y^),L=i=0∑5λi⋅li,
其中,
(
l
i
)
i
=
0
5
\left(l_{i}\right)_{i=0}^{5}
(li)i=05表示多个尺度的损失,
y
^
\hat{y}
y^是真实掩码,
y
y
y是预测掩码。每个尺度的损失权重定义为
[
λ
0
,
λ
1
,
λ
2
,
λ
3
,
λ
4
]
=
[
1
,
0.5
,
0.25
,
0.125
,
0.0625
]
\left[\lambda_{0}, \lambda_{1}, \lambda_{2}, \lambda_{3}, \lambda_{4}\right]=[1,0.5,0.25,0.125,0.0625]
[λ0,λ1,λ2,λ3,λ4]=[1,0.5,0.25,0.125,0.0625]。
这种设计允许模型在多个尺度上同时学习,并在训练过程中对不同尺度的特征进行加权。通过给予较低尺度(即较粗糙的尺度)较小的权重,我们能够在不牺牲对小对象检测精度的前提下,平衡模型对不同尺度特征的关注。这有助于模型更好地处理小对象,并在下采样过程中减少信息丢失。通过结合二元交叉熵损失和交并比损失,我们能够同时优化模型的分类和定位能力,从而提高整体性能。
四、实验
A. 数据集与评估指标
我们使用SIRST[21]数据集来评估我们的方法,并采用两个标准指标:交并比(IoU)和归一化交并比(nIoU)[21]。在我们的实验中,SIRST被划分为训练集和测试集,比例为8:2。
B. 实现细节
我们在NVIDIA GeForce GTX 3090 GPU上进行了HCF-Net的实验。对于大小为512×512像素、具有三个颜色通道的输入图像,HCF-Net的计算成本为93.16 GMac(Giga Multiply-Accumulate操作),包含1529万个参数。我们采用Adam优化器进行网络优化,使用批处理大小为4,训练模型300个周期。
C. 消融实验与对比
本节介绍了在SIRST数据集上进行的消融实验和对比实验。首先,如表I所示,我们使用U-Net作为基线,并系统地引入不同的模块来展示它们的有效性。其次,如表II所示,我们提出的方法在SIRST数据集上取得了出色的性能,IoU和nIoU分数分别为80.09%和78.31%,显著优于其他方法。最后,图5展示了各种方法的可视化结果。在第一行中,可以观察到我们的方法以较低的误报率准确检测到了更多的物体。第二行表明我们的方法在复杂背景下仍然能够精确定位物体。最后,最后一行表明我们的方法提供了更详细的形状和纹理特征描述。
五、结论
本文围绕红外小目标检测中的两个挑战——小目标损失和背景杂波问题进行了深入研究。为应对这些挑战,我们提出了HCF-Net模型,该模型集成了多个实用模块,显著提升了小目标检测的性能。通过大量实验验证,HCF-Net展现出了优越性,在性能上超过了传统的分割方法和深度学习模型。因此,该模型在红外小目标检测领域具有广阔的应用前景和重要的实用价值。