HCF-Net:用于红外小目标检测的分层上下文融合网络

摘要

红外小目标检测是一项重要的计算机视觉任务,涉及在红外图像中识别和定位微小物体,这些物体通常仅包含几个像素。然而,由于物体尺寸极小以及红外图像中通常复杂的背景,这项任务面临困难。在本文中,我们提出了一种深度学习方法 HCF-Net,通过多个实用模块显著提高了红外小目标检测的性能。具体来说,它包括并行补丁感知注意力(PPA)模块、维度感知选择性集成(DASI)模块和多空洞通道细化器(MDCR)模块。PPA 模块使用多分支特征提取策略来捕获不同尺度和级别的特征信息。DASI 模块实现自适应通道选择和融合。MDCR 模块通过多个深度可分离卷积层捕获不同感受野范围的空间特征。在 SIRST 红外单帧图像数据集上的大量实验结果表明,所提出的 HCF-Net 性能良好,优于其他传统和深度学习模型。代码可在 https://github.com/zhengshuchen/HCFNet 获取。

关键词:红外小目标检测,深度学习,多尺度特征。

一、引言

红外小目标检测是一种在红外图像中识别和检测微小物体的关键技术。由于红外传感器能够捕获物体发出的红外辐射,这种技术即使在黑暗或低光环境中也能实现微小物体的精确检测和识别。因此,它在军事、安全、海上救援和火灾监测等多个领域具有显著的应用前景和价值。

然而,红外小目标检测仍然面临以下挑战。首先,深度学习是目前红外小目标检测的主要方法。但是,几乎所有现有的网络都采用经典的下采样方案。由于红外小物体尺寸小,通常伴随着微弱的热信号和模糊的轮廓,在多次下采样过程中存在信息丢失的重大风险。其次,与可见光图像相比,红外图像缺乏物理信息且对比度较低,使得小物体容易淹没在复杂的背景中。
在这里插入图片描述

为了应对这些挑战,我们提出了一种名为HCF-Net的红外小目标检测模型。该模型旨在更精确地描述物体的形状和边界,通过将红外小目标检测作为语义分割问题来提高物体定位和分割的准确性。如图1所示,它包含三个关键模块:PPA、DASI和MDCR,这些模块从多个层面解决了上述挑战。

具体来说,作为编码器-解码器的主要组成部分,PPA模块采用层次特征融合和注意力机制来保持和增强小物体的表示,确保在多次下采样步骤中保留关键信息。DASI模块增强了U-Net中的跳跃连接,专注于高维和低维特征的自适应选择和精细融合,以增强小物体的显著性。MDCR模块位于网络的深层,强化了多尺度特征提取和通道信息表示,捕获不同感受野范围的特征。它更精细地建模物体与背景之间的差异,提高了定位小物体的能力。这些模块的有机结合使我们能够更有效地应对小目标检测的挑战,提高检测性能和鲁棒性。

综上所述,本文的主要贡献可以总结如下:

  • 我们将红外小目标检测建模为语义分割问题,并提出了HCF-Net,一个可以从头开始训练的逐层上下文融合网络。

  • 提出了三个实用模块:并行补丁感知注意力(PPA)模块、维度感知选择性集成(DASI)模块和多空洞通道细化器(MDCR)模块。这些模块有效缓解了红外小目标检测中物体丢失和背景区分度低的问题。

  • 我们在公开可用的单帧红外图像数据集SIRST上评估了所提出HCF-Net的检测性能,并证明其相比几种最先进的检测方法具有显著优势。

二、相关工作

A. 传统方法

在红外小目标检测的早期阶段,主要的方法是基于模型的传统方法,通常分为基于滤波器的方法、基于人类视觉系统的方法和低秩方法。基于滤波器的方法通常局限于特定和均匀的场景。例如,TopHat[1]使用各种滤波器估计场景背景,以从复杂背景中分离出物体。基于人类视觉系统的方法适用于具有大物体和强背景区分度的场景,如LCM[2],它通过测量中心点与其周围环境的对比度来实现。低秩方法适用于快速变化和复杂的背景,但在实际应用中缺乏实时性能,通常需要额外的辅助手段,如GPU加速。这些方法包括IPI[3],它使用低秩分解将低秩背景与稀疏形状的物体相结合;PSTNN[4]采用基于张量核范数的非凸方法;RIPT[5]专注于重加权的红外补丁张量;以及NIPPS[6],这是一种高级优化方法,试图将低秩和先验约束结合起来。尽管传统方法在特定场景中有效,但它们容易受到杂波和噪声的干扰。在复杂的现实场景中,物体建模受到模型超参数的影响很大,导致泛化性能较差。

B. 深度学习方法

近年来,随着神经网络的快速发展,深度学习方法在红外小目标检测任务上取得了显著进展。深度学习方法[7]-[14]相比传统方法具有更高的识别准确率,且不依赖于特定场景或设备,表现出更强的鲁棒性和更低的成本,逐渐在该领域占据主导地位。王等人[15]使用在ImageNet大规模视觉识别挑战赛(ILSVRC)数据上训练的模型来完成红外小目标检测任务。梁奎等人[16]结合过采样生成的数据,提出了一种多层网络用于小目标检测。赵等人[17]开发了一种结合红外小目标语义约束信息的编码器-解码器检测方法(TBCNet)。王等人[18]使用生成器和判别器处理两个不同任务:漏检和误报,实现了这两方面的平衡。纳西尔等人[19]提出了一种用于自动目标识别(ATR)的深度卷积神经网络模型。张等人提出了AGPCNet[20],其中引入了注意力引导上下文模块。戴等人引入了非对称上下文调制ACM[21],并发布了第一个真实世界的红外小目标数据集SIRST。吴等人[22]提出了一种“U-Net中的U-Net”框架,以实现目标的多级表示学习。

三、方法

本节将详细讨论HCF-Net。如图1所示,HCF-Net是一个升级版的U-Net架构,由三个关键模块组成:PPA、DASI和MDCR。这些模块使我们的网络更适合检测红外小目标,并有效应对小目标损失和背景特征不明显等挑战。接下来,我们将在第III-A节中简要介绍PPA,然后在第III-B节中概述DASI,最后在第III-C节中介绍MDCR。

A. 并行补丁感知注意力模块

在红外小目标检测任务中,小目标在多次下采样操作中容易丢失关键信息。如图1所示,PPA替代了编码器和解码器基础组件中的传统卷积操作,以更好地应对这一挑战。
在这里插入图片描述

1) 多分支特征提取:PPA的主要优势在于其多分支特征提取策略。如图2所示,PPA采用并行多分支方法,每个分支负责在不同尺度和层次上提取特征。这种多分支策略有助于捕捉目标的多尺度特征,从而提高小目标检测的准确性。具体来说,该策略涉及三个并行分支:局部卷积分支、全局卷积分支和串行卷积分支。给定输入特征张量 F ∈ R H ′ × W ′ × C \mathbf{F} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C} FRH×W×C,它首先通过逐点卷积进行调整,得到 F ′ ∈ R H ′ × W ′ × C ′ \mathbf{F}^{\prime} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} FRH×W×C。然后,通过这三个分支,可以分别计算出 F local  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {local }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Flocal RH×W×C F global  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {global }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fglobal RH×W×C,以及 F conv  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv RH×W×C。最后,将这三个结果相加,得到 F ~ ∈ R H ′ × W ′ × C ′ \tilde{\mathbf{F}} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} F~RH×W×C

具体来说,局部分支和全局分支之间的区别是通过控制补丁大小参数 p p p来建立的,这通过在空间维度上聚合和位移非重叠补丁来实现。此外,我们计算非重叠补丁之间的注意力矩阵,以实现局部和全局特征的提取和交互。

首先,我们使用计算效率高的操作,包括Unfold和reshape,将 F ′ \mathbf{F}^{\prime} F分割成一组空间上连续的补丁,形状为 ( p × p , H ′ / p , W ′ / p , C ) \left(p \times p, H^{\prime} / p, W^{\prime} / p, C\right) (p×p,H/p,W/p,C)。接着,我们进行通道平均化操作,得到形状为 ( p × p , H ′ / p , W ′ / p ) \left(p \times p, H^{\prime} / p, W^{\prime} / p\right) (p×p,H/p,W/p)的结果。然后,我们使用FFN(Feed-Forward Network)进行线性计算。随后,我们应用激活函数,以获得线性计算特征在空间维度上的概率分布,并相应地调整它们的权重。

在加权结果中,我们采用特征选择[24]来从标记和通道中选择与任务相关的特征。具体来说,设 d = H ′ × W ′ p × p d = \frac{H^{\prime} \times W^{\prime}}{p \times p} d=p×pH×W,并将加权结果表示为 ( t i ) i = 1 C ′ \left(\mathbf{t}_{i}\right)_{i=1}^{C^{\prime}} (ti)i=1C,其中 t i ∈ R d \mathbf{t}_{i} \in \mathbb{R}^{d} tiRd表示第 i i i个输出标记。特征选择对每个标记进行操作,输出为 t ^ i = P ⋅ sim ⁡ ( t i , ξ ) ⋅ t i \hat{\mathbf{t}}_{i} = \mathbf{P} \cdot \operatorname{sim}\left(\mathbf{t}_{i}, \xi\right) \cdot \mathbf{t}_{i} t^i=Psim(ti,ξ)ti,其中 ξ ∈ R C ′ \xi \in \mathbb{R}^{C^{\prime}} ξRC P ∈ R C ′ × C ′ \mathbf{P} \in \mathbb{R}^{C^{\prime} \times C^{\prime}} PRC×C是与任务相关的参数, sim ⁡ ( ⋅ , ⋅ ) \operatorname{sim}(\cdot, \cdot) sim(,)是范围在 [ 0 , 1 ] [0,1] [0,1]之间的余弦相似度函数。这里, ξ \xi ξ作为任务嵌入,指定了哪些标记与任务相关。每个标记 t i \mathbf{t}_{i} ti都根据其与任务嵌入的相关性(通过余弦相似度衡量)重新加权,有效地模拟了标记选择。随后,我们对每个标记的通道进行线性变换 P \mathbf{P} P,然后进行重塑和插值操作,最终生成特征 F local  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {local }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Flocal RH×W×C F global  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {global }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fglobal RH×W×C。最后,我们用由三个 3 × 3 3 \times 3 3×3卷积层组成的串行卷积替代了传统的 7 × 7 7 \times 7 7×7 5 × 5 5 \times 5 5×5 3 × 3 3 \times 3 3×3卷积层。这会产生三个不同的输出: F conv  1 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 1} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 1RH×W×C F conv  2 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 2} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 2RH×W×C,和 F conv  3 ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv } 3} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv 3RH×W×C。随后,我们将这些输出相加,以得到串行卷积的输出 F conv  ∈ R H ′ × W ′ × C ′ \mathbf{F}_{\text {conv }} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times C^{\prime}} Fconv RH×W×C

2)特征融合与注意力机制:通过多分支特征提取之后,我们利用注意力机制进行自适应特征增强。注意力模块包含一系列高效的通道注意力[25]和空间注意力[26]组件。在这个上下文中, F ~ ∈ R H × W × C ′ \tilde{\mathbf{F}} \in \mathbb{R}^{H \times W \times C^{\prime}} F~RH×W×C 会依次经过一个一维通道注意力图 M c ∈ R 1 × 1 × C ′ \mathbf{M}_{c} \in \mathbb{R}^{1 \times 1 \times C^{\prime}} McR1×1×C 和一个二维空间注意力图 M s ∈ R H ′ × W ′ × 1 \mathbf{M}_{s} \in \mathbb{R}^{H^{\prime} \times W^{\prime} \times 1} MsRH×W×1 的处理。这个过程可以总结如下:

F c = M c ( F ~ ) ⊗ F ~ , F s = M s ( F c ) ⊗ F c , F ′ ′ = δ ( B ( dropout ( F s ) ) ) \begin{array}{c} \mathbf{F}_{c} = \mathbf{M}_{c}(\tilde{\mathbf{F}}) \otimes \tilde{\mathbf{F}}, \quad \mathbf{F}_{s} = \mathbf{M}_{s}\left(\mathbf{F}_{c}\right) \otimes \mathbf{F}_{c}, \\ \mathbf{F}^{\prime \prime} = \delta\left(\mathcal{B}\left(\text{dropout}\left(\mathbf{F}_{s}\right)\right)\right) \end{array} Fc=Mc(F~)F~,Fs=Ms(Fc)Fc,F′′=δ(B(dropout(Fs)))

其中, ⊗ \otimes 表示逐元素乘法, F c ∈ R H × W × C ′ \mathbf{F}_{c} \in \mathbb{R}^{H \times W \times C^{\prime}} FcRH×W×C F s ∈ R H × W × C ′ \mathbf{F}_{s} \in \mathbb{R}^{H \times W \times C^{\prime}} FsRH×W×C 分别表示经过通道和空间选择后的特征, δ ( ⋅ ) \delta(\cdot) δ() B ( ⋅ ) \mathcal{B}(\cdot) B() 分别表示修正线性单元(ReLU)和批量归一化(BN),而 F ′ ′ ∈ R H × W × C ′ \mathbf{F}^{\prime \prime} \in \mathbb{R}^{H \times W \times C^{\prime}} F′′RH×W×C 是 PPA(可能指的是某个特定模块或处理的缩写)的最终输出。

B. 维度感知选择性集成模块

在红外小目标检测的多级下采样过程中,高维特征可能会丢失关于小目标的信息,而低维特征可能无法提供足够的上下文信息。为解决这个问题,我们提出了一种新颖的通道划分选择机制(如图3所示),使DASI(维度感知选择性集成模块)能够根据目标的大小和特性自适应地选择适当的特征进行融合。具体来说,DASI首先通过卷积和插值等操作将高维特征 F h ∈ R H h × W h × C h \mathbf{F}_{\mathbf{h}} \in \mathbb{R}^{H_{h} \times W_{h} \times C_{h}} FhRHh×Wh×Ch 和低维特征 F 1 ∈ R H l × W l × C l \mathbf{F}_{1} \in \mathbb{R}^{H_{l} \times W_{l} \times C_{l}} F1RHl×Wl×Cl 与当前层的特征 F u ∈ R H × W × C \mathbf{F}_{\mathbf{u}} \in \mathbb{R}^{H \times W \times C} FuRH×W×C 进行对齐。
在这里插入图片描述

随后,DASI在通道维度上将它们均等地划分为四个部分,得到 ( h i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{h}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (hi)i=14RH×W×4C ( l i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{l}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (li)i=14RH×W×4C ( u i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{u}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (ui)i=14RH×W×4C,其中 h i \mathbf{h}_{i} hi l i \mathbf{l}_{i} li u i \mathbf{u}_{i} ui 分别表示高维特征、低维特征和当前层特征的第 i i i 个划分部分。这些划分部分是根据以下公式计算得到的:
α = sigmoid ⁡ ( u i ) , u i ′ = α l i + ( 1 − α ) h i , F u ′ = [ u 1 ′ , u 2 ′ , u 3 ′ , u 4 ′ ] , F u ^ = δ ( B ( Conv ⁡ ( F u ′ ) ) ) , \begin{array}{c} \alpha=\operatorname{sigmoid}\left(\mathbf{u}_{i}\right), \quad \mathbf{u}_{i}^{\prime}=\alpha \mathbf{l}_{i}+(1-\alpha) \mathbf{h}_{i}, \\ \mathbf{F}_{u}^{\prime}=\left[\mathbf{u}_{1}^{\prime}, \mathbf{u}_{2}^{\prime}, \mathbf{u}_{3}^{\prime}, \mathbf{u}_{4}^{\prime}\right], \quad \hat{\mathbf{F}_{\mathbf{u}}}=\delta\left(\mathcal{B}\left(\operatorname{Conv}\left(\mathbf{F}_{\mathbf{u}}^{\prime}\right)\right)\right), \end{array} α=sigmoid(ui),ui=αli+(1α)hi,Fu=[u1,u2,u3,u4],Fu^=δ(B(Conv(Fu))),

其中, α ∈ R H × W × C 4 \alpha \in \mathbb{R}^{H \times W \times \frac{C}{4}} αRH×W×4C 表示通过激活函数应用于 u i \mathbf{u}_{i} ui 得到的值, u i ′ ∈ R H × W × C 4 \mathbf{u}_{i}^{\prime} \in \mathbb{R}^{H \times W \times \frac{C}{4}} uiRH×W×4C 表示每个分区的选择性聚合结果。在通道维度上合并 ( u i ′ ) i = 1 4 \left(\mathbf{u}_{i}^{\prime}\right)_{i=1}^{4} (ui)i=14 后,我们得到 F u ′ ∈ R H × W × C \mathbf{F}_{u}^{\prime} \in \mathbb{R}^{H \times W \times C} FuRH×W×C。操作 Conv ( ) \text{Conv}() Conv() B ( ) \mathcal{B}() B() δ ( ) \delta() δ() 分别表示卷积、批量归一化(BN)和修正线性单元(ReLU),最终输出为 F u ^ ∈ R H × W × C \hat{\mathbf{F}_{u}} \in \mathbb{R}^{H \times W \times C} Fu^RH×W×C

如果 α > 0.5 \alpha>0.5 α>0.5,则模型优先考虑细粒度特征;而如果 α < 0.5 \alpha<0.5 α<0.5,则模型更强调上下文特征。

C. 多扩张通道细化模块

在多扩张通道细化模块(MDCR)中,我们引入了多个具有不同扩张率的深度可分离卷积层,以捕获不同感受野大小的空间特征。这允许我们更详细地建模对象与背景之间的差异,从而增强其识别小对象的能力。
在这里插入图片描述

如图4所示,MDCR将输入特征 F a ∈ R H × W × C \mathbf{F}_{\mathbf{a}} \in \mathbb{R}^{H \times W \times C} FaRH×W×C沿通道维度划分为四个不同的头部,生成 ( a i ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{a}_{i}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (ai)i=14RH×W×4C。然后,每个头部都经过具有不同扩张率的独立深度可分离扩张卷积,得到 ( a i ′ ) i = 1 4 ∈ R H × W × C 4 \left(\mathbf{a}_{i}^{\prime}\right)_{i=1}^{4} \in \mathbb{R}^{H \times W \times \frac{C}{4}} (ai)i=14RH×W×4C。我们将卷积扩张率指定为 d 1 , d 2 , d 3 d_1, d_2, d_3 d1,d2,d3 d 4 d_4 d4

a i ′ = D D W Conv ( a i ) , \mathbf{a}_{i}^{\prime}=D D W \text{Conv}\left(\mathbf{a}_{i}\right), ai=DDWConv(ai),

其中, a i ′ \mathbf{a}_{i}^{\prime} ai表示通过对第 i i i个头部应用深度可分离扩张卷积而获得的特征。操作 D D W Conv ( ) D D W \text{Conv}() DDWConv()表示深度可分离扩张卷积,而 i i i的取值范围为 1 , 2 , 3 , 4 1,2,3,4 1,2,3,4

MDCR通过通道分割和重组来增强特征表示。具体来说,我们将 a i ′ \mathbf{a}_{i}^{\prime} ai分割成单独的通道,以获得每个头部的 ( a i j ) j = 1 C 4 ∈ R H × W × 1 \left(\mathbf{a}_{i}^{j}\right)_{j=1}^{\frac{C}{4}} \in \mathbb{R}^{H \times W \times 1} (aij)j=14CRH×W×1。接着,我们在各个头部之间交错这些通道,形成 ( h j ) j = 1 C 4 ∈ R H × W × 4 \left(\mathbf{h}_{j}\right)_{j=1}^{\frac{C}{4}} \in \mathbb{R}^{H \times W \times 4} (hj)j=14CRH×W×4,从而增强多尺度特征的多样性。随后,我们使用逐点卷积进行组内和跨组信息融合,得到输出 F o ∈ R H × W × C \mathbf{F}_{\mathbf{o}} \in \mathbb{R}^{H \times W \times C} FoRH×W×C,实现轻量级且高效的聚合效果。
h j = W inner  ( [ a 1 j , a 2 j , a 3 j , a 4 j ] ) , F o = δ ( B ( W outer  ( [ h 1 , h 2 , … , h j ] ) ) ) , \begin{array}{c} \mathbf{h}_{j}=\mathbf{W}_{\text {inner }}\left(\left[\mathbf{a}_{1}^{j}, \mathbf{a}_{2}^{j}, \mathbf{a}_{3}^{j}, \mathbf{a}_{4}^{j}\right]\right), \\ \mathbf{F}_{\mathbf{o}}=\delta\left(\mathcal{B}\left(\mathbf{W}_{\text {outer }}\left(\left[\mathbf{h}_{1}, \mathbf{h}_{2}, \ldots, \mathbf{h}_{j}\right]\right)\right)\right), \end{array} hj=Winner ([a1j,a2j,a3j,a4j]),Fo=δ(B(Wouter ([h1,h2,,hj]))),
其中, W inner  \mathbf{W}_{\text {inner }} Winner  W outer  \mathbf{W}_{\text {outer }} Wouter 是逐点卷积中使用的权重矩阵。这里, a i j \mathbf{a}_{i}^{j} aij表示第 i i i个头部的第 j j j个通道,而 h j \mathbf{h}_{j} hj表示第 j j j组特征。我们有 i ∈ 1 , 2 , 3 , 4 i \in 1,2,3,4 i1,2,3,4 j ∈ 1 , 2 , … , C 4 j \in 1,2, \ldots, \frac{C}{4} j1,2,,4C。函数 δ ( ) \delta() δ() B ( ) \mathcal{B}() B()分别对应修正线性单元(ReLU)和批量归一化(BN)。

D. 损失设计

如图1所示,我们采用了深度监督策略来进一步解决下采样过程中小对象丢失的问题。每个尺度的损失由二元交叉熵损失(Bce)和交并比损失(Iou)组成,定义如下:
l i = Bce ⁡ ( y , y ^ ) + Iou ⁡ ( y , y ^ ) , L = ∑ i = 0 5 λ i ⋅ l i , l_{i}=\operatorname{Bce}(y, \hat{y})+\operatorname{Iou}(y, \hat{y}), \quad \mathcal{L}=\sum_{i=0}^{5} \lambda_{i} \cdot l_{i}, li=Bce(y,y^)+Iou(y,y^),L=i=05λili,
其中, ( l i ) i = 0 5 \left(l_{i}\right)_{i=0}^{5} (li)i=05表示多个尺度的损失, y ^ \hat{y} y^是真实掩码, y y y是预测掩码。每个尺度的损失权重定义为 [ λ 0 , λ 1 , λ 2 , λ 3 , λ 4 ] = [ 1 , 0.5 , 0.25 , 0.125 , 0.0625 ] \left[\lambda_{0}, \lambda_{1}, \lambda_{2}, \lambda_{3}, \lambda_{4}\right]=[1,0.5,0.25,0.125,0.0625] [λ0,λ1,λ2,λ3,λ4]=[1,0.5,0.25,0.125,0.0625]

这种设计允许模型在多个尺度上同时学习,并在训练过程中对不同尺度的特征进行加权。通过给予较低尺度(即较粗糙的尺度)较小的权重,我们能够在不牺牲对小对象检测精度的前提下,平衡模型对不同尺度特征的关注。这有助于模型更好地处理小对象,并在下采样过程中减少信息丢失。通过结合二元交叉熵损失和交并比损失,我们能够同时优化模型的分类和定位能力,从而提高整体性能。

四、实验

A. 数据集与评估指标

我们使用SIRST[21]数据集来评估我们的方法,并采用两个标准指标:交并比(IoU)和归一化交并比(nIoU)[21]。在我们的实验中,SIRST被划分为训练集和测试集,比例为8:2。

B. 实现细节

我们在NVIDIA GeForce GTX 3090 GPU上进行了HCF-Net的实验。对于大小为512×512像素、具有三个颜色通道的输入图像,HCF-Net的计算成本为93.16 GMac(Giga Multiply-Accumulate操作),包含1529万个参数。我们采用Adam优化器进行网络优化,使用批处理大小为4,训练模型300个周期。
在这里插入图片描述

C. 消融实验与对比

本节介绍了在SIRST数据集上进行的消融实验和对比实验。首先,如表I所示,我们使用U-Net作为基线,并系统地引入不同的模块来展示它们的有效性。其次,如表II所示,我们提出的方法在SIRST数据集上取得了出色的性能,IoU和nIoU分数分别为80.09%和78.31%,显著优于其他方法。最后,图5展示了各种方法的可视化结果。在第一行中,可以观察到我们的方法以较低的误报率准确检测到了更多的物体。第二行表明我们的方法在复杂背景下仍然能够精确定位物体。最后,最后一行表明我们的方法提供了更详细的形状和纹理特征描述。
在这里插入图片描述

五、结论

本文围绕红外小目标检测中的两个挑战——小目标损失和背景杂波问题进行了深入研究。为应对这些挑战,我们提出了HCF-Net模型,该模型集成了多个实用模块,显著提升了小目标检测的性能。通过大量实验验证,HCF-Net展现出了优越性,在性能上超过了传统的分割方法和深度学习模型。因此,该模型在红外小目标检测领域具有广阔的应用前景和重要的实用价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/560930.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【漏洞复现】魔方网表mailupdate.jsp接口存在任意文件上传漏洞

漏洞描述 魔方网表帮助其搭建了支持信创环境的端到端的一站式数据智能填报系统,实现数据收集模板个性化定义,收集任务集中管控,结构化数据存储、分析及呈现等功能。魔方网表mailupdate.jsp接口存在任意文件上传漏洞 免责声明 技术文章仅供参考,任何个人和组织使用网络应当…

Tomcat源码解析——类加载机制

一、类加载器的创建 在之前的Tomcat启动源码中&#xff0c;简单的介绍了Tomcat的四种类加载器&#xff0c;再复习一遍。 类加载器 作用父加载器commonLoader&#xff08;共同类加载器&#xff09;加载$CATALINA_HOME/lib下的类加载器应用类加载器catalinaLoader&#xff08;容器…

CAD小软件diy-读柴油机壳体装配图

读取一个柴油机壳体dxf图纸&#xff0c;一般这种装配体轮廓曲线都是用直线和圆弧拟合的&#xff0c;全部都是显示的白色实现&#xff0c;发现有线段间隙&#xff0c;拖动线段补上间隙。 这个测试放在蓝奏云上面 https://wwf.lanzout.com/ip1Xx1vvhbkh

08 SQL进阶 -- 集合运算 -- 表的连结(JOIN)

1. 连结(JOIN) 前一节我们学习了 UNION和INTERSECT 等集合运算, 这些集合运算的特征就是以行方向为单位进行操作. 通俗地说, 就是进行这些集合运算时, 会导致记录行数的增减。使用 UNION 会增加记录行数,而使用 INTERSECT 或者 EXCEPT 会减少记录行数。 但这些运算不能改变…

张大哥笔记:到底什么是轻创业?怎么才叫轻创业

大家好&#xff0c;我是张大哥&#xff0c;我在公众号反复强调&#xff0c;个人创业尽量去选择轻资产项目&#xff0c;要么不创业&#xff0c;要么轻创业&#xff01;到底什么是轻创业&#xff1f;怎么才叫轻创业呢&#xff0c;本问为你揭晓&#xff1a; 刚开始创业&#xff0c…

nginx--Nginx转发真实的IP

Nginx转发真实的IP 前言给nginx.conf 设置proxy_set_headerjava 程序里获取 前言 在使用nginx的时候可能会遇到判断是不是本机在做操作&#xff0c;这样的话web端我们是可以通过ip和端口进行远程连接的这样的话我们就需要从后端获取到真实ip来判断是不是指定的机器了&#xff…

2023androidstudio

终于下定决心将studio升级到新版本使用了&#xff0c;在这总结下和之前的差别 问题一&#xff1a; 创建java类型的项目 在新版本studio中&#xff0c;创建android项目时&#xff0c;语言选择中没有java选项了&#xff0c;这让一直使用java开发的我摸索了好久&#xff0c;终于…

深入剖析图像平滑与噪声滤波

噪声 在数字图像处理中&#xff0c;噪声是指在图像中引入的不希望的随机或无意义的信号。它是由于图像采集、传输、存储或处理过程中的各种因素引起的。 噪声会导致图像质量下降&#xff0c;使图像失真或降低细节的清晰度。它通常表现为图像中随机分布的亮度或颜色变化&#…

不敢说懂你 - Glide硬核源码剖析

问题 Glide加载流程? Glide整体架构? Glide数据加载的来源? Glide缓存加载的流程? Glide线程切换原理? Glide如何感知Activity? Glide哪种情况会返回应用级的RequestManager? … 带着一些问题去阅读… 使用示例 本篇主要基于glide:4.12.0进行分析。下面是Gli…

LeetCode 11.盛最多谁的容器

目录 题目描述 方法一 双指针 思路&#xff1a; 代码&#xff1a; 题目描述 给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的…

实验室三大常用仪器1---示波器的基本使用方法(笔记)

目录 示波器的作用 示波器的基础操作方法 示波器测量突变脉冲 示波器的作用 示波器能帮助我们干什么&#xff1f; 比如说某个电源用万用表测量是稳定的5V输出 但是用示波器一看确实波涛汹涌 这样的电源很可能回导致系统异常工作 又比如电脑和单片机进行串口通信时&#xf…

ubuntu在xshell中使用快捷方式操作命令,减少命令行的数入量

第一步 第二步 然后无脑确定 第三步 在xshell的显示方式 方式一 这样就会在每个窗格中进行显示 方式二 效果显示–> 这种窗格的显示是全局的 然后你双击这个process就会自动把命令打在命令行上&#xff0c;减少你的输入量

如何在本地服务器部署TeslaMate

文章目录 1.主要参考官方文档2.准备文件&#xff1a;docker-compose.yml3.运行4.成功后4.1 在这个链接&#xff0c;更具提示登录4.2 在这个链接可以看到电池健康和行车数据等 5.后续说明6.进行数据备份6.1 先将数据进行备份&#xff0c;参考链接6.2 数据迁移6.3 下图为我挂该数…

布隆过滤器初探

1、什么是布隆过滤器 布隆过滤器是一个很长的二进制向量和一系列随机hash函数。布隆过滤器可以用于检索一个元素是否在一个集合中。 常见的hash函数的应用hashMap、hashSet等 回顾一下hashMap的结构 hashMap由数组链表红黑树&#xff08;java1.8后&#xff0c;链表元素长度大…

七月论文审稿GPT第4.5版:通过15K条paper-review数据微调Llama2 70B(含各种坑)

前言 当我们3月下旬微调完Mixtral 8x7B之后(更多详见&#xff1a;七月论文大模型&#xff1a;含论文的审稿、阅读、写作、修订 )&#xff0c;下一个想微调的就是llama2 70B 因为之前积攒了不少微调代码和微调经验&#xff0c;所以3月底apple便通过5K的paper-review数据集成功…

xilinx cpri ip 开发记录

CPRI是无线通信里的一个标准协议&#xff0c;连接REC和RE的通信。 Xilinx有提供CPRI IP核。 区别于其它通信协议&#xff0c;如以太网等&#xff0c;CPRI是一个同步系统。 这就意味着两端的Master和Slave应当是同源时钟的&#xff0c;两边不存在频差&#xff0c;并且内部延时…

使用isort和autopep8统一代码风格

前言 今天和大家分享一篇关于python代码风格统一的方法。我自己之前有使用过&#xff0c;但都是使用公司现成的&#xff0c;没有自己动手去实操&#xff0c;所以为了一探究竟&#xff0c;今天专门花了一点时间去研究&#xff0c;这个过程还挺顺利的&#xff0c;这里我将这个过…

什么是IIoT?

什么是IIoT? IIoT,即工业物联网(Industrial Internet of Things),是指将物联网技术应用到工业领域,通过微型低成本传感器、高带宽无线网络等技术手段,实现工业设备、系统和服务的互联互通,从而提高生产效率、降低能耗和成本,实现智能化和自动化生产。 IIoT的应用范围…

Vitis HLS 学习笔记--BLAS库之WideType

目录 1. WideType 数据类型 2. WideType 类模板参数 2.1 SFINAE技术 3. WideType 类中的函数 3.1 operator[](unsigned int p_Idx) 3.2 operator(const WideType& p_w) const 3.3 getValAddr() 3.4 operator const t_TypeInt() 4. 总结 1. WideType 数据类型 在 …

NtripShare2024年第一季度主要技术进展

迷迷糊糊又是一个月没有写点什么&#xff0c;近期想清楚NtripShare在2024的要做什么事情&#xff0c;暂且将NtripShare要做的主要事情为搭建由软件与硬件之间的技术桥梁。 在过去的几年时间里NtripShare对硬件方面一直是规避的态度&#xff0c;今年开始要做一点软硬件搭界的技…