题目:DAF-Net: A Dual-Branch Feature Decomposition Fusion Network with Domain
Adaptive for Infrared and Visible Image Fusion
作者:JianXu发表时间:2024年9月
面临的问题:红外图像擅长捕捉热辐射,特别是在低光或复杂环境下,如夜间监视
和目标探测。可见图像保留了丰富的细节和色彩,提供了清晰的场景表现。融合这
些模式弥补了每种模式的局限性,实现了对环境更全面的理解。然而,由于两种模
式之间的成像原理、分辨率和光谱响应存在显著差异,在融合过程中保留关键特征
仍然是一个挑战。
现有的方法和存在的不足:
1.传统方法:如像素级或特征级融合,依赖于简单的规则,使它们计算效率高,易
于实现。然而,它们往往不能充分利用红外和可见光图像之间的互补信息,导致融
合性能有限。因此难以捕获两种模式的所有细节,产生高质量的融合图像。
2.变换域方法:如小波变换和拉普拉斯金字塔变换,将图像分解成不同的频率分量,
在一定程度上保留了细节。尽管它们在捕获多频率细节方面很有效,但在重建过程
中可能会丢失关键的模态特定特征,从而难以同时保留全局结构和精细纹理。
3.基于深度学习的方法:CNN和GAN等技术学习模态之间的非线性关系,通过对
模态交互进行有效建模,生成了具有较高视觉质量的融合图像。然而,深度学习方
法通常需要大量的标记数据,可能存在数据稀缺的问题,并且仍然面临平衡全局结
构和精细纹理的挑战。
网络讲解:
为了更好地对齐红外和可见光图像的潜在特征空间,本文提出了一种域自适应的双
分支特征分解融合网络(DAF-Net)。在基编码器中引入多核最大平均差异(MK-MMD),
以更好地对红外和可见光图像的潜在特征进行匹配。基于Restormer网络的基础编
码器捕获全局结构信息,并使用多核最大平均差异(MK-MMD)来减少全局特征级别
的分布差异。基于可逆神经网络(INN)的细节编码器提取细节纹理信息,以保持每个
模态的独特特征。多核最大平均差异(MK-MMD)仅应用于基本编码器,以确保全局
特征一致性,避免局部细节的过度对齐和模态特定信息的丢失。这种结构使DAF-Net
在全局结构和细节保留之间取得平衡。因此DAF-Net显著提高了视觉质量和跨数据
集的融合性能。
DAF-Net由一个编码器-解码器分支和一个基于混合核函数的域自适应层组成。网
络具体结构下图所示,为了优化每个训练阶段的网络参数,引入了一种新的包含
域自适应损失的损失函数。
A.1.编码器-解码器分支:编码器由三部分组成:基于Transformer的共享特征层、使用
Restormer块的基本编码器和使用INN块构建的详细编码器。基本编码器捕获全局
结构信息,而细节编码器提取精细纹理。这一部分结构图如下图所示。
融合解码层结构如下图所示:
A.2.域自适应层:通过计算MK-MMD来减小红外和可见光图像特征的分布差异,实现跨模态传输。其核心思想是通过最小化共享特征空间中的分布差异来对齐特征。图像融合需要捕获复杂的非线性关系。因此需要评估卷积层中的分布差异,因为它们保留了更多的空间信息。在基本编码器的最后三个卷积层中引入域自适应层来校准全局特征,而细节编码器避免使用MK-MMD来保留局部细节。为了捕获全局和局部细节,论文结合了高斯核和拉普拉斯核得到混合内核。论文的目标是将红外特征FI和可见光特征FV映射到RKHS(再生希尔波特空间)中,并使用MK-MMD评估它们的分布距离。
B.两阶段训练:融合红外和可见光图像的一个关键挑战是缺乏有效真值,这使得监督学习方法无效。因此,我们使用两阶段学习方案来训练DAF-Net。
B.1阶段1:编解码器分支训练
B.2阶段2:融合层训练
数据集与实验结果
定性结果
将其与SOTA进行比较:CDDFuse、RFNet、ReCoNet、DIF、SDNet、TrDal和SwinFusea。 DAF-Net确保一种图像的细节不会被另一种掩盖。将红外图像的热辐射数据与可见光图像的精细细节有效结合。 增强了黑暗区域中物体的可见度,从而更容易将前景目标与背景区分开来。定量结果
在TNO数据集上的结果见表一,在MSRS数据集上的结果见表二。 粗体表示最佳性能,下划线表示次优性能。 正如观察到的那样,DAF-Net在大多数指标上始终优于其他方法。