摘要:红外与可见光的跨模态配准与融合可以生成更全面的目标和场景信息表示。以前的框架主要关注于解决模态差异以及保留不同模态信息对不同静态图像对之间配准和融合任务性能的影响。然而,这些框架忽略了在现实世界设备上的实际部署,特别是在视频流的背景下。因此,得到的视频流往往在配准和融合方面存在不稳定性,其特征是融合伪影和帧间抖动。鉴于这些考虑,本文提出了视频流的统一配准和融合方案,称为(termed) RCVS,它利用鲁棒匹配器(robust matcher)和时空校准模块(spatial temporal calibration module )来实现视频序列的稳定配准。随后,RCVS结合了一个快速轻量级融合网络,为红外和可见光成像提供稳定的融合视频流。此外,我们收集了一个红外和可见光视频数据集HDO,其中包括在不同场景中捕获的高质量红外和可见光视频数据。总体而言,我们提出的框架和HDO数据集为该领域提供了第一个有效和全面的基准,解决了红外和可见光视频流融合的稳定性和实时性(real time ),同时评估了不同解决方案的性能,以促进该领域的发展。
索引术语--视频配准、视频融合、多模态、数据集。
高质量的视频成像是计算机视觉领域许多应用[2][3][4]5]的先决条件。考虑到外部环境干扰会显著降低单个摄像机的成像性能,红外和可见光视频的持续融合利用互补成像信息,为全天候视频成像提供了可行的解决方案。具体而言,稳定、快速、高质量的融合视频流对于增强人类视觉感知和理解、高级视赏任务以及未来衍生应用具有重要意义。为了在精确的对应空间关系中融合红外视频流和可见光视频流,配准是一个必要的要求。然而,如图1上半部分所示,不稳定的配准会导致变化和不确定连续视频帧之间的转换参数,导致融合视频成像中出现连续抖动,这种混乱的成像模式使得人眼难以长时间观察,并损害了基于视频流的姿态估计、对象检测和语义分割等高级视觉任务的性能。
最先进的配准算法[6]在处理高质量的单个图像对方面表现出了优异的性能。然而,当将其应用于红外和可见视频流的处理时,连续配准的稳定性显著降低,特别是在退化场景(例如,强光、低照度、低源图像质量、非刚性失真)中,现有的配准和融合方法无法达到令人满意的性能。出现此类问题的关键原因有:
(i)连续帧之间特征点采集的空间分布不一致。对应特征点的空间分布决定了红外帧与可见光帧之间的变换模型参数。现有的配准方法是针对静态图像对设计的,缺乏帧间的时空关系约束。由于帧间图像噪声的存在和图像内容的持续变化,在连续的帧之间捕捉具有相似分布的空间分布的对应特征点是具有挑战性的。如果将这些特征点直接部署到视频流处理中,就会导致连续帧之间的转换不平滑,导致融合伪影,在合并后的视频流中视觉上表现为连续抖动。
(ii)在降级场景中的配准和融合性能不理想。退化场景下的配准精度不稳定一直是红外和可见光配准领域长期存在的问题。现有的方法可以在成像清晰纹理丰富、光照适宜的条件下,获得令人满意的配准精度。然而,考虑到在退化视场中实现高性能的配准和融合对于全天候视频成像至关重要,增强现有方法在此类场景下的性能成为一个重要问题。
(iii)视频流配准和融合速度不足。视频流通常以连续帧率传输,需要实时配准和融合才能显示结果。然而,现有方法的有限速度使输出融合视频流无法实时显示,这种延迟对于后续以视频处理为目标的应用来说是不可接受的。
(iv)不充足的红外和可见光数据集。高质量的数据集是训练和测试各种配准和融合算法的基础。现有的公共数据集,如TNO、MSRS、M3FD和LLVIP,包含了不同场景下的红外和可见光对。然而,由于捕获设备的不同,这些数据集在成像质量上存在显著差异,因此难以有效满足分割、检测和识别等任务对细粒度信息的要求。此外,现有的数据集大多是图像对的形式,无法有效衡量现有算法在视频序列上的性能。
为了解决上述问题,我们提出了一种用于视频成像的全天候视频流配准和融合方案RCVS,并提供了一个高质量的双光(红外-可见光)数据集HDO。我们的RCVS首先考虑了现有最先进的配准方法的缺点,并重新设计了匹配器架构,以达到更高的配准精度和效率。然后,我们为匹配器定制了一个跨模态训练方案,以更好地适应不同模态之间的非线性强度差异。此外,我们提出了时空校准(STC)模块来引入时空约束,从而减轻融合视频抖动问题。最后,设计了高效图像融合模块(EIF),实现了快速的跨模态视频图像融合。总的来说,我们提出的RCVS可以有效地缓解帧间变换模型参数的差异(如图1所示),从而使融合视频流成像更加稳定,并且在高级视觉任务中表现出更好的效果。我们的贡献总结主要是:
1)我们提出了一个稳定的红外和可见视频配准和融合框架,它提供了配准的精度和效率,超过了最先进的方法。据我们所知,这是第一个实现视频流处理的实际配准和融合统一的框架。
2)我们提出了时空校准(STC)模块,通过稳定帧之间的特征点和提供平滑的转换模型参数,来缓解融合的视频流帧抖动问题。
3)我们开发了一种有效的图像融合模块来实现有效的视频融合。
4)我们提供了一个高质量的红外和可见光数据集,可以用于各种图像和视频处理任务。
相关工作
在本节中,我们回顾了跨模态配准、融合、红外和可见数据集的相关材料。
跨模态配准。不同模态之间的非线性强度差异干扰了基于强度信息构建的描述符SIFT 、SURF 、ORB ,使它们不适合交叉模态配准。为了缓解这一问题,一些方法考虑了提取不同图像中存在的模态不变结构特征。MSPC 将仿射不变区域提取与图像的结构特征相结合,得到仿射和对比度不变描述符。OS-SIFT 和SR-SIFT 构建了基于SIFT的对特定模态特征匹配具有更好适应性的描述子。Li等人提出了RIFT,它使用FAST 在相位一致性(PC)映射上提取可重复的特征点,然后通过最大索引映射(MIM)构建特征描述符。RIFT2 建立在RIFT的基础上,引入了一种基于主导指数值的旋转不变性技术。这种方法规避了卷积序列的构造过程,
增强了对旋转的鲁棒性。
这些传统的基于特征的方法在构造描述符用于图像的跨模态配准方面取得了进展。
然而,另一方面,与传统方法相比,基于深度学习的方法表现出了卓越的性能和速度。SuperPoint引入了一个统一的框架,结合了合成数据集监督和对比学习来检测和描述特征点。LoFTR和MatchFormer引入了Transformer来捕获远距离的特征信息,从而提高了不同特征点之间的可分辨性,在图像配准任务中获得了更高的性能。ReDFeat在检测和描述中采用相互加权策略进行多模态特征学习。
端到端配准和融合。由于配准是红外图像与可见光图像融合的必要前提步骤,所以最新的工作尝试将配准结合起来并在统一的框架内融合,提供端到端的解决方案。UMF-CMGR提出了一种专门用于无监督未对齐红外与可见光图像融合的跨模态生成配准范式(样例,典范paradigm),该范式通过跨模态感知风格转移网络生成伪红外图像。它将跨模态配准问题转化为单模态配准问题,并在形变场的引导下重建对齐后的图像,用于后续的图像融合。RFNet在一个相互加强的框架中实现多模态图像的配准和融合,利用图像融合的反馈来促进配准过程。ReCoNet开发了用于融合的递归(recursive)校正网络,设计了变形模块来显式补偿几何变形,实现快速推理。SuperFusion设计了一种估计双向变形场的配准网络,并将其与一种使用分割网络指导学习的融合网络以对称的方式结合起来,以更好地适应高级视觉任务的需要。SemLA提出了一种通过语义信息进行统一配准和融合的框架,使用一种新的范式来关注语义对象的融合信息表示。MURF采用两级配准,通过融合后的图像提供反馈,提高配准精度。
Infrared-Visible数据集。TNO数据集是用于图像融合任务的最常用的公共数据集。
它由在各种军事场景中拍摄的多光谱夜间图像组成。INO数据集包含在不同天气条件下拍摄的可见光和红外视频,代表了不同的场景。道路场景数据集包括从FLIR视频序列中捕获的221对红外和可见光图像,展示了各种各样的物体,如车辆和行人。MSRS数据集包括1444个对齐的图像对,覆盖不同的校园环境中的场景。M3FD数据集由4200张对齐图像组成,包含(encompass)各种典型场景类型,广泛用于评估不同的图像融合任务。LLVIP数据集是专为弱光视觉设计的红外-可见光配对数据集,包含16836对弱光条件下拍摄的红外和可见光场景。
然而,这些数据集主要是为图像配准和融合等图像处理任务的实验评估而设计的,无法有效地对视频流配准和融合算法的性能进行基准(benchmark)测试。此外,追求清晰的红外成像受到现有数据集捕获的图像质量不足的阻碍,限制了对细粒度图像(例如涉及小目标的图像)的算法性能的探索。相比之下,本文的贡献之一HDO数据集不仅满足了这些需求,而且还包含了各种经典场景内容,从而为图像和视频流处理提供了强大的基准。
方法 methodology
在本节中,我们详细介绍了用于全天候视频流配准和融合的RCVS框架(如图2所示)。
A 问题公式化
给定同一场景中输入的红外摄像机和可见光摄像机的视频流VSir和VSvi ,我们的工作是实时稳定地对齐
,并且陈述融合结果用跨模态的互补信息。一般来说,摄像机的成像可以分为动态视频成像和静态视频成像两大类。动态视频成像包括安装在车辆上的摄像机和手持摄像机等,而静态视频成像视频成像通常由固定的监控摄像机完成。
如图2所示,由于这两种成像都需要对变换模型进行实时校正以适应场景中不断变化的内容,因此RCVS首先构建具有位置分布感知的匹配器。然后,我们使用基于图像风格转移的训练方法定制匹配器,使其能够直接学习模态不变的特征表示以进行鲁棒匹配。RCVS中的匹配器在输入连续视流后,为初始帧建立相应的特征点C0,得到相应的单应性变换模型H0。第二步,为了解决对应特征点分布不连续变化引起的融合视频抖动问题,时空校准模块(spatial - temporal Calibration, STC)利用帧间的空间对应关系跟踪一定时间段T内的对应特征点,得到更新后的对应特征点Ct,并实时校准变换模型参数Ht。在时间周期T之后,我们重复上述过程,使用匹配器重新创建相应的新初始特征点集,并使用STC校准转换模型。作为我们框架的最后一步,高效图像融合(EIF)模块考虑了不同模态的特点,为每个对齐的图像帧提供有效的融合结果,从而实现全天候视频成像。
不同模态的图像具有各自独特的特点。例如,在可见光图像中,色彩信息丰富,可以提供清晰的物体轮廓和细节,但在低光照或恶劣天气条件下,其表现可能会受到很大限制。而红外图像则对温度差异敏感,能够在黑暗环境中检测到物体,但缺乏色彩信息和精细的纹理。 EIF 模块充分考虑了这些不同模态的特点。它能够深入分析可见光图像的色彩和纹理特征,以及红外图像的热辐射信息。为每个对齐的图像帧提供有效的融合结果*在视频成像中,图像通常以帧为单位进行处理。EIF 模块能够对每个对齐的图像帧进行精细的处理,确保融合结果的有效性。 首先,EIF模块需要确保不同模态的图像帧在时间和空间上的对齐。这可能涉及到复杂的图像配准算法,以保证相同场景下不同模态的图像能够准确地对应起来。 一旦图像帧对齐完成,EIF 模块便开始进行融合操作。它采用先进的融合算法,将可见光图像和红外图像的信息进行有机结合。例如,对于物体的边缘和轮廓部分,可以更多地利用可见光图像的高分辨率信息;而对于物体的温度特征和在黑暗环境中的表现,则可以依靠红外图像的优势。 通过这种方式,EIF 模块为每个对齐的图像帧提供了有效的融合结果。这些融合后的图像帧既保留了可见光图像的色彩和细节,又结合了红外图像的热辐射信息,从而在各种环境条件下都能提供更清晰、更全面的图像。 四、实现全天候视频成像*最终,EIF 模块的目标是实现全天候视频成像。无论是在白天还是夜晚,无论是在晴朗的天气还是恶劣的气候条件下,通过高效的图像融合,都能够获得高质量的视频图像。 在白天,可见光图像提供了丰富的色彩和细节信息,而 EIF 模块可以根据需要适当融合红外图像的信息,以增强对特定物体的检测和识别能力。在夜晚或低光照条件下,红外图像成为主要的信息来源,EIF 模块则可以利用可见光图像的残留信息来进一步提高图像的质量和可读性。
整个过程可以表示为:
B建立初始空间变换
为了建立初始帧(I0 ir,, I0vi)的空间对应关系,RCVS基于定制方案训练具有位置分布感知的匹配器,获得可靠的对应特征点和变换模型参数。
密集特征提取。在特征提取阶段,RCVS使用MatchFormer [26] 作为主干网络提取密集匹配特征,这是一个分层Transformer网络,由Self-Attention block和Cross-Attention block(交叉注意力模块) 交错得到特征映射。不同的是,RCVS的匹配器更加轻量级,并根据表格1中显示的参数配置网络。考虑到在浅特征图上提取特征的计算成本昂贵,我们在第一阶段减少关注块的数量,降低网络阶段的特征维数,并在第三和第四阶段通过增加关注块的数量进行补偿。如图3所示,为了明确嵌入空间位置信息以促进帧在VSir和VSvi中的特征匹配,我们设计了预定义的空间分布网格G:式中G = (G4, G8, G16, G32)。然后,将G与每层特征映射进行连接,增强匹配器的空间感知能力。最后,采用FPN结构的译码器(解码器)对不同尺度的特征进行融合,得到密集匹配特征fir 0和fvi 0。
图3所示。RCVS中匹配器的结构。将Transformer块组成的特征金字塔与空间配网相结合,得到密集匹配特征。
建立初始帧的相应特征点。在根据时间段 T 内的初始帧 (I0 ir,, I0vi) 获得配准所需的Fir 0和Fvi 0后,我们通过方程 6 和方程 7 建立 (I, I) 之间的匹配关系,其中 P0表示初始帧之间的特征点匹配概率,DualSoftmax 是 [6] 中使用的 dual-softmax 运算符。在得到 P0 后,按照 [6] 的步骤,用阈值 θ 在 P 中选择对应的集合 Co特征点。
其中 MNN 表示互近邻,用于增强特征匹配的鲁棒性。
在训练阶段,现有方法缺乏固定的训练范式。[6] [26] 使用运动结构 (SfM) 数据集进行训练,受益于大量的训练数据,这使它们能够具有良好的泛化能力。然而,在红外和可见光配准领域,没有类似的数据集可用。另一方面,[8] 使用配对的红外和可见光图像来训练跨模态匹配能力。但是,这种训练方法存在训练集数量少的问题。为了结合上述两种训练策略的优点,我们提出了一种基于图像风格迁移的可靠训练策略。具体来说,我们采用CPSTN [28]生成与COCO [32]数据集中的241614图像相对应的伪红外图像,并与原始图像形成图像对,以引入足够的模态差异。此外,我们还使用级联高斯模糊、运动模糊和照明变换来增强训练数据。为了构建空间变换关系,我们对训练集中的图像对应用随机投影变换,以合成地面真实对应概率矩阵,表示为 H。matcher 的损失与 [6] 相同,可以表示为:
其中 F 和 F 是在训练过程中获得的用于匹配的特征,P 是特征点匹配概率。
C帧间转换关系校准
如图 1 所示,在连续视频帧配准的背景下,噪声和环境变化会导致像素值的变化,导致帧之间的转换模型参数不一致。因此,当直接应用于视频序列时,传统的配准技术被证明是不够的。为了解决这个问题,STC 从相应的特征点 C0 初始帧开始,并使用来自不同帧的时间信息来匹配相同模态的特征点,随后在时间间隔 T 上校准(calibrate)它们。这个过程有助于我们稳定帧间对应特征点的分布,提高连续视频帧的融合视觉效果。
为了实现上述目的,考虑 (I0 ir,, I0 vi) 的后续视频帧 (It ir,, It vi)(0 < t < T),通过跟踪和校准其前一帧 (I, I) 的特征点来获得它们对应的特征点。在 RCVS 的匹配器提取了 (It ir,, It vi) 的密集特征 (Ft ir , Ft vi ) 后,我们通过计算 (I, I) 中对应于 (I, I) 中最大概率特征点位置的特征点集,改变了原来的配准范式,以跟踪帧之间的特征点。具体如图 2 所示,基于前一帧和当前帧的特征 (F , F ) 和 (F , F ),我们分别计算前一帧和当前帧的红外和可见光图像的相应特征点。最后,可以将对应的特征点 Ct of(I, I) 替换为 Ct-1 位于 (I, I) 中概率最高的匹配特征点,并通过获得的新匹配特征点校准当前帧的变换模型参数,可以表示为:
D. 高效的图像融合
在获得配准的红外和可见光视频流后,图像融合算法整合了来自不同模态的互补信息,以提供全面、全天候的场景显示。融合的信息包括红外图像捕获的突出对象细节,以及可见图像捕获的纹理和整体外观。
如图 4 所示,EIF 模块由一个生成器和一个判别器组成。该生成器采用由卷积块组成的轻量级双分支结构,可从红外和可见光图像中提取模态特定特征。此外,我们采用密集连接结构来更好地利用浅层和深层特征,从而产生更有效的融合图像来欺骗判别器。判别器网络由多个卷积层和一个分类器组成,该分类器预测图像特征的类别并调整红外和可见光图像中不同信息的保留。
在 EIF 的训练阶段,生成器损失 Lg包括 SSIM(Structural Similarity)损失Lssim、梯度损失 Lgrad、标准差损失 Lsd、图像质量评估损失Liqa和对抗损失 LGadv。
SSIM 损失使融合图像能够通过计算结构相似性来保留源图像的结构信息,可以表示为:其中 SSIM (·,·) 表示两个图像的结构相似性。
梯度损失约束了 gradient 算子保留图像的细粒度纹理信息,以保留源图像的丰富纹理细节,可以表示为:其中 ∇(·) 表示 Sobel 梯度运算符。
标准偏差损失是通过两个源图像的标准偏差(SD)来衡量的,以限制图像的强度保留:
对抗性损失与 [34] 中相同,可以表示为:
图像质量评估损失由独立的图像质量评估网络 MANIQA [33] 测量。MANIQA 是一个由 Transformer 结构组成的无参考图像质量评估网络。其中 MANIQA(·) 表示 MANIQA 返回的评估分数。
其中 D 是判别器,d 是概率标签。
对于判别器损失Ld,类似于[34],旨在对红外和可见光图像进行准确分类,可以表示为:
HDO Dataset
用于配准和融合任务的高质量数据集供不应求。我们使用带有集成红外和可见光镜头的大型设备收集高分辨率红外和可见光视频序列数据,称为 HDO。红外和可见光镜头都可以变焦以捕捉不同比例的场景。表 II 提供了可用数据集的分辨率比较。在 HDO 数据集中,红外图像的标准分辨率为 1280 × 1024,可见光图像的标准分辨率为 1920 × 1080。对于每个视频,我们以 100 毫秒的间隔进行采样,从而产生 7500 对红外和可见光图像序列。
此外,考虑到对齐后的图像序列可以为图像融合等任务提供基线,我们手动将红外图像与太空中的可见光图像对齐。最后,我们获得了 5788 对对齐的红外和可见光图像,大小为 640 × 480。
值得注意的是,HDO 数据集包含多种场景,包括高光和低光条件。此外,它还包含大量大小、密度和照明条件不同的行人和车辆物体。这对 HDO 数据集上的后续任务具有积极影响,例如融合、检测、跟踪和识别。
本节介绍了实施细节,然后进行了广泛的实验,以证明 RCVS 的有效性和优越性:1) V-A 中的典型场景可视化结果。在我们贡献的 HDO 数据集上展示提出的的 RCVS 框架的可视化结果。2) V-B 中视频流配准的对比结果。比较不同方法的视频流配准性能。3) V-C 中端到端管道融合性能的比较结果。比较现有最先进的端到端配准的融合性能和融合方法。4) V-D 中的计算效率分析。比较部署到视频流后不同方法的运行时效率。5) VE 中的消融研究。评估不同组件对 RCVS 的贡献。6) VF 中的应用。探索 RCVS 在其他视觉任务中的表现。
实施细节。六大功能匹配方法 RIFT [9]、RIFT2 [24]、SuperPoint [25]+SuperGlue [35]、ReDFeat [8]、LoFTR [6]、MatchFormer [26] 和三种端到端配准和融合方法 ReCoNet [30]、UMFCMGR [28]、SuperFusion [12] 用于实验比较。 所有竞争对手都是根据公开可用的代码和他们自己的默认参数设置实现的。我们使用COCO dataset 及其对应的伪红外图像训练 RCVS 的匹配器,最小化损失 L,使用 Adam 优化器,学习率为 5e-4,在 15 个 epoch 后停止训练。在第二训练阶段,为了整合红外和可见光图像的互补信息,我们使用 MSRS数据集 训练 RCVS的 EIF,学习率为 1e-3, 60个epoch 后停止训练。Lg的权重设置为 [0.2, 1, 2, 1, 0.1]。所有训练均通过 Pytorch 在配备 3.60GHz Intel Core i7 11700k CPU 和 2 个 NVIDIA GeForce GTX 3090 的 PC 上进行。
数据集。为了实现一个直接和公平的比较,我们在以下数据集中提供了实验结果:
(a) HDO 数据集。该数据集是本文的贡献。它包含从视频流中采样的不同场景的高质量红外和可见光图像序列,可用作不同任务的基准。
(b) FLIR数据集。该数据集源自 FLIR 视频片段,描绘了各种道路的丰富而富有代表性的场景,共包含 7498 个视频帧。
- 典型场景可视化结果
我们展示了 RCVS 在一些代表性场景中的视觉实验结果,如图 6 所示。可以看出,我们的 RCVS 在不同环境中表现出稳定的视频配准和融合效果。特别是,RCVS 保留了源的细粒度信息帧,为有效感知图像中的对象和场景提供了有利条件。
- 视频流配准对比结果
为了与其他竞争对手进行比较,我们从 HDO 和 FLIR 数据集(表示为 HDO-1、HDO-2、HDO-3、FLIR-1、FLIR-2、FLIR3)中分别选择了三个视频序列,总共包含六个视频序列(2029 张图像)作为测试集,用于比较配准性能。
定性结果。为了获得可视化结果,我们使用不同的配准方法实现视频流的配准,并基于融合算法对视频成像的结果进行可视化。特别是对于非端端配准方法 RIFT、RIFT2、SuperPoint+SuperGlue (SP+SG)、LoFTR、MatchFormer、ReDFeat,我们使用 RCVS 的 EIF 来实现配准后的图像融合。对于端到端配准和融合方法 ReCoNet、UMFCMGR、SuperFusion,我们展示了配准后最终生成的融合图像结果。从图 7 所示的实验结果中可以观察到,受益于 HDO 数据集的高质量,大多数方法都取得了良好的配准结果。另一方面,FLIR 数据集具有明显的退化场景(弱光、强光),使得其他方法不稳定,并显示出明显的配准误差。值得注意的是,虽然 SuperPoint+SuperGlue、MatchFormer、ReDFeat 能够以强大的匹配性能提供精准对齐的图像,但其变换模型参数会因帧间噪声和场景变化而不稳定,在融合视频中表现为连续的帧抖动。相比之下,我们的 RCVS 在视频流配准方面表现出更好的性能,可以提供融合视频流的稳定配准。
定量结果。为了提供定量比较,我们首先按照 [8] 中概述的评估标准来比较不同特征匹配方法。我们使用 OpenCV 库中的 RANSAC [36] 算法来估计 Homography(单应性) 矩阵 H,重投影阈值设置为 5px,最大迭代次数为 100,000。此外,我们为每个数据集手动注释了地面实况变换 H,重投影误差 RE 可以表示为:
比较结果如图 8 所示,其中每个箱形图比较了每个视频序列中不同特征匹配方法的重投影误差。为了量化比较结果,每个箱形图上方都提供了特定的平均误差值。可以看出,RCVS 在几乎每个视频序列中都实现了更小的重投影误差,这表明我们的方法可以为视频流提供更准确的配准,从而为稳定的视频成像增强奠定了基础。
为了提供更全面的定量分析,我们还纳入了用于配准误差比较的指标来自 [28],包括均方误差 (MSE)、归一化互相关 (NCC) 和局部归一化互相关 (LNCC)。比较结果如表 III 所示,表明 RCVS 优于其他方法。特别是,由于 FLIR 数据集中包含的场景的复杂性,我们的方法在适应不同场景方面表现出更明显的优势。
C. 端到端管道融合性能对比结果
在本实验中,为了评估 RCVS 管道的整体优势,我们将其与最先进的端到端配准和融合框架进行了比较,展示了不同方法的定性和定量融合性能。
定性结果。图 9 显示了各种方法在 M3FD 数据集中代表性场景上的实验结果。可以观察到,ReCoNet、UMF-CMGR、SuperFusion 能够在可见光图像中保留精细细节和纹理信息。但是,在烟雾和低光照条件等降级情况下,它们的性能不如 RCVS。这展示了 RCVS 在视频流融合的端到端管道处理方面的优势。
定量结果。对于定量评估,遵循大多数图像融合方法的评估指标,我们选择 AG、EN 、SD、SF 、Qabf、Nabf、VIF 作为图像质量评估指标。从表 IV 中可以观察到,RCVS 在定量分析指标方面比其他端到端管道更具优势,这表明我们的 RCVS 可以在端到端框架中为视频融合提供更好的场景互补信息表示。
AG:“average gradient”(平均梯度),反映图像的清晰度和细节表现。,较高的平均梯度通常意味着融合后的图像保留了更多的细节信息,能够更好地呈现源图像中的纹理和边缘特征。
EN:“entropy”(熵),熵值越高,表示图像包含的信息量越大,不确定性越高
SD:“standard deviation”(标准差),用于衡量数据的离散程度。体现了图像像素值的离散程度。标准差较大说明图像的像素值分布较为分散,可能包含更多的变化和细节。
SF:“scale factor”(比例因子),在图像融合中,比例因子可能用于调整不同源图像在融合过程中的贡献比例。
Qabf:“quality assessment based on feature。
Nabf:“normalized assessment based on feature”(基于特征的归一化评估)
VIF:“visual information fidelity”(视觉信息保真度)
D. 计算效率分析
考虑到需要足够的速度来保证视频流的实时配准和融合,我们在本节中比较了不同方法的运行速度。视频流的成像大小为 320 × 240。首先,我们将 RCVS 的配准组件的速度与其他
特征匹配方法比较,如表 V. 所示。RCVS 展示了最快的速度,与第二快的方法 MatchFormer 相比,速度提高了 38.34%。在表 VI 中,我们展示了 RCVS 与其他端到端配准和融合框架的速度比较。结果表明,RCVS 在整个管道中实现了更快的速度,与第二快的方法 ReCoNet 相比,速度提高了 40.09%,为其在各种相机中的部署奠定了基础,以实现实时配准和融合。
E. 消融研究
在本节中,我们评估了不同组件对 RCVS 框架的贡献,并通过分析配准误差结果来衡量它们,如表 VII 所示。首先,针对视频流配准提出的时空校准(STC)模块,在稳定视频帧之间的变换模型参数方面起到了稳定作用,这体现在配准误差的减少上。其次,我们为 RCVS 定制了一种跨模态训练方法,通过直接学习模态不变特征,使其能够更好地适应模态之间的非线性强度差异。最后,RCVS 中引入的空间感知网格增强了不同位置特征点的空间相关性,从而提高了配准精度。
F. 应用
视频流的配准和融合在实际场景中的应用多种多样,包括检测、识别、跟踪、分割、深度估计和姿态估计等。为了展示我们的 RCVS 框架在后续视觉任务中的性能,我们在本节中进行了检测、姿态估计、分割方面的应用实验。我们选择 YOLOv7 [37] 作为检测器,选择 ViTPose [38] 作为姿态估计器,选择 Language Segment-Anything 作为我们实验的分割器。在以前的实验中表现良好的特征匹配方法 ReDFeat 和最先进的端到端配准和融合方法 SuperFusion 作为比较。如图 10 所示,在目标检测实验中,我们使用 YOLOv7 检测所有目标,可以看出其他方法存在误检和检测失败的情况。在姿态估计实验中,RCVS 也实现了更好的性能,并证明了其良好的可扩展性。在分割实验中,我们输入不同的文本提示 (Car 和 Person) 来分割不同的对象,由于融合伪影,其他方法在某些情况下会出现分割不准确的问题,而 RCVS 的融合视频序列提供了准确的分割性能。
结论
在本文中,我们提出了一个专门为视频流设计的统一配准和融合框架RCVS。从实际设备部署的角度出发,通过设计更强大的匹配器,增强RCVS在不同降级场景下的匹配能力。此外,我们通过利用帧之间的时间信息来解决现有视频流配准方法的局限性,这允许转换模型参数的平滑变化。为了有效地融合红外和可见光场景的互补信息,我们设计的融合网络提供了全面的场景表示。当与配准和融合相结合时,我们的融合网络可以实现实时部署。
为了弥补(bridge)现有数据集的不足,我们将HDO数据集提供给配准和融合社区,作为评估各种方法性能的基准。同时,我们提出的RCVS框架在HDO数据集上表现出优异的配准和融合性能,为后续该领域的基准方法研究奠定了基础。RCVS框架与HDO数据集之间的高度兼容性使其能够作为红外和可见光配准和融合算法在实际情况下的实际部署和应用的有效解决方案。
目前,RCVS的强大性能在红外和可见光视频流的配准和融合任务中显示出其优势。然而,如何将其扩展到足够多的设备上是值得考虑的问题,因为RCVS目前的健壮性能是建立在足够的计算能力之上的。未来,开发更快的配准算法以适应更多低功耗边缘器件的部署是一个值得探索的研究方向。