【IVIF】Equivariant Multi-Modality Image Fusion

2024CVPR Zixiang Zhao团队
分析透彻,方法耳目一新
统一融合架构

1、Motivation

Our approach is rooted in the prior knowledge that natural imaging responses are equivariant to certain transformations

我们的方法根植于自然成像响应对于某些变换的等变性这一先验知识。因此,我们引入了一个新颖的训练范式,包括融合模块、伪感知模块和等变融合模块。这些组件使得网络训练能够遵循自然感知成像过程的原则,同时满足等变成像先验。

对IVIF任务的描述:产生的融合图像减轻了受光照变化影响的可见光图像和易受低分辨率和噪声影响的红外图像的局限性

作者的分析与假设:
我们假设潜在的GT融合图像具有丰富的信息,但在实践中,我们只能通过不同的感知过程来测量相同的GT,这些过程通常是非线性的且难以建模,因此获得了不同模态的观察结果。因此,多模态图像融合问题可以被视为一个具有挑战性的非线性盲反问题,可以被视为以下负对数似然最小化问题:
在这里插入图片描述
where i1, i2, and f represent two input source images and the output fusion image, respectively. Eq. (1b) originates from Bayes’ theorem. In Eq. (1c), the first term is the data fidelity term, indicating that i1 and i2 are sensed from f ; the second term is the prior term, indicating that f needs to satisfy certain fusion image prior or empirical characteristics.

1c的第一项,表示从融合图像f中感知到i1i2,显然各个传感器都受限于捕获特定模态的特征;实际上不存在能够同时感知所有模态信息的“超级”传感器。因此,缺乏GT妨碍了将深度学习的监督学习范式有效应用于图像融合任务。(指出没有GT的困难)
虽然基于生成模型的方法试图通过使源图像和融合图像属于类似分布来实现融合,但它们存在解释性不足、可控性不足以及训练挑战等问题。(说明基于生成式方法的不足)
基于手工设计的损失函数的方法通常通过最小化 ℓ1 或 ℓ2 距离来使融合图像类似于源图像。然而,直接计算 ∥f − i1∥ + ∥f − i2∥
来确定 f 忽略了融合图像与源图像之间的潜在领域差异,未考虑到 f 可能不位于与 i1 和 i2 相同的特征流形上。(?!)

1c的第二项,为先验项,表示f需要满足某些融合图像的先验或经验特征。研究人员通常假定融合图像具有某些结构,如低秩、稀疏性、多尺度分解等,并施加先验来限制解空间。然而,由于无法获取GT融合图像,这些先验通常依赖于对融合图像的猜测性假设或从自然图像先验推导出来,因此过度依赖领域知识,并且在未见情景下表现出有限的适应性。

针对上述挑战,我们计划从两个方面解决它们。
首先,由于调整分布和手工设计的损失函数是具有挑战性的任务,我们建议从感知和成像过程开始。我们的目标是学习感知,或者说从融合图像返回到各种模态图像的逆映射。这种方法直观上比掌握融合过程本身更简单。通过这样做,我们可以衡量输入源图像与(伪)感知结果之间的损失,这些结果是通过将融合图像应用于不同的感知函数获得的。这种策略克服了融合没有GT的问题。
此外,由于图像融合本质上是一个不适定问题,仅优化上述感知损失可能不会产生最优的融合图像。因此,我们引入了一个概念简单但有效的先验,该先验基于成像系统的固有先验,并且不依赖于融合图像的领域特定知识。这种非领域特定的先验建立在自然成像系统对于变换(如平移、旋转和反射)等等变性的理解基础上。换句话说,**在感知和重新融合之后,经过变换的融合图像应该产生与之前相同的结果。**利用自然成像系统的等变先验为融合网络内的学习过程提供了更强的约束和指导。总之,针对图像融合的常见学习范式,我们进行了以下改进:
在这里插入图片描述
在这里插入图片描述
EMMA中的伪感知损失项在等式(2)中减轻了传统损失中由于 f 和 {i1, i2} 之间流形差异引起的不合理性,确保了在 {ˆi1, i1} 和 {ˆi2, i2} 之间计算的距离处于同一域内。【?!】

作者也说了,类似的融合到源映射概念旨在使 f 可分解为 {i1, i2},以确保其包含源图像信息。(这边列举了两篇文章,统一的融合架构SDNet和一片低光增强领域的)
然而,它们的分解模块作为融合算法的一个组成部分,在训练过程中进行更新,**并且融合输出被视为源重建的特征。**因此,分解学习的熟练程度并不总是与融合中的信息增强相一致。相比之下,在EMMA范式中,**伪感知模块的学习与融合网络的学习是解耦的,**而且在EMMA训练期间保持冻结状态,从而确保从融合图像到源图像的映射是明确和确定的。这增强了感知模块的合理性和可解释性。
其他基于先验的优化方法通常需要融合图像的领域知识。然而,在EMMA中,我们只需要使用成像系统先验而不是融合图像先验来完成自监督学习。

2.等变成像

等变成像(EI)是一种新兴的完全无监督成像框架,利用自然信号中的群不变性特性,仅通过部分测量数据学习重建函数。EI背后的主要思想是利用自然信号通常具有某些对称性。例如,图像通常是平移不变的,这意味着它们如果被移动,看起来是相同的。有了这种不变性先验,整个成像系统(从感知到重建)都是变换等变的。在某些感知条件下,重建函数将能够正确重建被转换的图像,即使它以前从未见过这些图像。作为成像的一种有前景的新方法和一种获取和处理图像的新途径,EI已经被证明对于各种线性逆问题是有效的。本文致力于探索EI在更具挑战性的任务上的潜力,即多模态图像融合中的非线性盲逆问题。

列举了最近两年的文章,有3篇研究这个的。

3.Method

我们假设存在一个信息丰富的f,它包含多感官和多模态信息,需要预测。然而,到目前为止,现实生活中还没有一种感知设备能够完全感知到它。
问题建模为:
在这里插入图片描述
在传统的图像反问题y = A(x) + n中,其中x和y分别为GT和测量值,退化算子A(·)是已知的(如去噪任务中的噪声分布和超分辨率任务中的模糊核)。然而,在图像融合中,我们无法明确地获得Ai和Av,但我们可以将它们设置为可学习的,以模拟感知过程,辅助网络进行自监督学习。

假设1:测量一致性。

假设融合函数F(·,·)在测量域内保持一致性,即:在这里插入图片描述
由于传感过程的待定性质,无法通过估计Ai或Av的逆来估计F (i, v),我们需要学习更多的超出其逆范围空间的信息。

不变集一致性

给出equivariant imaging的两个定义:

def1:

def2:

根据定义 1 的推论,如果 X 代表一组自然图像,那么很明显,在经过平移、旋转和反射等变换后,其结果仍然是自然图像。因此,X 是变换组 G 的不变集。此外,在定义 1 和 2 中,"不变性 "指的是数据集的属性,而 "等变性 "指的是成像系统的属性,即成像系统(在本文中表示为 F ◦A)是相对于 G 的等变函数:

假设定义2中的L为复合函数F * A,其中F为融合模型,A(包括Ai和Av)为感知模型,则等变图像融合定理为:在这里插入图片描述
证明:考虑一组满足不变性的自然图像X,根据定义2,成像系统F * a应与群作用{Tg}相等。因此,对于∀f∈X,我们有f◦A(Tgf) = Tgf◦A(f)。进一步,将A分成Ai和Av,可以得到Eq.(5)。它(5)不要求F * A与Tg等变,相反,要求F * A等变。因此,这里的F和A可以不受限制地设置为任何形式的映射。

4.网络

在这里插入图片描述
我们是怎么约束的?
在这里插入图片描述

U-Fuser module:

我们采用类似u - net的结构对i和v进行融合,生成融合后的图像f。在每个尺度上,由于输入的跨模态特征既包含**全局特征(如环境和背景信息),也包含局部特征(如高亮和详细纹理对象特征)**,我们设计了一个Transformer-CNN结构,通过利用它们各自的归纳偏差来更好地建模跨模态特征。

特征融合和重建块结构和特征提取块都是一样的。

Pseudo sensing module:

由于明确给出Ai和Av的结构是不可行的,我们采用数据驱动的学习方法来获得它们。

Equivariant image fusion:

如图1所示,我们首先将图像对 {i, v} 输入到 F 中,并获取融合图像 f(这是传统融合算法的整个操作)。然后,我们对 f 应用一系列变换 Tg,包括平移、旋转、反射等,得到 f t。随后,将 f t 输入到经过良好训练的 {Ai, Av} 中,获取伪感知图像 {it, vt},它们分别包含了来自 f t 的信息,并满足红外和可见图像的成像特征。最后,配对的 {it, vt} 输入到 F 中,获取重新融合的图像 ˆ f t。在整个框架中,我们的目标是将 {i, v} 中的信息聚合到 f 中,并根据等变图像融合定理(定理1),f t 和 ˆ f t 应该足够接近。这将通过设计的损失函数来保证。

5.怎么训练的?

在这里插入图片描述
where ̃ f are the fusion results from the SOTA methods in Sec. 3.3.就是使用其他SOTA的结果当作融合图像的一个GT
说白了就是训练了从融合图像分解成IR和VIS的两个编码器,然后固定这两个编码器,更新损失函数,
在这里插入图片描述
特别是,Eq.(6)的第一项和第二项保证了我们的范式满足3.2节中模型假设的测量一致性,而第三项保证了它满足模型假设的不变集一致性。

作者指出:所提出的等变融合模块与数据增强(DA)不同,DA主要是基于ground truth对数据进行扩展。然而,在图像融合任务中,GT是不可接近的,没有GT的图像学习不能提供额外的信息增益

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/737002.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Go WebSocket入门+千万级别弹幕系统架构设计

Go实现WebSocket(千万级别弹幕系统架构设计) 1 websocket简介(基于HTTP协议的长连接) 使用WebSocket可以轻松的维持服务器端长连接,其次WebSocket是架构在HTTP协议之上的,并且也可以使用HTTPS方式,因此WebSocket是可靠…

C# 类中访问修饰符的优先级

参考链接 : C# 指南 - .NET 托管语言 | Microsoft Learn 访问修饰符 - C# | Microsoft Learn

OpenGL3.3_C++_Windows(17)

Demo演示 demo演示 绘制不同的图元(点,线…): 理解 glDrawArrays 和 glDrawElements的区别 glDrawArrays :渲染的图元模式mode(可以参考),起始位置,顶点数量glDrawElem…

Kafka中的数据本身就是倾斜的,使用FlinkSQL该如何处理

又是经历了一段不太平的变动,最近算是稳定了点,工作内容又从后端开发转换成了sql boy,又要开始搞大数据这一套了。不同的是之前写实时任务的时候都是用的java代码,新环境却更加偏向与使用flink sql 解决,所以记录下使用…

redis持久化操作【随记】

持久化 Redis它是将数据保存到内存当中,内存里的数据最大特点: 断电易失.保存在内存的数据就没有了.如果如果这些数据还有用,业务使用啥的,不能就让它这么没有了. redis当中提供持久化机制, 说白了,将内存的数据 —-> 写入到磁盘. –> 持久化. 1 rdb方式 redis database,…

1.4 Kettle 数据同步工具详细教程

工具介绍 一、概述 Kettle,又名 Pentaho Data Integration(PDI),是一个开源的数据集成工具,最初由 Pentaho 公司开发。它能够从多种数据源提取、转换并加载(ETL)数据,适用于数据仓…

STM32CubeMX 创建 MDK 工程

STM32CubeMX 创建 MDK 工程 MDK (Keil uVision) MDK (Keil uVision) 是 Arm 公司开发的一款集成开发环境 (IDE),专门用于 Arm 架构的嵌入式系统开发。它提供了全面的功能,包括: 代码编辑器,支持语法高亮、代码补全和错误检测调试…

【YOLO 系列】基于YOLO V8的车载摄像头交通信号灯检测识别系统【python源码+Pyqt5界面+数据集+训练代码】

前言 随着智能交通系统的发展,交通信号灯的准确识别对于提高道路安全和交通效率具有至关重要的作用。传统的交通信号灯识别方法依赖于固定的传感器和摄像头,存在安装成本高、维护困难等问题。为了解决这些问题,我们启动了这个项目&#xff0…

微软搁置水下数据中心项目——项目纳蒂克相比陆地服务器故障更少

“我的团队努力了,并且成功了,”COI负责人诺埃尔沃尔什说。 微软已悄然终止了始于2013年的水下数据中心(UDC)项目“纳蒂克”。该公司向DatacenterDynamics确认了这一消息,微软云运营与创新部门负责人诺埃尔沃尔什表示…

八大排序之希尔排序

一、概念及其介绍 希尔排序(Shell Sort)是插入排序的一种,它是针对直接插入排序算法的改进。 希尔排序又称缩小增量排序,因 DL.Shell 于 1959 年提出而得名。 它通过比较相距一定间隔的元素来进行,各趟比较所用的距离随着算法的进行而减小…

2024最新最全的车载测试教程__各模块测试用例

二、设计用例方法 1.测试用例设计前: a.仔细认真研读prd、理解prd b.质疑prd、有困惑或者想法的点做好记录,可以一次性和产品沟通 2.设计中: 成282 a.根据结构化思维,设计xmind i全链路正向功能点、子链路功能点 ⅱ.考虑业…

注意 llamaIndex 中 Chroma 的坑!

llamaIndex 做索引是默认存在内存中,由于索引需要通过网络调用 API,而且索引是比较耗时的操作,为了避免每次都进行索引,使用向量数据库进行 Embedding 存储以提高效率。首先将 Document 解析成 Node,索引时调用 Embedd…

指令调度基本概念

概述 为了提高处理器执行指令的并行度,处理器将计算机指令处理过程拆分为多个阶段,并通过多个硬件处理单元,将不同指令处理的前后阶段重叠并行执行,形成流水线(pipeline) 处理器的流水线结构是处理器微架构最基本的要素&#xf…

714. 买卖股票的最佳时机含手续费

714. 买卖股票的最佳时机含手续费 原题链接:完成情况:解题思路:ExplanationSummary 参考代码:_714买卖股票的最佳时机含手续费 错误经验吸取 原题链接: 714. 买卖股票的最佳时机含手续费 https://leetcode.cn/probl…

“论微服务架构及其应用”写作框架,软考高级,系统架构设计师

论文真题 论微服务架构及其应用近年来,随着互联网行业的迅猛发展,公司或组织业务的不断扩张,需求的快速变化以及用户量的不断增加,传统的单块(Monolithic)软件架构面临着越来越多的挑战,已逐渐…

机器人阻抗控制相关文献学习(阻抗实现)

机器人阻抗是一个描述机器人与环境交互时动态特性的概念。 定义: 阻抗在机器人领域中,通常用来描述机器人与其环境之间的相互作用。当机器人与环境接触时,环境对机器人施加一个作用力,而机器人也会对环境施加一个反作用力。这个反…

动手学深度学习(Pytorch版)代码实践 -计算机视觉-36图像增广

6 图片增广 import matplotlib.pyplot as plt import numpy as np import torch import torchvision from d2l import torch as d2l from torch import nn from PIL import Image import liliPytorch as lp from torch.utils.data import Dataset, DataLoaderplt.figure(cat)…

【记录】使用远程SSH配置d2l环境(含装pytorch,同时适用于本地anaconda)

文章目录 前言一、从创建新环境开始二、使用步骤1.安装pytorch2.安装 d2l 包3.安装其他包4.使用jupyter notebook 前言 记录一下如何利用使用命令行进行anaconda配置 d2l环境、pytorch并进行训练深度学习模型。 一、从创建新环境开始 如果是本地直接装一个 anaconda 软件就行…

【决战欧洲杯巅峰】AI模型预测[走地数据]初步准备工作

数据准备 首先,我们需要收集一些与欧洲杯比赛相关的历史数据。这些数据可能包括球队的历史战绩、球员的能力评分、比赛场地信息、历史交锋记录等。这些数据可以从公开来源获取,并进行适当的预处理和清洗。 特征提取 接下来,我们需要从收集…

基于JSP的“塞纳河畔左岸”的咖啡馆管理系统

开头语: 塞纳河畔左岸的咖啡,我手一杯品尝的你美~ 哎哟,不错哦!我们今天来介绍一下咖啡馆管理系统! 你好呀,我是计算机学长猫哥!如果你对咖啡馆管理系统感兴趣或有相关需求,欢迎联…