传统的多模态融合方法面临着模态表示不一致、灵活性不足等问题,难以适应日益复杂的实际需求。
而随着大模型等新技术的发展,研究者将这些新技术与传统的多模态融合相结合,提出了新阶段的融合模式,包括多模态大模型时代的新架构、动态多模态融合等。这些新的融合模式和方法不仅提高了模型的性能,也为处理更复杂的现实问题提供了新的思路,是我们做创新发论文的好方向。
本文介绍6种传统模态融合方法,重点介绍2种热门的新阶段融合模式(多模态新架构+动态多模态融合),每种方法都附有代表论文以及相应代码(共28篇),方便同学们学习。
论文和代码需要的同学看文末
1.传统模态融合方法
①在将特征提取并转换到同一特征空间后,利用cross-attention等机制进行特征融合
-
代表论文:DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection
②在编码过程中逐步进行特征融合
-
代表论文:CEKD:Cross-Modal Edge-Privileged Knowledge Distillation for Semantic Scene Understanding Using Only Thermal Images
③分别对不同模态的特征进行编码提取,然后融合特征图
-
代表论文:Multi-exposure image fusion via deep perceptual enhancement
④在图像编码前进行特征融合(将RGB图像转换为YCbCr并在Y通道进行融合)
-
代表论文:Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning
⑤根据不同模态生成对应的策略,并进行策略融合
-
代表论文:Multi-modal policy fusion for end-to-end autonomous driving
⑥分别对两种模态进行编码,并根据结果进行对比学习
-
代表论文:Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation
2.新阶段的融合模式
①多模态新架构
进入多模态大模型时代,融合方式基本就是VIT+Only Decoder Transformer的结构,这种结构的核心在于将图像和文本信息通过一个共享的Transformer架构进行处理,以实现多模态信息的融合。
代表论文1:
Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation
方法:论文研究了视觉语言预训练(VLP)中跨模态对比学习中假阴性的问题。通过对互信息(MI)优化的角度进行理论分析,论文证明了在存在非可忽略的假阴性情况下,优化InfoNCE损失等价于最大化MI的下界,并提出了一种基于逐步优化的跨模态相似性的对比学习策略,以更准确地优化图像/文本锚点与其负样本之间的MI。
主要内容包括:(1)从MI优化的角度研究假阴性问题;(2)提出了一种基于跨模态相似性的对比学习策略;(3)在四个典型的视觉语言下游任务上验证了该方法的有效性。
创新点:
-
推导了一个更一般的MI下界,揭示了在存在非可忽略的假负样本时,(部分)假负样本与锚点之间的MI也很重要。
-
提出了一种基于跨模态相似度调控的全新对比学习策略。作者假设图像和文本之间的MI与它们的语义相似度呈正相关。因此,作者引入了一个对比权重,根据跨模态相似度进行推导,并在训练过程中逐步优化,用于每个负样本作为对比的调节器。这个调节器将引导模型适当地优化负样本的MI,避免了过度减少MI,从而得到一个更具语义结构的表示空间。
代表论文2:
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
方法:本文介绍了一种名为BLIP-2的通用和高效的视觉语言预训练方法。该方法利用了冻结的预训练图像编码器和大型语言模型(LLMs),在视觉语言预训练过程中具有较少的可训练参数。
创新点:
-
BLIP-2是一种通用且高效的预训练策略,通过从现成的冻结预训练图像编码器和大型语言模型中引导视觉语言预训练,从而解决了视觉和语言之间的模态差距问题。
-
BLIP-2通过轻量级的查询Transformer桥接了模态差距,该Transformer在两个阶段进行预训练。第一个阶段从冻结的图像编码器中引导视觉语言表示学习,第二个阶段从冻结的语言模型中引导视觉到语言的生成学习。
②从静态融合到动态融合
以往的融合方法从本质上讲是静态的,也就是以相同的计算处理和融合多模态输入,没有考虑不同多模态数据的不同计算需求。而动态多模态融合能够自适应融合多模态数据并在推理过程中生成数据依赖的前向路径,在计算效率、适用性、决策准确性等方面展现出了强有力的优势。
代表论文1:
Deep Equilibrium Multimodal Fusion
方法:论文提出了一种动态多模态融合架构,能够自适应地模拟从低层到高层的跨模态交互,从而使架构适用于各种多模态任务。该方法能够动态地模拟从低级到高级的模态信息,并在多模态融合中实现了新的最优性能。
创新点:
-
采用深度均衡(DEQ)方法进行多模态融合,通过寻找动态多模态融合过程的一个固定点来建模特征之间的相关性。
-
提出了一种新的深度均衡(DEQ)融合方法,通过以自适应和递归的方式对低级别到高级别的特征之间的相关性进行建模,从而充分编码跨模态信息,从而实现高效的多模态学习。
代表论文2:
MM-DFN: MULTIMODAL DYNAMIC FUSION NETWORK FOR EMOTION RECOGNITION IN CONVERSATIONS
方法:本文提出了一种多模态动态融合网络(MM-DFN)来全面理解多模态情感识别任务中的对话背景。该网络设计了一个基于图的动态融合(GDF)模块来融合对话中的多模态特征。GDF模块通过捕捉不同语义空间中的上下文信息的动态来减少冗余并增强模态之间的互补性。
创新点:
-
提出了一种新颖的多模态动态融合网络(MM-DFN)来充分理解多模态对话环境。该网络设计了一种基于图的动态融合模块,用于在对话中融合多模态上下文特征。通过捕捉不同语义空间中的上下文信息动态变化,降低了冗余性,并增强了不同模态之间的互补性。
-
进行了大量实验证明了MM-DFN模型的有效性和优越性。在两个公开基准数据集上,MM-DFN模型始终在性能上表现最好。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“多模态28”获取全部论文+代码
码字不易,欢迎大家点赞评论收藏