多模态融合技术升级!新阶段2大融合模式取得最优性能

传统的多模态融合方法面临着模态表示不一致、灵活性不足等问题,难以适应日益复杂的实际需求。

而随着大模型等新技术的发展,研究者将这些新技术与传统的多模态融合相结合,提出了新阶段的融合模式,包括多模态大模型时代的新架构、动态多模态融合等。这些新的融合模式和方法不仅提高了模型的性能,也为处理更复杂的现实问题提供了新的思路,是我们做创新发论文的好方向。

本文介绍6种传统模态融合方法,重点介绍2种热门的新阶段融合模式(多模态新架构+动态多模态融合),每种方法都附有代表论文以及相应代码(共28篇),方便同学们学习。

论文和代码需要的同学看文末

1.传统模态融合方法

①在将特征提取并转换到同一特征空间后,利用cross-attention等机制进行特征融合

  • 代表论文:DeepFusion:Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

②在编码过程中逐步进行特征融合

  • 代表论文:CEKD:Cross-Modal Edge-Privileged Knowledge Distillation for Semantic Scene Understanding Using Only Thermal Images

③分别对不同模态的特征进行编码提取,然后融合特征图

  • 代表论文:Multi-exposure image fusion via deep perceptual enhancement

④在图像编码前进行特征融合(将RGB图像转换为YCbCr并在Y通道进行融合)

  • 代表论文:Rethinking multi-exposure image fusion with extreme and diverse exposure levels: A robust framework based on Fourier transform and contrastive learning

⑤根据不同模态生成对应的策略,并进行策略融合

  • 代表论文:Multi-modal policy fusion for end-to-end autonomous driving

⑥分别对两种模态进行编码,并根据结果进行对比学习

  • 代表论文:Multi-modal contrastive mutual learning and pseudo-label re-learning for semi-supervised medical image segmentation

2.新阶段的融合模式

①多模态新架构

进入多模态大模型时代,融合方式基本就是VIT+Only Decoder Transformer的结构,这种结构的核心在于将图像和文本信息通过一个共享的Transformer架构进行处理,以实现多模态信息的融合。

代表论文1:
Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

方法:论文研究了视觉语言预训练(VLP)中跨模态对比学习中假阴性的问题。通过对互信息(MI)优化的角度进行理论分析,论文证明了在存在非可忽略的假阴性情况下,优化InfoNCE损失等价于最大化MI的下界,并提出了一种基于逐步优化的跨模态相似性的对比学习策略,以更准确地优化图像/文本锚点与其负样本之间的MI。

主要内容包括:(1)从MI优化的角度研究假阴性问题;(2)提出了一种基于跨模态相似性的对比学习策略;(3)在四个典型的视觉语言下游任务上验证了该方法的有效性。

创新点:

  • 推导了一个更一般的MI下界,揭示了在存在非可忽略的假负样本时,(部分)假负样本与锚点之间的MI也很重要。

  • 提出了一种基于跨模态相似度调控的全新对比学习策略。作者假设图像和文本之间的MI与它们的语义相似度呈正相关。因此,作者引入了一个对比权重,根据跨模态相似度进行推导,并在训练过程中逐步优化,用于每个负样本作为对比的调节器。这个调节器将引导模型适当地优化负样本的MI,避免了过度减少MI,从而得到一个更具语义结构的表示空间。

代表论文2:
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

方法:本文介绍了一种名为BLIP-2的通用和高效的视觉语言预训练方法。该方法利用了冻结的预训练图像编码器和大型语言模型(LLMs),在视觉语言预训练过程中具有较少的可训练参数。

创新点:

  • BLIP-2是一种通用且高效的预训练策略,通过从现成的冻结预训练图像编码器和大型语言模型中引导视觉语言预训练,从而解决了视觉和语言之间的模态差距问题。

  • BLIP-2通过轻量级的查询Transformer桥接了模态差距,该Transformer在两个阶段进行预训练。第一个阶段从冻结的图像编码器中引导视觉语言表示学习,第二个阶段从冻结的语言模型中引导视觉到语言的生成学习。

②从静态融合到动态融合

以往的融合方法从本质上讲是静态的,也就是以相同的计算处理和融合多模态输入,没有考虑不同多模态数据的不同计算需求。而动态多模态融合能够自适应融合多模态数据并在推理过程中生成数据依赖的前向路径,在计算效率、适用性、决策准确性等方面展现出了强有力的优势。

代表论文1:
Deep Equilibrium Multimodal Fusion

方法:论文提出了一种动态多模态融合架构,能够自适应地模拟从低层到高层的跨模态交互,从而使架构适用于各种多模态任务。该方法能够动态地模拟从低级到高级的模态信息,并在多模态融合中实现了新的最优性能。

创新点:

  • 采用深度均衡(DEQ)方法进行多模态融合,通过寻找动态多模态融合过程的一个固定点来建模特征之间的相关性。

  • 提出了一种新的深度均衡(DEQ)融合方法,通过以自适应和递归的方式对低级别到高级别的特征之间的相关性进行建模,从而充分编码跨模态信息,从而实现高效的多模态学习。

代表论文2:
MM-DFN: MULTIMODAL DYNAMIC FUSION NETWORK FOR EMOTION RECOGNITION IN CONVERSATIONS

方法:本文提出了一种多模态动态融合网络(MM-DFN)来全面理解多模态情感识别任务中的对话背景。该网络设计了一个基于图的动态融合(GDF)模块来融合对话中的多模态特征。GDF模块通过捕捉不同语义空间中的上下文信息的动态来减少冗余并增强模态之间的互补性。

创新点:

  • 提出了一种新颖的多模态动态融合网络(MM-DFN)来充分理解多模态对话环境。该网络设计了一种基于图的动态融合模块,用于在对话中融合多模态上下文特征。通过捕捉不同语义空间中的上下文信息动态变化,降低了冗余性,并增强了不同模态之间的互补性。

  • 进行了大量实验证明了MM-DFN模型的有效性和优越性。在两个公开基准数据集上,MM-DFN模型始终在性能上表现最好。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态28”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/439101.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

构建高效Web应用:Flask、Django和FastAPI的全面对比

构建高效Web应用:Flask、Django和FastAPI的全面对比 介绍Flask简介快速入门路由和视图函数模板渲染数据库操作Flask项目实战 Django简介快速入门模型和数据库视图和模板表单处理Django项目实战 FastAPI简介快速入门路径操作和参数请求和响应依赖注入FastAPI项目实战…

基于协同过滤的旅游推荐系统设计与实现

基于协同过滤的旅游推荐系统设计与实现 在当今旅游业蓬勃发展的背景下,人们对于旅游体验的需求日益增加,如何为用户提供更加个性化、精准的旅游推荐成为了旅游行业的一个重要课题。为解决这一问题,我们设计并实现了一个基于协同过滤的旅游推…

苹果电脑专业的Mac垃圾清理工具CleanMyMac X4.14.7

CleanMyMac X是一款专业的Mac清理工具,它具有强大的功能和易用的界面,可以帮助用户快速清理Mac上的无用文件和垃圾,优化系统性能,提升电脑运行速度。 该软件的核心功能包括智能扫描与清理、应用程序管理、隐私保护和系统维护等。…

通用电气 IS220PTURH1BF 涡轮机输入/输出(输入/输出组件)

通用电气 IS220PTURH1BF 涡轮机输入/输出(输入/输出组件) 一个完整的根据工程的解决方案 通用电气具有丰厚经历的功用安全专家能够设计、履行和支撑您的整个安全体系——包括硬件、软件和使用工程,使您的系统泊车危险最小,一起满意…

计算机组成原理之机器:存储器之主存储器

计算机组成原理之机器:存储器 笔记来源:哈尔滨工业大学计算机组成原理(哈工大刘宏伟) Chapter3:存储器 3.1 概述 存储器可分哪些类型? 现代存储器的层次结构,为什么要分层? …

强化学习工具箱(Matlab)

1、Get Started 1.1、MDP环境下训练强化学习智能体 MDP环境如下图 每个圆圈代表一个状态每个状态都有上或下的选择智能体从状态 1 开始智能体接收的奖励值为图中状态转移的值训练目标是最大化累计奖励 (1)创建 MDP 环境 创建一个具有 8 个状态和 2 …

MVO-CNN-BiLSTM多输入分类预测|多元宇宙优化算法-卷积-双向长短期神经网络分类预测(Matlab)

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、算法介绍: 四、完整程序下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matlab平台编译&am…

js【详解】原型 vs 原型链

原型 每个 class 都有显示原型 prototype每个实例都有隐式原型_proto_实例的_proto_指向对应 class 的 prototype 如下范例: class Student 创建了 实例 xialuo 获取属性 xialuo.name 或执行方法 xialuo.sayhi()时,先在自身属性和方法寻找&#xff0…

进程之舞:操作系统中的启动、状态转换与唤醒艺术

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua,在这里我会分享我的知识和经验。&#x…

【MOMO_Tips】批量将word转换为PDF格式

批量将word转换为PDF格式 1.打开文件–>选项–>自定义功能区–>开发工具–>确定 2.点开开发工具,选择第一个visual basic 3.进入页面后找到插入–>模块,就可以看到这样的画面之后将下列vba代码复制粘贴到模块中 Sub ConvertWordsToPd…

【Redis】Redis的应用场景

📝个人主页:五敷有你 🔥系列专栏:Redis ⛺️稳中求进,晒太阳 Redis的应用场景: 限流 要求10s内只能访问一次 RequestMapping("xian")public String xianLiu(String sign){String sign1 …

LVGL在VScode中安装模拟器运行配置笔记教程

1、LVGL模拟器工程搭建 LVGL(Light and Versatile Graphics Library,轻巧而多功能的图形库)是一个免费的开放源代码图形库,它提供创建具有易于使用的图形元素,精美的视觉效果和低内存占用的嵌入式GUI所需的一切。本文主要讲述如何实现在VScode中实现LVGL模拟器环境的搭建运行。…

Android Framework 通过脚本动态修改应用私有文件执行权限

你只活一次 要悦己 脚本配置 Android_source/device/sprd/***/test/test_chmod.rc service test_chmod /vendor/bin/test_chmod.shuser rootdisabledoneshoton property:sys.test_chmodtruestart test_chmodAndroid_source/device/sprd/***/test/test_chmod.sh #!/system/bin/…

【排序算法】深入理解快速排序算法:从原理到实现

目录 1. 引言 2. 快速排序算法原理 3. 快速排序的时间复杂度分析 4. 快速排序的应用场景 5. 快速排序的优缺点分析 5.1 优点: 5.2 缺点: 6. Java、JavaScript 和 Python 实现快速排序算法 6.1 Java 实现: 6.2 JavaScript 实现&#…

【随笔】程序员如何选择职业赛道,目前各个赛道的现状如何,那个赛道前景巨大

大家好,我是全栈小5,欢迎阅读文章! 此篇是【话题达人】系列文章,这一次的话题是《程序员如何选择职业赛道》 目录 背景热度柱状图赛道热度C/C云原生人工智能前沿技术软件工程后端JavaJavascriptPHPPython区块链大数据移动开发嵌入…

LeetCode100 刷题记录

文章目录 矩阵相关1. 旋转矩阵2. 搜索二维矩阵 矩阵相关 1. 旋转矩阵 题目描述: 给定一个 n n 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。 你必须在 原地 旋转图像,这意味着你需要直接修改输入的二维矩阵。请不要 使用另一个矩阵…

JavaWeb-MyBatis(上)

学完项目管理工具Maven后,继续学习MyBatis。我们都知道,JDBC是一个与数据库连接相关的API,最开始学习数据库连接都是从JDBC开始学起,但是其也有缺点,比如硬编码和操作繁琐等等。而今天学习的MyBatis就是专门为简化JDBC…

自定义协议清理后,浏览器还一直弹出匹配提示用户新应用打开问题

问题 这段时间出现了自定义协议清理异常的问题。在一台电脑上,用chrome,一直出现问题,自定义协议可能存在了缓存或者其他内容。导致一直重复的弹出ms-store打开新应用的奇怪问题。 后来 第一步: 清理注册表,把注册…

创新驱动!HubSpot引领CRM革命

在当今高速发展的数字化时代,企业的国际化布局和市场开拓已经成为了一种必然的趋势。随着企业出海步伐的加快,有效的客户关系管理(CRM)和营销自动化工具变得尤为重要。这就是HubSpot发力的领域。HubSpot,作为一家领先的…

容器+虚拟机双引擎,ZStack Edge云原生超融合打通业务最后一公里

企业数字化转型的焦点正在发生变化,云基础设施由资源到应用,数据中心从核心到边缘。面向云原生趋势,围绕应用升级,新一代超融合产品——云原生超融合应运而生。 云原生与边缘计算趋势催生云原生超融合 当前,企业客户…