多模态路径:利用其他模态的无关数据改进变压器(CVPR 2024)

<Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities> 

论文地址:https://arxiv.org/abs/2401.14405

项目网页:https://ailab-cvc.github.io/M2PT/

开源代码:https://github.com/AILab-CVC/M2PT

讲解视频:https://www.bilibili.com/video/BV1Sm41127eW/

图1:与使用对齐良好的多模态数据的已知范式相比,本文关注的是数据样本来自多个模态但不相关的场景,这是文献中的一个开放问题。 

一、核心概念

  • 目标模态与辅助模态:目标模态是指我们想要改进性能的模型的模态,例如图像。辅助模态则是与目标模态不相关的其他模态的数据,例如音频或点云数据。
  • 多模态路径(Multimodal Pathway):这是一种连接目标模态Transformer和辅助模态Transformer的结构,允许目标模态数据通过两个模型的组件进行处理,从而获得两种模态的序列到序列建模能力。
  • 跨模态重参数化(Cross-Modal Re-parameterization):这是一种技术手段,利用辅助模态的Transformer块,无需任何推理成本即可提升目标模态的性能。

图2:(左) 多模态通路变压器(M2PT)框架。以点云和图像模态为例。transformer的常用做法遵循相同的流程:使用1)标记器将输入数据转换为序列,2)转换器块处理序列,3)磁头解码序列。通过建立不同模态组件之间的路径来升级序列到序列建模,以便处理特定模态的令牌可以利用与另一模态训练的转换块。

        (中) M2PT的概念设计,其中路径是通过让目标模型中的线性层(包括注意力块中的查询/键/值/投影层和FFN块中的线性层)与辅助模型中的对应层合作来实现的。

        (右) 跨模态重参数化通过将目标模型的权重与辅助模型的权重重新参数化,引入边际训练成本,完全没有推理成本,有效地实现了M2PT。

        本文提出了一个简单而有效的M2PT实现,其中关键是连接两个模型的路径的具体实现。如上所述,由于通用建模能力,不同模态上的transformer可能具有不同的标记器,但它们的主体(即transformer块)可能具有相同的结构。对于与主体结构相同的目标模型和辅助模型,前者主体中的一层在后者中应该有对应的一层。例如,目标模型的第9块中的Query层的对应物,即辅助模型中的第9个Query层应该存在,并且它们在两个模型中扮演类似的角色。考虑到这一点,通过将目标模型的transformer块中的每个线性层与辅助模型中的对应层进行扩充来建立两个模型之间的连接。在这样的概念设计中,让两个层接受相同的输入并将它们的输出相加,如图2(中间)所示。

图3:M2PT在图像、视频、点云和音频这四种模式上带来了一致的改进。这些指标分别是ImageNet-1K精度、Kinetics-400精度、PartNet mIoU和AudioSet精度。这些数字分别代表了M2PT模型相对于使用mastyle方法[22、23、30、49]在四种模式上预训练的基线模型的性能的改进百分比。 

        本文尝试了图像、视频、点云和音频模式。图3显示了M2PT在四种模式中一致带来的相对改进。这些结果表明,变压器中序列对序列建模的模态互补知识是存在的。

        作为早期的探索,我们的实证研究证实,这种改进不仅仅是由于更多的参数,并且表明这种模态互补知识可能与一般处理分层表示的能力有关。抽象层次以多种形式存在,概念从低级到高级,这可以解释所学知识的普遍性。换句话说,当转换器使用图像进行训练时,它既学习(能力a)如何理解图像,又学习(能力B)如何将标记从低级模式转换为高级模式,而不假设它们最初来自图像。

        同时,由于另一个Transformer正在用音频数据进行预训练,它对音频学习了不同的“能力a”和相似的“能力B”,从而可以帮助前面提到的Transformer进行图像识别。


二、方法论

  1. 模态特定的分词器和任务特定的头部:如同常规的Transformer模型,使用模态特定的分词器来处理输入数据,将其转换为序列(即tokens),并使用任务特定的头部来进行最终的任务(如分类、检测等)。

  2. 利用辅助模态的知识:通过将目标模态的Transformer与一个已经在辅助模态数据上训练好的Transformer连接起来,目标模态可以通过跨模态重参数化技术,利用辅助模态模型的权重来增强其性能。


三、重要性与贡献

  • 开拓新领域:这篇论文探索了一个较少被研究的领域——如何利用与目标模态不相关的数据来改进模型性能,这在以往的研究中是一个未被充分探讨的问题。
  • 通用模型能力的展示:这项工作进一步证明了Transformer的通用序列到序列建模能力,即使是在跨模态的情况下也能够有效。

四、结论

        这篇论文提出的多模态路径方法为利用跨模态数据来改进特定模态的Transformer模型提供了一种新的视角和方法。通过引入辅助模态的知识,即使这些数据与目标任务不直接相关,也能显著提升目标模态的模型性能。这不仅展示了Transformer的强大通用性,也为未来的多模态学习研究开辟了新的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/601850.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

还有谁不想薅云渲染的羊毛?五种云渲染优惠知道就是省到

不管你是效果图设计师还是动画设计师&#xff0c;在面对紧急或大量的渲染任务时&#xff0c;总会有云渲染的需要。然而&#xff0c;现在的云渲染越来越贵&#xff0c;我们该如何尽可能地节约成本完成渲染任务呢&#xff1f;本文将为你介绍云渲染的五种优惠形式&#xff0c;看完…

spring bean生命周期全部过程

Spring Bean的生命周期包括以下全部过程&#xff1a; 实例化&#xff1a;在Spring容器启动时&#xff0c;根据配置文件或注解等信息创建Bean的实例。属性赋值&#xff1a;如果Bean有属性需要进行初始化&#xff0c;Spring容器会自动为这些属性进行赋值。自定义初始化方法&…

Vue.js【路由】

初识路由 提到路由&#xff08;Route&#xff09;&#xff0c;一般我们会联想到网络中常见的路由器&#xff08;Router&#xff09;&#xff0c;那么路由和路由器之间有什么关联呢&#xff1f;路由是指路由器从一个接口接收到数据&#xff0c;根据数据的目的地址将数据定向传送…

【Java笔记】多线程:一些有关中断的理解

文章目录 线程中断的作用线程的等待状态WAITINGTIMED_WAITING 线程从等待中恢复 java.lang.Thread中断实现相关方法中断标识interrupted 一些小练习Thread.interrupt() 只唤醒线程并修改中断标识sleep() 清除中断状态标识 Reference 线程中断的作用 线程中断可以使一个线程从等…

无处不在的AI:被科技巨头盯上的Agent智能体的崭新时代

&#x1f97d;一.Agent AI智能体 Agent AI 智能体是一种基于人工智能技术的智能代理&#xff0c;它可以自主地执行任务、与环境进行交互&#xff0c;并根据环境的变化做出决策。 OpenAI将AI Agent定义为以大语言模型&#xff08;LLM&#xff09;为大脑驱动具有自主理解、感知、…

关于电商API接口【满足高并发大批量请求】||电商API接口入门指南

简介&#xff1a; API&#xff08;应用程序编程接口&#xff09;是一种让不同软件之间进行通信的方式。在电子商务中&#xff0c;电商API接口可以用于获取商品信息、下单、支付等等。本篇文章将介绍电商API接口的入门知识&#xff0c;并提供示例代码以帮助你快速上手。 一、了解…

言出身随!人情世故:利益交换与人脉的重要性——早读(逆天打工人爬取热门微信文章解读)

巴黎输了&#xff0c;看了比赛还得加班 引言Python 代码第一篇 洞见 认知越高的人&#xff0c;越懂得感恩第二篇 冯站长之家 2024年5月8日&#xff08;周三&#xff09;三分钟新闻早餐结尾 智慧赋予我决策的明灯 勇气则是我行动的盾牌 在细雨中骑行 是我以智慧选择的道路 用勇气…

Foxmail邮箱API发送邮件失败的原因有哪些?

Foxmail邮箱API发送邮件的注意事项&#xff1f;如何用API发信&#xff1f; 在使用Foxmail邮箱API发送邮件时&#xff0c;有时会遇到发送失败的情况。这种情况可能由多种原因造成&#xff0c;下面AokSend就来详细探讨一下Foxmail邮箱API发送邮件失败的可能原因。 Foxmail邮箱A…

Ubuntu18.04 安装 anconda

anaconda官网 bash Anaconda3-2021.11-Linux-x86_64.sh一直回车&#xff0c;输入yes 选择安装目录 是否希望更新shell配置文件以自动初始化conda

4diacIDE同时编译不同版本踩坑记录

4diac不同版本依赖插件版本及jdk版本是不同的&#xff0c;当你需要搭建不同版本4diacIDE开发环境时&#xff0c;就会出现各种问题。最近一个月github上项目提交记录比较多&#xff0c;出现了不少坑。以下记录下此背景下的解决方法&#xff1a; 1、首先由于.target依赖的eclipse…

java项目跑不起来 端口已被使用

背景 Springboot项目跑不起来&#xff0c;原因端口被占用。 解决方法 在 Windows 环境下&#xff0c;你可以按照以下步骤来查看某个端口被占用的情况&#xff0c;并停止相应的进程&#xff1a; 查看所有端口占用情况&#xff1a; 按下 Win R 键&#xff0c;打开运行窗口。…

C语言内存函数memcpy与memmove

一.memcpy的使用和模拟实现 1.函数原型 void* memcpy(void* destination, const void* source, size_t num); destination是目标内存块的指针 source是源内存块的指针 num是要复制的字节数 .函数memcpy从source的位置开始向后复制 num个字节 的数据到destination指向的内存位置…

YOLO系列自研改进:基于注意力机制的多尺度特征提取模块

目录 一、原理 二、代码 三、在YOLO中的应用 一、原理 这个模块的原理仍然是利用不同大小的卷积核来提取不同尺度的特征,同样将通道划分为两部分,一部分通过注意力机制进行通道信息和空间信息的提取,另一部分通过多个不同大小的卷积核来提取多尺度的特征信息。 二、代码…

【Unity】使用Resources.LoadAll读取文件的顺序问题

最近在做客户的一个项目&#xff0c;其中的一个模块使用到了照片&#xff0c;但是发现了一个很严重的问题。当你在使用Unity的时候&#xff0c;它竟然不按照顺序读取&#xff1f;这个机器人是不是逻辑有问题&#xff1f;如下图&#xff1a; 名字脱敏了哈。。。 照片比较多&…

await执行顺序

用一个简单的例子来说明&#xff0c;await到底在等待什么 求代码的打印顺序 function testAsy(x) {return new Promise((resolve) > {setTimeout(() > {resolve(x);}, 3000);}); } async function testAwt() {console.log("async开始执行");// 最先打印let r…

Sketch for Mac v100 中文激活版——设计师必备的矢量绘图软件

在数字化时代&#xff0c;设计无处不在&#xff0c;而Sketch for Mac正是一款专为设计师量身打造的设计利器。其简洁直观的操作界面、强大的功能和高效的工作流程&#xff0c;让您的创意无限释放。 Sketch for Mac v100 中文激活版下载 Sketch支持矢量图形编辑&#xff0c;无论…

机试:字符串相关简单问题

字符移动问题 这道题的描述是这样的&#xff1a;输入一个字符串&#xff0c;将其中的数字字符移动到非数字字符之后&#xff0c;并保持数字字符和非数字字符输入时的顺序。例如&#xff1a;输入字符串“ab4f35gr#a6”,输出为“abfgr#a4356”。 以下使我试着敲的代码&#xff…

Leetcode—138. 随机链表的复制【中等】(cend函数)

2024每日刷题&#xff08;129&#xff09; Leetcode—138. 随机链表的复制 实现代码 /* // Definition for a Node. class Node { public:int val;Node* next;Node* random;Node(int _val) {val _val;next NULL;random NULL;} }; */class Solution { public:Node* copyRan…

QT+多线程TCP服务器+进阶版

针对之前的服务器&#xff0c;如果子线程工作类里面需要使用socket发送消息&#xff0c;必须要使用信号与槽的方法&#xff0c; 先发送一个信号给父进程&#xff0c;父进程调用socket发送消息&#xff08;原因是QT防止父子进程抢夺同一资源&#xff0c;因此直接规定父子进程不能…

雷蛇笔记本数据丢失怎么恢复?提供详细指南

在数字化时代&#xff0c;笔记本电脑已成为我们日常生活和工作中不可或缺的一部分。然而&#xff0c;尽管技术不断进步&#xff0c;数据丢失的风险仍然存在。雷蛇&#xff08;Razer&#xff09;作为一家知名的电脑硬件制造商&#xff0c;其笔记本电脑也难免会遇到这样的问题。当…