4M-21:霸气侧漏高效的20+多模态AI模型

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

4M-21证明了在21种不同的模态和任务上成功训练任意模型。这一成就是通过采用特定于模态的分词器将所有模态映射到离散的Token集,以及多模态Mask训练目标来实现。

与更专业的模型相比,该模型可在多个数据集中扩展到30亿个参数,而不会影响性能。由此产生的统一模型表现出强大的开箱即用功能,并为多模态交互、生成和检索开辟了新的途径。未来4M-21还需要进一步的探索迁移和涌现能力。

从4M看起

最近解决视觉中多任务学习挑战的尝试已经从组合密集的视觉任务发展到将众多任务集成到统一的多模态模型中。Gato、OFA、Pix2Seq、UnifiedIO和4M等方法将各种模态转换为离散Token,并使用序列或掩码建模目标训练Transformer。一些方法通过对不相交数据集的共同训练来实现更加广泛的任务,而其他方法(如 4M)则使用伪Token对的对齐数据集进行任意到任意模态的预测。

掩码(Mask)建模已被证明在学习跨模态表示方面是有效的,这对于多模态学习至关重要,并且在与Token相结合时可以实现生成式应用程序。

上图是4M例子,注意不是今天的4M-21!!小编来解释下:左边是一幅图的不同维度数据,例如RGB、标题、深度、表面法线、语义分割图、边界框和标记化CLIP特征图。选择这些模态是为了涵盖几个关键方面:语义信息(标题、语义分割、边界框、CLIP)、几何信息(深度、表面法线)和RGB的混合。当用作输入模态时,这些模态可用作有关场景几何及其语义内容的先验信息。当用作目标任务时,它们使模型能够控制学习何种表示。

这些模态在用于编码信息的格式方面是多种多样的。它们由密集的视觉模态(RGB、深度、表面法线、语义分割)、稀疏和/或基于序列的模态(标题、边界框)以及神经网络特征图(CLIP)组成。最后,这些模态允许与模型进行多样化和丰富的交互。

上图右边是一个典型的编码和解码的框架,4M预训练目标包括训练 Transformer编码器-解码器,训练是以一个随机Token子集预测从所有模态中随机采样的另一个子集。大白话输入和输出都是随机抽样,按照“填空游戏”进行训练模型。其实某种意义上就是另一种“BERT”。

4M-21

来自苹果公司和瑞士洛桑联邦理工学院(EPFL)的研究人员在多模态掩蔽预训练方案的基础上构建了他们的方法,通过对各种模态的训练显着扩展了其能力。该方法包含20多种模态,包括SAM片段、3D人体姿势、调色板以及各种元数据。通过使用特定于模态的离散分词器,该方法将不同的输入编码为统一的格式,从而能够在多个模态上训练单个模型,而不会降低性能。

下面的例子何其壮观。

4M-21 可以从任何给定的输入模态生成所有模态,并且可以从链式生成中获益。请注意,对于一个输入,所有模态的预测之间具有高度一致性。例子中的每一行都是同一场景的不同模态输入。

绿色突出显示的是 4M无法预测或接受作为输入的新输入/输出对。虽然此图显示了来自单个输入的预测,但 4M-21 可以从所有模态的任何子集生成任何模态。

4M-21采用4M预训练方案,将其扩展为处理多种模式。它使用特定于模态的分词器将所有模态转换为离散标记序列。训练目标包括使用从所有模态中随机选择的随机选择作为输入和目标,从另一个标记子集预测一个标记子集。它利用伪标签来创建一个具有多种对齐模式的大型预训练数据集。该方法包含多种模态,包括 RGB、几何、语义、边缘、特征图、元数据和文本。

项目主要采用三种主要类型的分词器:用于类图像模态的基于 ViT 的分词器,用于人体姿势和全局嵌入的 MLP 分词器,以及用于文本和其他结构化数据的 WordPiece 分词器。这种全面的标记化方法使模型能够有效地处理各种模态,从而降低计算复杂性并实现跨多个领域的生成任务。<是不是觉得很眼熟啊,这不就是自编码器先走一波么!>

霸气侧漏的功能

4M-21模型展示了广泛的功能,包括可操纵的多模态生成、多模态检索以及在各种视觉任务中的强大开箱即用性能。

该模型根据来至任何模态输入的全局嵌入(Embeddings)来进行多模态的检索操作(上图)。下图代表更多的例子,从一个标题可以检索出各种图片。

在开箱即用的评估中,4M-21在表面法线估计、深度估计、语义分割、实例分割、3D 人体姿态估计和图像检索等任务上取得了具有竞争力的表现。特别是4M-21 XL变体,在多种模式中表现出强大的性能,而不会牺牲任何单个领域的能力。

给出一副RGB的图片,4M-21能够预测所有的任务,而且保持高度的一致性。

研究人员检查了在大量模态上预训练任意到任意模型的缩放特征,比较了三种模型大小:B、L和XL。评估单模态(RGB)和多模态(RGB+深度)迁移学习场景。在单模态传输中,4M-21在任务上保持了与原始七种模式相似的性能,同时在3D对象检测等复杂任务上显示出改进的结果。随着尺寸的增加,该模型表现出更好的性能,该研究表明,在更广泛的模态下进行训练不会影响原有成熟任务,反而增强了新任务能力,尤其是在模型规模扩大的前提下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/721354.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

云电脑有多好用?适合哪些人使用?

云电脑作为一种新型的计算模式&#xff0c;其应用场景广泛且多样&#xff0c;适合各类人群使用。云电脑适合什么人群使用&#xff1f;云电脑有哪些应用场景&#xff1f;有什么好的云电脑推荐&#xff1f;以下本文将详细探讨云电脑的主要应用场景及其适用人群的相关内容&#xf…

英伟达发布开源模型Nemotron-4 340B

&#x1f680; 英伟达发布开源模型Nemotron-4 340B 摘要&#xff1a;英伟达最新发布的开源模型Nemotron-4 340B&#xff0c;可能彻底改变大语言模型&#xff08;LLM&#xff09;训练方式。该模型支持多种自然语言和编程语言&#xff0c;使用9万亿个token训练&#xff0c;高达9…

自制调色小工具给图片加滤镜,修改图片红、绿、蓝通道及亮度,修改图片颜色

上篇&#xff1a; 上篇我们给地图添加了锐化、模糊等滤镜&#xff0c;这篇来写一个小工具给图片调色。 调色比锐化等滤镜要简单许多&#xff0c;直接拿到像素值修改即可。不需要用到卷积核。。。(*^▽^*) 核心原理就是图像结构&#xff0c;使用context.getImageData获取图像像…

从零开始:精通基于大型语言模型(LLM)的Agent应用开发

一、引言 随着人工智能技术的飞速发展&#xff0c;大型语言模型&#xff08;Large Language Model&#xff0c;简称LLM&#xff09;已经成为自然语言处理&#xff08;NLP&#xff09;领域的核心技术之一。这些模型&#xff0c;如GPT、BERT等&#xff0c;通过大量的文本数据训练…

一文读懂OpenGVLab带来的最新视觉预训练框架

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点&#xff0c;可以回到大模型必备腔调或者LLM背后的基础模型重新阅读。而最新科技&#xff08;Mamba,xLSTM,KAN&#xff09;则…

常用的sql语句

一条sql语句更新两个表的内容的sql语句 UPDATE urlName,siteName SET urlurl,namename WHERE siteName.zidurlName.zid AND IDIN ; select * from user_tab_comments;//查询表的注释 select * from user_col_comments;//查询列的注释 select * from all_tables;//查询此用户…

SpringBoot快速入门-上

Apache Tomcat Apache Tomcat是一个开源的Servlet 或 web容器&#xff0c;它实现了Java Servlet、JavaServer Pages (JSP)、Java Unified Expression Language (JUEL) 和 Java WebSocket 规范。 使用 官网下载 安装:绿色版 , 直接解压 卸载:直接删除目录 改编码: # conf/l…

强得离谱,AI音乐的 Stable Diffusion: MusicGen

节前&#xff0c;我们星球组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…

烂笔头笔记:为JDK安装Charles证书,让你的请求能够像在浏览器中那样被抓包

为什么要为JDK安装Charles证书 众所周知&#xff0c;https就是为了防止中间过程被拦截从而导致数据泄密的。若强行加入Charles代理&#xff0c;数据被解密后再被其重新加密&#xff0c;数据已经被“破坏”&#xff0c;客户端从而拒绝建立连接或解析内容。 #mermaid-svg-ksLo5W…

安装,管理程序

文章目录 Linuxd应用程序基础应用程序与系统命令的关系 典型应用程序目录常见的软件包装类型 rpm软件包管理工具RPM软件包rpm命令格式查询rpm软件包信息查询已安装的查询未安装的 安装或升级rpm软件卸载指定rpm软件辅助选项 维护RPM数据库解决软件包依赖关系方法 源代码编译安装…

[面试题]缓存

[面试题]Java【基础】[面试题]Java【虚拟机】[面试题]Java【并发】[面试题]Java【集合】[面试题]MySQL[面试题]Maven[面试题]Spring Boot[面试题]Spring Cloud[面试题]Spring MVC[面试题]Spring[面试题]MyBatis[面试题]Nginx[面试题]缓存[面试题]Redis 什么是缓存&#xff1f;…

MySQL数据库入门

1、MySQL概述 MySQL官方网站 https://www.mysql.com/downloads/ MySQL被Oracle公司收购了&#xff0c;作者又重新编写了一个开源的数据库管理系统&#xff0c;Mariadb 2、MySQL产品&版本 2、数据库在网站架构中的角色 LAMP LNMP网站架构 3、安装MySQL-基于yum 查…

【网络编程】套接字的多种可选项

可以看出&#xff0c;套接字可选项是分层的。IPPROTOIP层可选项是IP协议相关事项IPPROTO TCP层可选项是TCP协议相关的事项&#xff0c;SOLSOCKET层是套接字相关的通用可选项 getsockopt&&setsockopt #include <sys/socket.h> int getsockopt(int sock, int lev…

IO流..

1.IO流-->用于读写文件中的数据 2.IO流的分类 import java.io.FileOutputStream; import java.io.IOException;public class Stream {public static void main(String[] args) throws IOException{FileOutputStream fosnew FileOutputStream("abc\\a.txt");fos.w…

docker容器中连接宿主机mysql数据库

最近要在docker中使用mysql数据库&#xff0c;首先考虑在ubuntu的镜像中安装mysql&#xff0c;这样的脚本和数据库都在容器中&#xff0c;直接访问localhost&#xff1a;3306&#xff0c;脚本很简单&#xff0c;如下&#xff1a; import pymysql# 建立数据库连接 db pymysql.…

了解Nest.js

一直做前端开发&#xff0c;都会有成为全栈工程师的想法&#xff0c;而 Nest 就是一个很好的途径&#xff0c;它是 Node 最流行的企业级开发框架&#xff0c;提供了 IOC、AOP、微服务等架构特性。接下来就让我们一起来学习Nest.js Nest.js官网地址 一&#xff0c;了解Nest Cli …

虚拟机怎么额外搭建两个Redis节点,配置多个 Redis 实例

前提条件 在开始之前&#xff0c;请确保你已经具备以下条件&#xff1a; 一台已安装 Redis 的虚拟机。虚拟机上已安装基本的 Linux 工具&#xff08;例如 FinalShell&#xff09;。 步骤二&#xff1a;配置额外的 Redis 实例 接下来&#xff0c;我们将配置两个新的 Redis 实…

Java——可变参数

一、可变参数 1、介绍 Java的可变参数&#xff08;Varargs&#xff09;是一种语法特性&#xff0c;允许一个方法接受不定数量的参数。可变参数的使用通过在参数类型后面添加省略号&#xff08;...&#xff09;实现。这使得方法在调用时可以传入不同数量的参数&#xff0c;而不…

Datakit管理openGauss6.0集群,监控运维超方便

作者&#xff1a;IT邦德 中国DBA联盟(ACDU)成员&#xff0c;10余年DBA工作经验&#xff0c; Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主&#xff0c;全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯及Greenplum备份恢复&#xff0c; 安装迁移&#xff0c;性能优化、故障…

Java开发的构建神器:Maven以及如何安装部署Maven

目录 一、Maven引言1.1 Maven的核心概念✍. POM (Project Object Model)✌. 依赖管理✍. 生命周期与构建阶段✌. 插件系统 1.2 Maven的工作流程✍. 读取POM文件&#xff1a;✌. 依赖解析&#xff1a;✍. 构建生命周期&#xff1a;✌. 插件执行&#xff1a;✍. 构建输出&#xf…