多模态LLM 跨越语言与视觉的边界

一、引言

在数字时代的浪潮中,我们被由语言和视觉等多种模态构成的信息海洋所包围。人类大脑以其卓越的多模态上下文理解能力,在日常任务中游刃有余。然而,在人工智能领域,如何将这种能力赋予机器,尤其是如何在语言模型的成功基础上扩展到视觉领域,成为了当前研究的热点和难点。
在这里插入图片描述

二、多模态上下文理解的局限性

在语言模型领域,GPT系列的崛起无疑为我们带来了诸多启示。这些模型通过大量的文本数据训练,不仅能够在上下文中解决各种语言任务,更能在推理阶段,通过提供几个例子,就完成未见过的任务。这种能力让我们不禁思考:如果图像也能“说话”,如果机器能够理解图像的“语言”,那么视觉领域的未来将如何被改写?

自然而然就有了“图像说图像的语言”的观点,将图像作为接口,统一了各种视觉任务。通过给定几个例子,模型能够较好地完成其他视觉任务,如图像分割等。然而,正如王鑫龙所指出的,当前基于纯图像的上下文学习仍存在着局限性。首先,现有的数据集无法完全涵盖视觉任务的多样性。在真实世界中,视觉信息千变万化,而数据集往往只能涵盖其中的一部分。这使得模型在面对未知任务时,难以做出准确的判断。其次,与语言相比,图像中的上下文关系较为模糊。语言中的词语和句子有着明确的语法和语义结构,而图像中的元素则往往缺乏这种明确的关联。这使得模型在理解图像时,需要付出更多的努力。
在这里插入图片描述

三、多模态训练的探索

为了克服这些局限性,尝试自回归地在多模态序列中预测“下一个”Token,无论是图像中的下一个Patch,视频中的下一帧,还是文本中的下一个词例token。这种统一的生成式多模态训练方式,不仅提高了模型的泛化能力,还使得模型能够更好地理解多模态上下文之间的关系。

然而,生成式多模态模型研究目前仍面临着三个最关键的问题:数据、编码器以及预训练

  • 在数据方面,我们需要探讨什么样的数据能够满足下一代多模态任务的需求。这不仅要关注数据的形式,还要关注数据的内容。
  • 在编码器方面,我们需要了解哪些编码方式能够满足生成、理解以及统一多模态任务的需求。这包括分词器和语义编码器在内的各种编码方式。
  • 在预训练方面,我们需要找到一种能够同时利用多模态数据的方法,使得模型能够在训练过程中学习到更多的知识和信息。

试想一下人类观看视频时,我们接受的是交错的视觉和文本数据,这些数据之间具有优秀的上下文相关性。受此启发,智源团队使用交错的文本-视频数据(interleaved data)。通过将描述性视频中的文字与视觉图片对应起来,并在时间戳上对齐二者。这种方法不仅提高了模型对多模态数据的理解能力,还使得模型能够更好地学习到多模态数据之间的关联关系。
在这里插入图片描述

为了保证数据质量,智源团队使用了CapsFusion技术。这项技术利用大模型按照指令有机地整合原始描述和合成描述,从结构有缺陷的原始描述中提取世界知识,同时与结构化但句法简化的合成字幕合并。通过这种方式,智源团队创建了一个全面而精细的「图像-文本」数据集CapsFusion-120M。这个数据集不仅包含了大量的图像和文本数据,还通过精细的对齐和标注,使得模型能够更好地学习到多模态数据之间的关联关系。
在这里插入图片描述

在编码器方面,要考虑编码器能达到什么规模、是否可以不使用编码器以及编码器是否可以是稀疏的等问题。受到Segment Anything项目的启发,智源团队尝试稀疏且支持提示(prompting)的分词器。分词器可以根据需要对图像进行分词,实现按需输出。此外,还用patch作为视觉单元的可行性,并发现去掉编码器在某些情况下可能带来新的思路。然而,这种方法也存在训练不稳定、性能较差等问题。

四、多模态模型的挑战

在构建统一多模态模型时,我们仍然会遇到“不可能三角”的挑战:紧凑-无损-离散,三者无法同时满足。

  • 紧凑性意味着用较少的token来表达图像或视频;
  • 无损性意味着能够完美重建图像或视频;
  • 离散性则意味着使用离散的token表示。

目前我们只能同时满足其中的两个,实现所有三个目标仍然有技术瓶颈。这需要我们在未来的研究中继续探索和创新。总的来说,多模态上下文理解是一个充满挑战和机遇的研究方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/717873.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmoneyOS星河版 安装和启动

一、下载和安装DevEco Studio 官网链接:OpenAtom OpenHarmony 1.1 找到对应的操作系统进行下载 创建安装Harmony的文件夹: 1.2 下载后进行安装 1.3 分别安装Node、Ohpm、SDK 分别安装Node、Ohpm和SDK 二、.创建一个新项目并运行 2.1 选择[OpenHarmon…

复旦发布开源版本的EMO,只需输入一段音频和一张照片就可以让人物开始说话。

之前和大家介绍过阿里的EMO,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频。最长时间可达1分30秒左右。感兴趣的小伙伴可以点击下面链接阅读。 近日,复旦发布了一个开源版本的 EMO。 通过输入音频让面部照片开始…

【MySQL基础随缘更系列】AB复制

文章目录 mysql AB复制实战一、mysql AB复制二、AB复制原理三、master服务器设置3.1、安装mysql并启动3.2、关闭防火墙,selinux3.3、设置时间服务器3.4、修改配置文件 设置server-idN3.5、创建slave连接master的账号,用于取SQL语句 四、slave设置4.3、修改配置文件 …

数据可视化在智慧水利中的关键应用

数据可视化是如何在智慧水利中应用的?在现代水利管理中,面对复杂的水资源数据和动态变化的水文情况,数据可视化技术通过将繁杂的数据转化为直观、易理解的图表和图形,极大地提升了水利管理的效率和决策的科学性。智慧水利利用数据…

植物ATAC-seq文献集锦(四)——生物和非生物胁迫篇

ATAC-seq在植物研究领域的应用我们已经介绍3期了,最后一期我们聚焦ATAC-seq技术在生物和非生物胁迫方向的应用案例。 植物ATAC-seq文献集锦(一)——基因组篇 植物ATAC-seq文献集锦(二)——生长发育篇 植物ATAC-s…

自动采集软件||自动采集主流电商商品详情SKU数据价格功能实现||电商API接口的应用

实现自动化淘宝商品数据采集的方法有多种,一种常见的方式是利用网络 Python 技术。您可以编写一个网络 Python程序,通过模拟浏览器发送请求,获取淘宝商品页面的数据,并对数据进行解析和提取,最终存储到数据库或文件中。…

Android Compose 文本输入框TextField使用详解

一、 TextField介绍 TextField 允许用户输入和修改文本,也就是文本输入框。 TextField 分为三种: TextField是默认样式OutlinedTextField 是轮廓样式版本BasicTextField 允许用户通过硬件或软件键盘修改文本,但不提供提示或占位符等装饰&a…

车企高管组团“出道”,汽车营销已经Next level了?

汽车进入了“卷”老板、“卷”高管的时代! 谁能想到,雷军凭一己之力,在一定程度上重塑了汽车的竞争策略。价格战之外,车市又开启了流量之战。 云略曾在《雷军20天吸粉500w!……》一文中,提到继雷军之后&…

【问题记录】Ubuntu提示: “E: 软件包 gcc 没有可安装候选“

Ubuntu提示: "E: 软件包 gcc 没有可安装候选" 一,问题现象二,问题原因&解决方法 一,问题现象 在虚拟机Ubuntu中进行安装gcc命令时报错:“E: 软件包 gcc 没有可安装候选”: 二,问题原因&解决方法 …

树莓派 Thonny使用

在python中新建了虚拟环境,需要Thonny使用虚拟环境,在python executable中选中虚拟环境路径下的python3即可

银河麒麟4.0.2安装带有opengl的Qt5.12.9

银河麒麟4.0.2下载地址:银河麒麟-银河麒麟(云桌面系统)-银河麒麟最新版下载v4.0.2-92下载站 VirtualBox:https://www.virtualbox.org/wiki/Downloads qt下载:Index of /archive/qt/5.12/5.12.9 1安装VirtualBox:网上教材比较多 1)安装完后安…

苹果的后来者居上策略:靠隐私保护打脸微软

01.苹果与微软相比更注重用户隐私 我一直是Windows的忠实用户,但微软疯狂地将人工智能融入一切,让我开始觉得应该咬咬牙换成Mac。 自小我几乎只用Windows电脑,所以我对MacOS一直不太适应。虽然Windows 11有其缺点,但总的来说&am…

车载ADAS面试题,零基础也能看得懂!

周一来刷刷ADAS相关的面试题吧!相信看完这些题目,你会对ADAS有个更清晰的认识,即使你是零基础也可以轻松明白! 1、描述 ADAS 系统的基本组成和功能 答案:高级驾驶辅助系统(ADAS)是一套融合了多种…

如何通过Appium连接真机调试

1、打开appium,点击启动appium服务器(如图1) 2、appium启动成功后,点击放大镜启动检查会话(如图2) 3、填写真机设备信息和APP的package、activity,点击启动会话(如图3) 4、打开运行A…

过拟合与正则化

Location Beijing 过拟合 对于一个模型 A A A,解向量空间为 θ \theta θ,误差函数用式1表示 J ( θ ) J a c c [ y θ ( x ) − y ] 2 (1) J(\theta)J_{acc}[y_\theta(x)-y]^2\tag{1} J(θ)Jacc​[yθ​(x)−y]2(1) 首先我们考虑用模型 A A A拟合下…

整合第三方技术-整合JUnit

黑马程序员Spring Boot2 文章目录 名称:SpringBootTest类型:测试类注解位置:测试类定义上方作用:设置JUnit加载的SpringBoot启动类范例:

算法题解记录29+++全排列(百日筑基)

一、题目描述 题目难度:中等 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1: 输入:nums [1,2,3] 输出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 示…

JavaScript常见面试题(二)

文章目录 1.new操作符的实现原理2.map和Object的区别3.JavaScript脚本延迟加载的方式有哪些?4.JavaScript 类数组对象的定义?(伪数组)5. 数组有哪些原生方法?6.为什么函数的 arguments 参数是类数组而不是数组&#xf…

成都跃享未来教育咨询解锁新篇章

在快节奏的现代社会中,每个人都在追求着属于自己的非凡人生。而成都跃享未来教育咨询,正是那个能够智慧引领你走向成功、成就非凡人生的灯塔。 跃享未来教育咨询,位于历史悠久的文化名城成都,这里不仅有丰富的文化底蕴&#xff0c…

【C++进阶学习】第二弹——继承(下)——挖掘继承深处的奥秘

继承(上):【C进阶学习】第一弹——继承(上)——探索代码复用的乐趣-CSDN博客 前言: 在前面我们已经讲了继承的基础知识,让大家了解了一下继承是什么,但那些都不是重点,今…