多模态大语言模型的 (R) 演变:调查

目录

  • 1. Introduction
  • 2. 赋予LLMs多模态能力
    • 2.1 大型语言模型
    • 2.2 视觉编码器
    • 2.3 视觉到语言适配器
    • 2.4 多模式训练
  • 3. 使用 MLLM 处理视觉任务

连接文本和视觉模式在生成智能中起着至关重要的作用。因此,受大型语言模型成功的启发,大量研究工作致力于多模态大型语言模型(MLLM)的开发。这些模型可以无缝集成视觉和文本模式作为输入和输出,同时提供基于对话的界面和指令跟踪功能。该论文对最近基于视觉的 MLLM 进行了全面回顾,分析了它们的架构选择、多模态对齐策略和训练技术。论文对这些模型进行了广泛的任务的详细分析,包括视觉基础、图像生成和编辑、视觉理解和特定领域的应用。论文还编译和描述训练数据集和评估基准,在性能和计算要求方面对现有模型进行比较。总的来说,这项调研全面概述了当前的技术水平,为未来的 MLLM 奠定了基础。
在这里插入图片描述

1. Introduction

注意力算子和 Transformer 架构的引入(Vaswani 等人,2017)使得能够创建能够处理越来越大规模的各种模式的模型。这一进步很大程度上归功于算子的多功能性和架构的适应性。最初,这一突破被用于特定于语言的模型(Devlin 等人,2018 年;Brown 等人,2020 年),但很快扩展到支持视觉处理主干(Dosovitskiy 等人,2021 年),并最终用于集成多种模式的模型(Radford 等人,2021)。
复杂的大型语言模型(LLM)的激增,特别是它们的能力情境学习鼓励研究人员扩大这些模型的范围,以涵盖多种模式,包括输入和输出。这种扩展导致了 GPT-4V(Achiam 等人,2023)和 Gemini(Anil 等人,2023)等尖端模型的开发,展示了最先进的性能。多模态大语言模型(MLLM)的开发需要合并视觉和语言的单模态架构,通过视觉到语言适配器在它们之间建立有效的连接,并设计创新的培训方法。这些方法对于确保模态一致性和准确遵循指令的能力至关重要。论文的目标是提供 MLLM 景观的详尽概述,重点关注利用视觉模态的模型。这一概述既是对当前状态的更新,也是未来发展的灵感来源。论文定义这些模型的三个核心方面:它们的架构、训练方法以及它们设计要执行的任务。论文首先详细介绍为LLMs配备跨模式功能的视觉编码器和适配器模块的普遍选择。接下来,论文深入研究训练过程和所使用的数据。然后探讨 MLLM 解决的任务范围。最后讨论了该领域持续存在的挑战以及未来研究的有希望的方向。补充材料中报告了有关训练数据、评估数据集以及性能和计算要求的更多详细信息。

2. 赋予LLMs多模态能力

2.1 大型语言模型

上下文学习,即在提示前添加一些示例来演示LLMs的期望输出,可以改善它的性能,尤其是在看不见的任务上。通过向LLMs提供每个训练样本所需任务的自然语言描述,可以进一步增强泛化能力。这种技术被称为指令调整(Chung et al., 2022;Wang et al., 2022b,a;Jiang et al., 2024),事实证明对于使LLMs的行为与人类的行为保持一致至关重要,目前赋予最先进的LLMs权力,最终通过人类反馈的强化学习(RLHF)得到提升(Ouyang et al., 2022; Achiam et al., 2023; Chen et al., 2023j; Bai et al., 2023a)。
PEFT:当预训练的 LLM 需要适应特定领域或应用时,参数高效微调 (PEFT) 方案是训练整个 LLM 的重要替代方案,因为这些策略仅引入一些新参数。其中,提示调整(Hambardzumyan et al., 2021; Lester et al., 2021; Li and Liang, 2021; Liu et al., 2023j)学习一小组向量,作为输入之前的软提示输入模型文本。不同的是,LoRA(Hu et al., 2021)通过学习低秩矩阵来限制新权重的数量。该技术与 QLoRA (Dettmers et al., 2023) 等量化方法正交,与通常的半精度权重相比,这进一步减少了 LLM 的内存占用,迈向多模态LLM。 MLLM 的发展遵循与 LLM 类似的路径,Flamingo(Alayrac 等人,2022)是第一个在视觉语言领域探索大规模情境学习的人。然后,视觉指令调整(Liu et al., 2023e)很快成为多模态领域最突出的训练范例,以及使用 PEFT 技术来微调 LLM。任何 MLLM 至少包含三个组件(图 1):充当用户界面的 LLM 主干、一个(或多个)视觉编码器以及一个或多个视觉到语言适配器模块。 LLM 主干网络的热门选择通常属于 LLaMA 家族(Touvron 等人,2023a,b),因为它们的权重可以自由访问,它们仅接受公共数据的训练,并且它们拥有不同的大小以适应不同的用例。此外,它们的衍生版本也很受欢迎,例如Alpaca(Taori et al., 2023)和Vicuna(Chiang et al., 2023)。前者根据使用 GPT-3 编写的指令对 LLaMA 进行微调,而后者则利用与 ChatGPT 的用户共享对话(OpenAI,2022)。替代方案包括 OPT (Zhang et al., 2022b)、Magneto (Wang et al., 2023b)、MPT (MosaicML, 2023) 和指令调整 (Chung et al., 2022) 或多语言 (Xue et al., 2023)。 2020)T5 风格(Raffel et al., 2020),一种针对多个任务进行预训练的编码器-解码器语言模型。表 1 报告了本次调查中涵盖的 MLLM 的摘要,指出了每个模型所基于的 LLM、视觉编码器、用于连接视觉和语言组件的适配器、MLLM 是否经过视觉指令调整训练或不,以及主要任务和功能的简短列表。

2.2 视觉编码器

在MLLM中,关键组件之一是视觉编码器,它是专门为LLM提供视觉提取特征而设计的。通常采用冻结的预训练视觉编码器,同时仅训练将视觉特征与底层 LLM 连接起来的可学习界面。最常用的视觉编码器基于预先训练的 Vision Transformer (ViT) 模型,具有基于 CLIP 的目标,以利用 CLIP 嵌入的固有对齐。流行的选择是 CLIP 的 ViT-L 模型(Radford 等人,2021)、OpenCLIP 的 ViT-H 主干网(Wortsman 等人,2022)以及 ViT-g 版本。 CLIP 和 OpenCLIP 编码器根据从网络收集的图像进行训练,采用对比方法来对齐正确的图像文本对。相反,EVA-CLIP 是一个模型系列,为训练 CLIP 模型提供了实用且有效的解决方案。特别是,EVA 模型经过预训练,可以根据可见图像块重建遮蔽的图像文本对齐的视觉特征。如(Li et al., 2023f)所示,更强的图像编码器可以带来更好的性能。基于这一见解,Lin 等人。 (2023b) 和高等人。 (2024)提出了一个冻结视觉主干的集合来捕获鲁棒的视觉表示和不同级别的信息粒度。同时,PaLI 模型(Chen 等人,2023i,g)注意到语言和视觉参数之间的不平衡,建议将视觉主干分别缩放到 4 和 220 亿参数 ViT。通过在训练期间保持视觉编码器冻结的常见做法,可以利用如此庞大而强大的模型,如(Li et al., 2023f; Huang et al., 2023a; Gau et al., 2023; Chen等人,2023f)。然而,采用冻结视觉编码器有一些局限性,主要是由于参数数量有限,导致视觉和语言模态之间的对齐不充分。具体来说,从视觉模型中提取的密集特征可能会使细粒度的图像信息变得碎片化,并且由于输入到语言模型时的序列较长而带来大量的计算量。为了缓解这个问题,其他方法(Ye 等人,2023c,d)采用了两阶段训练范例。在第一阶段,他们整合了可训练的视觉主干,同时保持预训练的LLMs冻结。根据他们的发现,使视觉编码器可训练可以提高视觉问答或视觉描述等任务的性能。然而,它可能会导致其他任务的性能下降,表明一定程度的遗忘和对一般视觉表示的损害。

2.3 视觉到语言适配器

来自不同模态的输入的同时存在强调需要合并一个能够在这些单模态域内描绘潜在对应关系的模块。这些模块被称为“适配器”,旨在促进视觉和文本域之间的互操作性。常见的 MLLM 中使用了一系列不同的适配器,从线性层或 MLP 等基本架构到基于 Transformer 的解决方案等高级方法(以 Q-Former 模型为例),以及添加到 LLM 的条件交叉注意层。
线性和 MLP 投影:将视觉输入投影到文本嵌入的最直接方法涉及学习线性映射,它将视觉特征转换为与文本对应物相同的维度。 LLaMA-Adapter (Gao et al., 2023) 和 FROMAGe (Koh et al., 2023b) 等一些方法仅采用单个线性层来执行多模态连接,而 LLaVA-1.5 (Liu et al., 2023d) 采用两层 MLP,显示出改进的多模态能力。尽管线性投影在早期 MLLM 中被广泛采用,但即使在对视觉输入有更深入理解的最新方法中,线性投影的使用也被证明非常有效(Chen 等人,2023f;Lin 等人,2023a;Wang 等人, 2023c;尤等人,2023;赵等人,2023a)。因此,这是一种简单而有效的技术,可以将视觉特征与文本特征对齐。另一种方法(Cha et al., 2023)提出用卷积层替换线性层,展示了适度的改进。
Q-former:它是 BLIP-2 中提出的基于 Transformer 的模型(Li 等人,2023f),然后用于其他几种方法(Chen 等人,2023d;Dai 等人,2023;Hu 等人,2024)。它的特点是其适应性强的架构,由两个共享相互自我关注层的 Transformer 块组成,促进视觉和文本表示之间的对齐过程。它涉及一组可学习的查询,这些查询在自注意力层中交互,并通过交叉注意力机制与视觉特征交互。文本和视觉元素通过模块内共享的 selfattention 进行通信。从 Q-Former 中汲取灵感,推出了各种修改版本。在这方面,mPLUG-Owl 模型(Ye 等人,2023c,d)简化了 Q-Former 架构,并提出了一种视觉抽象器组件,该组件通过将视觉信息压缩为不同的可学习标记来进行操作,以导出语义上更丰富的视觉表示。同样,Qwen-VL(Bai et al., 2023b)使用单层交叉注意模块和可学习查询来压缩视觉特征,还结合了 2D 位置编码。

额外的交叉注意力层:这种方法已在 Flamingo(Alayrac 等人,2022)中提出,在 LLM 现有的预训练层中集成了密集的交叉注意力块。新添加的层通常与零初始化 tanh 门控机制相结合,以确保在初始化时,条件模型充当其原始版本。使用额外的交叉注意力层需要从头开始训练它们,与其他替代方案相比,增加了可训练参数的数量。为了降低计算复杂性,该策略通常与基于 Perceiver 的组件配对(Jaegle 等人,2021),该组件在将视觉标记输入 LLM 之前减少视觉标记的数量。自推出以来,多个模型(Awadalla 等人,2023;Chen 等人,2023b;Laurençon 等人,2023;Li 等人,2023a)采用这种技术将视觉模态与底层 LLM 连接起来,展示了增强的训练稳定性和性能提高。

2.4 多模式训练

从预训练的LLM开始,MLLM的训练经历单阶段或两阶段过程。在这两种情况下,都使用标准交叉熵损失来预测下一个标记,作为自回归目标。单阶段训练。 LLaMA-Adapter(Gao 等人,2023)探索了这种可能性,它引入了额外的可训练参数来封装视觉知识并同时管理纯文本指令学习。为了实现这一目标,该模型使用图像文本对和指令进行联合训练,对单独的参数进行操作。同时,(Koh et al., 2023b)中提出的模型通过结合图像文本检索的两个对比损失来调整最终的损失函数。在训练期间,仅更新三个线性层。另一方面,Kosmos1(Huang et al., 2023a)考虑了冻结的视觉主干,并从头开始训练 1.3B 参数的语言模型。相反,Flamingo(Alayrac 等人,2022)及其开源变体(Awadalla 等人,2023;Laurençon 等人,2023)训练交叉注意力层和基于感知器的组件,以将视觉特征与冻结的LLM块。此外,Otter(Li et al., 2023a)扩展了 Flamingo 的训练,以增强其在上下文中的能力。
考虑到当前可用的训练数据量,SPHINX-X(Gao 等人,2024)等方法选择执行单个一体化训练阶段,在该阶段更新所有模型组件,也可能使用纯文本数据来更新所有模型组件。
两阶段训练:在两个训练阶段的第一个阶段,目标是将图像特征与文本嵌入空间对齐。在此阶段之后,输出往往是支离破碎且不连贯的。因此,第二步是提高多模态会话能力。 LLaVA(Liu et al., 2023e,d)是最早引入视觉指令跟随训练方案的人之一,该方案作为第二个训练阶段执行,更新多模式适配器和 LLM 的参数。相反,在第一阶段,只有多模式适配器是可训练的。不同的是,MiniGPT4(Zhu et al., 2023a)因仅训练负责跨两个阶段的多模态对齐的线性层而闻名。在第二阶段,它使用在第一阶段之后通过模型本身收集和提炼的过滤数据。另一种方法,如 InstructBLIP(Dai 等人,2023)中所演示的,涉及冻结视觉编码器和 LLM。在两个训练阶段,只有 Q-Former 和连接模块是可训练的。与之前视觉主干保持冻结的方法相比,mPLUG-Owl(Ye et al., 2023c,d)在初始阶段对其进行更新,有助于捕获低级和高级视觉信息。此外,在第二阶段,联合使用纯文本数据和多模态数据来提高对齐度。不同的是,Shikra(Chen et al., 2023f)更新了两个阶段的所有权重,唯一的例外是保持冻结的视觉主干。训练数据。在第一个(或单个)训练阶段,通常采用来自不同来源的图像文本对,使用 LAION-2B(Schuhmann 等人,2022)、LAION400M(Schuhmann 等人,2021)、Conceptual Captions(Sharma)等数据集等人,2018)、COYO-700M(Byeon 等人,2022)和 DataComp(Gadre 等人,2023)。一些方法(Lin 等人,2023a)将这些方法与一个或多个数据集结合使用,这些数据集的特征是文本与通常从网络上抓取的图像交错,例如 WebLI(Chen 等人,2023i)、MMC4(Zhu 等人, 2023d)、MMDialog(Feng 等人,2023b)和 OBELICS(Laurençon 等人,2023)。为了解决先前数据集中的偏差和噪声,StableLLaVA(Li et al., 2023h)引入了新收集的数据以在第一阶段使用。该方法利用 ChatGPT 生成包括图像生成提示和基于内容的对话的数据,并利用稳定扩散(Rombach 等人,2022)生成相应的图像。相反,后续阶段利用数据集进行视觉指令调整。其中,常用的 LLaVA-Instruct (Liu et al., 2023e) 使用 GPT-4 生成的指令扩展了 COCO (Lin et al., 2014)。跟随这一趋势,赵等人 (2023a) 通过合并手动和生成的数据来扩大维度,具有高质量和多样性。此外,还提出了其他多轮对话数据集,例如 (Dai et al., 2023) 中引入的数据集,它将 26 个公开可用的数据集转换为其视觉指令,LRV-Instruction (Liu et al., 2023c) 的目标是通过更强大的指令来减少幻觉,而 LLaVAR(Zhang 等人,2023h)则专注于文本丰富的图像。

3. 使用 MLLM 处理视觉任务

在这里插入图片描述
在这里插入图片描述
结论和未来方向
论文全面概述了 MLLM 的最新发展,首先关注如何为 LLM 配备多模式功能,然后探讨这些模型解决的主要任务。基于所提出的分析,下面概述了重要的开放挑战和有希望的未来研究方向,以进一步增强 MLLM 的能力。
纠正幻觉:多项研究(Liu 等人,2023b;Zhu 等人,2023a)表明 MLLM 往往表现出较高的幻觉率,尤其是在生成较长字幕时。虽然正在出现一些解决方案来缓解这个问题(Liu et al., 2023b; Wang et al., 2023a; Wu et al., 2023c; Yin et al., 2023a),但理解和纠正幻觉的根本原因仍然是一个重要的问题。值得解决的开放挑战,以允许这些模型在更关键的环境(例如医学)中应用并保证其准确性和可信度。
防止有害和偏见的产生:确保大规模模型的安全性和公平性是社区的根本利益。最近的研究表明,基于网络爬虫数据训练的模型很容易生成不适当和有偏见的内容。尽管最近正在努力减少文本到图像生成模型中的这种现象(Schramowski 等人,2023;Friedrich 等人,2023),但需要进一步探索以防止 MLLM 中出现相同的行为(Pi 等人,2023)。 ,2024)。
减少计算负载:MLLM 的计算要求很高。需要有效的策略(Chu et al., 2024)来减少计算需求并实现 MLLM 更容易的开发。可能的方向包括减少模型规模和数据量方面的训练要求以及优化推理阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/472909.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Jmeter接口测试步骤

一、使用工具测试 1、使用Jmeter对接口测试 首先我们说一下为什么用Posman测试后我们还要用Jmeter做接口测试,在用posman测试时候会发现的是一个接口一个接口的测试,我们每次测试成功后的数据,在工具中是无法保存的,再次测试的时…

STM32CubeMX学习笔记23---FreeRTOS(任务的挂起与恢复)

1、硬件设置 本实验通过freertos创建两个任务来分别控制LED2和LED3的亮灭,需要用到的硬件资源 LED2和LED3指示灯串口 2、STM32CubeMX设置 根据上一章的步骤创建两个任务:STM32CubeMX学习笔记22---FreeRTOS(任务创建和删除)-CS…

递归方法解决树的遍历问题

二叉树的最大深度 描述:给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 递归法(自顶向下) 通过递归法,左右子树同时向下递归遍历,直到遍…

大数据开发--02.环境准备

一.准备三台linux虚拟机 1.分别取名node1,node2,node3 2.配置静态ip 这里以node1为例,配置静态ip地址,其他node2.node3一样 配置完成之后别忘记 systemctl restart network 3.在各自的/etc/hosts文件中编辑三个Ip地址 三台都要配置, 4.然…

【百度灵境矩阵实训营】操作指南

【百度灵境矩阵实训营】操作指南 写在最前面提交注意事项比赛参与指南1、创建智能体作品要求 2、提交作品 学习资料包 🌈你好呀!我是 是Yu欸 🌌 2024每日百字篆刻时光,感谢你的陪伴与支持 ~ 🚀 欢迎一起踏上探险之旅&…

Java SE入门及基础(44)

目录 I / O流(上) 1. 什么是I / O流 过程分析 I / O的来源 Java 中的 I / O流 2. 字节流 OutputStream 常用方法 文件输出流 FileOutputStream 构造方法 示例 InputStream 常用方法 文件输入流 FileInputStream 构造方法 示例 综合练习 字节流应用场景 Java SE文…

LC串联谐振拓扑仿真建模及控制策略分析

直流高压电源主要应用于高端精密分析仪器、高端医疗分析仪器、静电应用、激光雷达、核探测、惯性导航、雷达通信、电子对抗、高功率脉冲、等离子体推进等行业领域。 LC串联谐振拓扑是直流高压电源中最为常用的拓扑结构。上一期内容中我们对 LC 串联谐振变换器的工作原理进行了…

Pytest单元测试框架 —— Pytest+Allure+Jenkins的应用

一、简介 pytestallurejenkins进行接口测试、生成测试报告、结合jenkins进行集成。 pytest是python的一种单元测试框架,与python自带的unittest测试框架类似,但是比unittest框架使用起来更简洁,效率更高 allure-pytest是python的一个第三方…

看似封装,其实不止于封装?

本文介绍的也不只是封装,包含零零散散的知识点。其中,主要介绍封装、包和访问限定符、static、代码块等 提示:使用PC端观看,效果更佳! 目录 一、封装 1.为什么要封装 2.怎么封装 3.怎么访问被封装的数据 4.封装…

必知必会干货!Python正则表达式常用函数

1.正则表达式 正则表达式:是一个特殊的字符序列,计算机科学的一个概念,主要用来检索/替换哪些符合某个模式的文本 在python中使用正则表达式,主要是借助re模块来实现 ​特点 灵活性/功能性/逻辑性非常强 可以使用极其简单的方法…

【NTN 卫星通信】 车辆物联网设备通过NTN和TN切换的应用场景

1 场景描述 对于有两个3GPP无线接入网服务的大面积农田和农场,物联网设备可以通过NTN和TN接入网同时受益于5G系统的双转向数据连接能力。   在这个用例中,我们有一个广域的农业自动化应用系统来控制农业车辆,例如,一个装有数百个…

二分查找算法(1)

算法介绍 二分查找适用范围不止是有序数组,很多有“二段性”的数组其实都可以使用二分查找,什么是“二段性”呢?在数组中,我们查到某个数不符合条件后,就可以排除它之前或之后的所有数据,这种性质就叫做“…

【Linux】盘点广义层面上【三种最基本的进程状态】

前言 大家好吖,欢迎来到 YY 滴 Linux系列 ,热烈欢迎! 本章主要内容面向接触过Linux的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY的…

119.设计链表(力扣)

代码解决 class MyLinkedList { public:// 定义链表节点结构体struct LinkedNode {int val;LinkedNode* next;LinkedNode(int val):val(val), next(nullptr){}};MyLinkedList() {dummyhead new LinkedNode(0);size0;}int get(int index) {if (index > (size - 1) || index…

分布式文件存储与数据缓存(二)| Redis

目录 Redis概述_什么是NoSQLNoSQL的四大分类KV型NoSql(代表----Redis)列式NoSql(代表----HBase)文档型NoSql(代表----MongoDB)搜索型NoSql(代表----ElasticSearch) 关系型数据库和非…

刷力扣看见一个寻找单身狗的问题?【力扣题解】

今天刷力扣遇到一道有意思的题目,题目是写着撞色问题177 ,当我写完这个题去看看有什么好的解题方式的时候,看见一个有趣的题解问题,他对这个题目的描述是几对情侣,带几个单身狗出去玩,然后现在我们要把这几…

使用Laravel开发项目

如何使用Laravel框架开发项目 一、安装Laravel框架 1.在安装Laravel框架钱我们需要先查看要安装的Laravel框架版本以及版本所需要的安装运行条件。 2.配置好安装环境后再安装Laravel框架 2.1.配置安装环境 1)PHP版本 2)PHP OpenSSL扩展 3&#xff…

详解隐私计算框架及技术要点

隐语架构一览 为什么这样分层? 完备性透明性开放性 隐语架构解析 产品层 算法层 隐语PSI特点 PIR Data Analysis SCQL 核心特性 联邦学习 特色 计算层 SPU 核心 HEU 同态加密设备 TEEU 密码原语 资源层 kuscia 互联互通 跨域管控 最后

软件工程-第三版王立福-第1章 绪论

本书结合IEEE最新发布的软件工程体系SWEBOK,和IEEE/ACM软件工程学科小组公布的软件工程教育知识体系SEEK,北大本科生指定教材。注重基础知识的系统性,选材的先进性及知识的应用。2009年出版 软件开发本质的认识,两大技术问题&…

计算机缺失xapofx1_5.dll如何修复?分享多种修复方法轻松搞定

在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是xapofx1_5.dll丢失。丢失xapofx1_5.dll文件对电脑系统及运行程序的影响是多方面的,某些依赖于xapofx1_5.dll文件的特定软件或应用程序可能无法启动或运行过程中出现崩溃现象&…