多模态大模型综述整理

论文:MM-LLMs: Recent Advances in MultiModal Large Language Models

论文地址: https://arxiv.org/pdf/2401.13601.pdf

表1:26种主流多模态大型语言模型(MM-LLMs)概要

输入到输出模态(I→O)
  • I:图像
  • V:视频
  • A:音频
  • 3D:点云
  • T:文本
模态编码器
  • -L 代表大型
  • -G 代表超大型
  • /14 表示14的补丁大小
  • @224 表示图像分辨率为224×224
数据集规模
  • #.PT 表示多模态预训练(MM PT)期间的数据集规模
  • #.IT 表示多模态微调(MM IT)期间的数据集规模
其他信息
  •  包括不对外公开的内部数据。

表2:在18个视觉语言基准上主流多模态-大型语言模型(MM-LLMs)的比较

红色表示最高结果,蓝色表示第二高的结果。‡ 表示ShareGPT4V(Chen et al., 2023e)的重新实施测试结果,这些结果在基准测试或原始论文中遗漏。∗表示数据集的训练图像在训练期间被观察到。

(1)Flamingo(Alayrac等人,2022年)代表了一系列视觉语言(VL)模型,这些模型被设计用于处理交错的视觉数据和文本,并生成自由形式的文本作为输出。

(2)BLIP-2(Li等人,2023c)引入了一个更加资源高效的框架,包括轻量级的Q-Former来弥合模态差距,以及利用固定的大型语言模型(LLMs)。通过利用LLMs,BLIP-2可以被引导进行零样本图像到文本的生成,使用自然语言提示。

(3)LLaVA(Liu等人,2023e)率先将图像转换(IT)技术转移到多模态(MM)领域。为了解决数据稀缺问题,LLaVA引入了一个使用ChatGPT/GPT-4创建的新颖的开源多模态指令遵循数据集,以及多模态指令遵循基准LLaVA-Bench。

(4)MiniGPT-4(Zhu等人,2023a)提出了一种简化的方法,其中只训练一个线性层即可将预训练的视觉编码器与LLM对齐。这种高效的方法使得复制GPT-4所展示的能力成为可能。

(5)mPLUG-Owl(Ye等人,2023)提出了一个新颖的多模态大型语言模型(MM-LLMs)的模块化训练框架,融入了视觉上下文。为了评估不同模型在多模态任务中的性能,该框架包括了一个名为OwlEval的指令评估数据集。

(6)X-LLM(Chen等人,2023b)扩展到了包括音频在内的各种模态,并展示了强大的可扩展性。利用Q-Former的语言转移能力,X-LLM在汉藏语系中文的背景下成功应用。

(7)VideoChat(Li等人,2023d)率先提出了一个高效的以聊天为中心的多模态大型语言模型(MM-LLM),用于视频理解对话,为该领域的未来研究树立了标准,并为学术界和工业界提供了协议。

(8)InstructBLIP(Dai等人,2023)基于预训练的BLIP-2模型进行训练,在多模态微调(MM IT)期间只更新Q-Former。通过引入指令感知的视觉特征提取和相应的指令,该模型能够提取灵活多样的特征。

(9)PandaGPT(Su等人,2023)是一个先驱性的通用模型,具有理解和执行6种不同模态指令的能力:文本、图像/视频、音频、热感、深度和惯性测量单元。

(10)PaLIX(Chen等人,2023g)通过混合视觉语言目标和单模态目标(包括前缀完成和遮蔽标记完成)进行训练。这种方法对于下游任务结果和在微调设置中达到帕累托最前沿被证明是有效的。

(11)Video-LLaMA(Zhang等人,2023e)引入了一个多分支的跨模态预训练(PT)框架,使得大型语言模型(LLMs)能够同时处理给定视频的视觉和音频内容,同时与人类进行对话。该框架将视觉与语言以及音频与语言对齐。

(12)Video-ChatGPT(Maaz等人,2023)是一个专为视频对话设计的模型,能够通过整合时空视觉表示来生成关于视频的讨论。

(13) Shikra (Chen et al., 2023d)介绍了一个简单且统一的预训练多模态-大型语言模型(MM-LLM),专为参考对话任务设计,该任务涉及讨论图片中的区域和对象。这个模型展现了值得称赞的泛化能力,有效地处理未见过的设置。

(14) DLP (Jian et al., 2023)提出了P-Former来预测理想的提示符,它在单模态句子的数据集上进行训练。这展示了单模态训练提升多模态学习的可行性。

(15) BuboGPT (Zhao et al., 2023d)是一个通过学习共享的语义空间来构建的模型,用于全面理解多模态内容。它探索了图像、文本和音频等不同模态之间的细粒度关系。

(16) ChatSpot (Zhao et al., 2023b)介绍了一种简单而有效的方法,用于精细调整多模态-大型语言模型(MM-LLM)的精确指引指令,促进细粒度互动。精确指引指令的加入,包括图像和区域级别的指令,增强了多粒度视觉语言(VL)任务描述的整合。

(17) Qwen-VL (Bai et al., 2023b)是一个支持英语和中文的多语言多模态-大型语言模型(MM-LLM)。Qwen-VL在训练阶段还允许输入多个图像,提高了对视觉上下文的理解能力。

(18) NExT-GPT (Wu et al., 2023d)是一个端到端的、通用的任意到任意多模态-大型语言模型(MM-LLM),支持图像、视频、音频和文本的自由输入和输出。它采用了轻量级的对齐策略,在编码阶段利用大型语言模型中心的对齐,在解码阶段利用遵循指令的对齐。

(19) MiniGPT-5 (Zheng et al., 2023b)是一个与生成性vokens的反转集成,并且与稳定扩散集成的多模态-大型语言模型(MM-LLM)。它擅长执行交错的视觉语言(VL)输出,用于多模态生成。在训练阶段加入无分类器指导,提高了生成的质量。

现有多模态-大型语言模型(MM-LLMs)的趋势

(1) 从专注于多模态理解到生成特定模态的演进

并进一步发展成任意到任意模态转换(例如,MiniGPT-4 → MiniGPT-5 → NExT-GPT);

(2) 从多模态预训练(MM PT)到特定任务微调(SFT)再到强化学习人类反馈(RLHF)

训练流程持续精细化,努力更好地与人类意图对齐,并增强模型的对话交互能力(例如,BLIP-2 → InstructBLIP → DRESS);

(3) 拥抱多样化的模态扩展

(例如,BLIP-2 → X-LLM 和 InstructBLIP → X-InstructBLIP);

(4) 吸纳更高质量的训练数据集

(例如,LLaVA → LLaVA1.5);

(5) 采用更高效的模型架构

从BLIP-2和DLP中复杂的Q-和P-Former输入投影模块过渡到VILA中简单而有效的线性投影器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/358236.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[React源码解析] Fiber (二)

在React15及以前, Reconciler采用递归的方式创建虚拟Dom, 但是递归过程不可以中断, 如果组件的层级比较深的话, 递归会占用线程很多时间, 那么会造成卡顿。 为了解决这个问题, React16将递归的无法中断的更新重构为异步的可中断更新, Fiber架构诞生。 文章目录 1.Fiber的结构2…

MySQL前百分之N问题--percent_rank()函数

PERCENT_RANK()函数 PERCENT_RANK()函数用于将每行按照(rank - 1) / (rows - 1)进行计算,用以求MySQL中前百分之N问题。其中,rank为RANK()函数产生的序号,rows为当前窗口的记录总行数 PERCENT_RANK()函数返回介于 0 和 1 之间的小数值 selectstudent_…

Ubuntu22.04 网络图标突然消失

本来好好的,突然就发现没有网络了,图标也不见了。 特别是Ubuntu虚拟机,容易出现此问题。 修复办法 1. sudo service network-manager stop2. sudo rm /var/lib/NetworkManager/NetworkManager.state3. sudo service network-manager start到…

通过Nacos权重配置,模拟微服务金丝雀发布效果(不停机部署)

在微服务项目迭代的过程中,不可避免需要上线;上线对应着部署,或者升级部署;部署对应着修改,修改则意味着风险。 传统的部署都需要先停止旧系统,然后部署新系统,之后需要对新系统进行全面的功能测试&#xf…

腾讯云SDK并发调用优化方案

目录 一、概述 二、 网关的使用 2.1 核心代码 三、腾讯云SDK依赖包的改造 一、概述 此网关主要用于协调腾讯云SDK调用的QPS消耗,使得多个腾讯云用户资源能得到最大限度的利用。避免直接使用腾讯云SDK 时,在较大并发情况下导致接口调用异常。网关的工…

AtCoder Beginner Contest 338 A~F

A.Capitalized?(模拟) 题意: 给一个字符串 s s s,询问 s s s的第一个字母是不是大写,并且其他字母都是小写。 分析: 使用 A S C I I ASCII ASCII码,单独判断第一个字母,循环判断…

三步万能公式解决软件各种打不开异常

程序员都知道,辛苦做的软件发给客户打不开那是一个大写的尴尬,尴尬归尴尬还是要想办法解决问题. 第一步清理环境. 目标机台有环境和没有运行环境的,统统把vs环境卸载了,让目标机台缺少环境.第二步打包环境 源代码添加打包工程,setup,重新编译.![添加setup ](https://img-blo…

vue3项目中让echarts适应div的大小变化,跟随div的大小改变图表大小

目录如下 我的项目环境如下利用element-resize-detector插件监听元素大小变化element-resize-detector插件的用法完整代码如下:结果如下 在做项目的时候,经常会使用到echarts,特别是在做一些大屏项目的时候。有时候我们是需要根据div的大小改…

一文说清楚仿真与数字孪生的关系

获取更多资讯,赶快关注上面的公众号吧! 文章目录 何为仿真何为数字孪生 最近看群里的小伙伴在疯狂讨论数字孪生,今天我也谈谈自己的理解。 之前还在北航读博的时候,北航陶飞教授已经算是数字孪生领域的领军人物,也专门…

【C++】2024.01.29 克隆机

题目描述 有一台神奇的克隆机,可以克隆任何东西。将样品放进克隆机,可以克隆出一份一样的“复制品”。小明得到了 k 种珍贵的植物种子,依次用 A,B,C,D,...,Z 表示(1≤k≤26)。一开始,每种植物种子只有…

PyFlink使用教程,Flink,Python,Java

环境准备 环境要求 Java 11 Python 3.7, 3.8, 3.9 or 3.10文档:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/python/installation/ 打开 Anaconda3 Prompt > java -version java version "11.0.22" 2024-01-16 LTS J…

信息安全考证攻略

🔥在信息安全领域,拥有相关的证书不仅能提升自己的专业技能,更能为职业生涯增添不少光彩。下面为大家盘点了一些国内外实用的信息安全证书,让你一睹为快! 🌟国内证书(认证机构:中国信…

网工,这才是跳纤的正确姿势!

晚上好,我的网工朋友。 当你们看到下面这张图,内心是什么感想? 这时你是不是巴不得把所有线全部拔了,来重新整一遍哈哈哈哈。那话说到这,到底该如何跳纤呢?有没有什么秘诀呢?遵循什么原则&#…

GLOBALCHIP GC3909Pin to Pin兼容A3909/allegro电机驱动芯片产品参数分析,应用于摇头机,舞台灯,打印机,白色家电等

GLOBALCHIP GC3909 12V H 桥驱动器芯片替代A3909/Allegro产品概述: GC3909是一款双通道12V直流电机驱动芯片,为摄像机、消费类产品、玩具和其他低压或者电池供电的运动控制类应用提供了集成的电机驱动解决方案。芯片一般用来驱动两个直流电机或者驱动一个步进电机。…

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之DataPanel组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之DataPanel组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、DataPanel组件 数据面板组件,用于将多个数据占比情况使用占比图进…

网络安全全栈培训笔记(59-服务攻防-中间件安全CVE复现lSApacheTomcataNginx)

第59天 服务攻防-中间件安全&CVE复现&lS&Apache&Tomcata&Nginx 知识点: 中间件及框架列表: lIS,Apache,Nginx,Tomcat,Docker,Weblogic,JBoos,WebSphere,Jenkins, GlassFish,Jira,Struts2,Laravel,Solr,Shiro,Thinkphp,Sprng,Flask,…

Linux实验记录:使用iptables

前言: 本文是一篇关于Linux系统初学者的实验记录。 参考书籍:《Linux就该这么学》 实验环境: VmwareWorkStation 17——虚拟机软件 RedHatEnterpriseLinux[RHEL]8——红帽操作系统 备注: 防火墙作为公网与内网的屏障&#…

【linux】磁盘空间不足-常用排查和处理命令

【linux】磁盘空间不足-常用排查和处理命令 1.通查一下 df -h #查看服务器磁盘空间情况 du -hs * 2>/dev/null #列出各目录所占空间大小 或 du -h -d 1 2>/dev/null #列出各目录所占空间大小 1.1情况一 df 磁盘空间和du 目录空间占用相等&#xff0c…

C++中 this指针、构造函数、析构函数

1.this指针 我们定义一个日期类来举例子 对于上述类,有这样一个问题,Date类中有Init和Print这两个成员函数,函数体中没有关于不同对象的区分,那d1调用函数的时候,编译器是如和来确定d1而不是d2呢?C通过引入…

Linux线程安全

Linux线程安全 Linux线程互斥进程线程间的互斥相关背景概念互斥量mutex互斥量的接口 可重入VS线程安全常见锁概念死锁的四个必要条件 Linux线程同步条件变量 Linux线程互斥 进程线程间的互斥相关背景概念 临界资源和临界区 进程之间如果要进行通信我们需要先创建第三方资源&a…