多模态大模型通用模式

MM-LLMs(多模态大模型)是目前比较新的和实用价值越发显著的方向。其指的是基于LLM的模型,具有接收、推理和输出多模态信息的能力。这里主要指图文的多模态。

代表模型:GPT-4o、Gemini-1.5-Pro、GPT-4v、Qwen-VL、CogVLM2、GLM4V、InternVL-Chat-V1.5、MiniCPM-Llama3-V2.5
在这里插入图片描述

1.模型结构

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

主要由编码器、连接器、LLM组成:

编码器 Modality Encoder (ME):编码器是处理输入数据的组件,它可以接收多种模态的输入,如图像、音频或视频。编码器的任务是将这些原始的多模态数据转换成模型可以理解的特征表示。
连接器:连接器是连接编码器输出和大型语言模型(LLM)的桥梁。它的主要作用是将编码器输出的特征进一步处理,使其能够与LLM的输入格式兼容,从而让LLM能够更好地理解这些特征。
LLM:LLM是MLLM的核心,通常是一个预训练的语言模型,负责处理和生成文本。它能够根据输入的文本和其他模态的特征,进行语言理解、生成或推理等任务。
生成器:是可选的。可以附加到LLM上,用于生成除文本之外的其他模态输出,如图像、音频或视频。

(1)模态编码器

通常使用预训练的编码器。常见的有CLIP、EVA-CLIP、EVA2-CLIP-E、InternViT-6B、VILT。

优化要点:更高的分辨率能带来更高的性能提升。

一文看完多模态:从视觉表征到多模态大模型 - 菜人卷的文章 - 知乎
https://zhuanlan.zhihu.com/p/684472814

(2)连接器

该模块用于对齐不同模态和LLM的文本模态。

The Input Projector is tasked with aligning the encoded features of other modalities with the text feature space .
https://arxiv.org/html/2401.13601v5

最主要的方法是在预训练的视觉编码器和LLM之间引入一个可学习的连接器,将信息投影到LLM可以高效理解的空间中。
可学习的连接器的分类
①基于投影的连接器(Projection-based):这种连接器将编码器输出的特征投影到与LLM的词嵌入相同的维度空间,使得特征可以直接与文本令牌一起被LLM处理。如MLP。 (令牌级)
②基于查询的连接器(Query-based):这种连接器使用一组可学习的查询令牌来动态地从编码器输出的特征中提取信息。如Q-Former。 (令牌级)
③基于融合的连接器(Fusion-based):这种连接器在LLM内部实现特征级别的融合,允许文本特征和视觉特征在模型内部进行更深入的交互和整合。如Cross-attention。 (特征级)

其次可以使用专家模型,直接将图像描述语言作为文本发送给LLM。基本思想是在不训练的情况下将多模态输入转换为语言。通过这种方式,大型语言模型(LLMs)可以通过转换后的语言理解多模态性。

(3)LLM

预训练的LLM,如QwenLM、Yi-34B、Llama-3-8B-Instruct。

优化要点:更大的参数量能带来更高的性能提升;专家混合(MoE)架构较优。

2.训练流程

和语言模型一样,都要经过预训练和监督微调两个阶段。下图为Qwen-VL的训练流程。
在这里插入图片描述

(1) MM PT 多模态预训练

预训练阶段通常涉及大规模图文Pair对数据,例如字幕数据。通过优化预定义的目标函数来训练连接器,以实现各种模态之间的对齐。冻结LLM的参数。

例如可以给定一张图像,模型被训练以自回归方式预测图像的字幕,使用标准的交叉熵损失。

语料类型:图文对(<img1><txt1>);图文交错语料(<txt1><img1><txt2><txt3><img2><txt4>)。

在这里插入图片描述
对于简短和嘈杂的字幕数据,可以采用较低分辨率(例如224)以加快训练过程,而对于更长和更清洁的数据,最好使用更高的分辨率(例如448或更高)以减少幻觉。

(2)MM IT 指令微调

指令微调旨在教模型更好地理解用户的指令并完成所需的任务。通过这种方式微调,LLM可以通过遵循新指令来泛化到未见过的任务,从而提升零样本性能。

MM IT包括监督微调(SFT)和基于人类反馈的强化学习(RLHF),旨在与人类意图对齐并增强MM-LLMs的交互能力。

①SFT

样本格式:包括一个可选的指令和一个输入输出对。
在这里插入图片描述
模型被预测响应的下一个标记,训练目标通常是用于训练LLM的原始自回归目标,使用交叉熵损失函数。

数据集:LLaVA-Instruct-150k。

数据质量的评价维度:提示多样性;任务覆盖。

②RLHF

人类偏好对齐。利用强化学习算法使LLM与人类偏好对齐,训练环节中以人类注释作为监督。

流程:监督微调;奖励建模;强化学习。

方法:PPO;DPO。
跟语言大模型一样,具体可以看对应的论文。

3.模型评估

MM LLM 评估可以根据问题类型大致分为两类:封闭集和开放集。
评估可以看这个:https://github.com/open-compass/VLMEvalKit/blob/main/README_zh-CN.md#data-model-results

(1)封闭集

封闭集问题指的是一种可能答案选项是预定义且有限的问题类型。评估通常在任务特定的数据集上进行。
也就是选择题。

在这里插入图片描述

数据集:ScienceQA、MMBench、RealWorldQA。

(2)开放集

与封闭集问题相比,开放集问题的回答更灵活。
因此评测可以分为人工评测、GPT评分和案例研究。

①人工评测

人类评估可以从多个方面对微调后的模型进行评估,例如:

  • 相关性:评估模型的响应是否与给定的指令相关。
  • 连贯性:评估生成的文本在逻辑上一致且结构良好。
  • 流利性:评估生成的响应是否自然并且正确遵循语法规则。

数据集:https://github.com/X-PLUG/mPLUG-Owl/blob/main/mPLUG-Owl/OwlEval/OwlEval.md

②GPT评分

使用GPT代替人工。

③案例研究

专为某一模型设计定性或综合的评估方案。

4.发展方向

(1)粒度深入:朝向像素级定位。
(2)模态扩展:文本、图像、音频、视频等。
(3)多语言:多语言能力。
(4)场景扩展:多端(如手机)部署;垂域模型。

5.多模态幻觉

模型一定会有幻觉。多模态模型幻觉可分为:

(1)存在性幻觉(Existence Hallucination):

这是最基本的形式,指模型错误地声称图像中存在某些物体。

(2)属性性幻觉(Attribute Hallucination):

指错误地描述某些物体的属性,例如未能正确识别狗的颜色。它通常与存在性幻觉相关,因为属性的描述应基于图像中存在的物体。

(3)关系性幻觉(Relationship Hallucination):

这是更复杂的一种类型,也是基于物体的存在。它指的是错误描述物体之间的关系,例如相对位置和互动。

6.幻觉缓解方法

分为预纠正、过程中纠正和后纠正。

(1)预纠正

一种直观而简单的解决幻觉的方法是收集专门的数据(例如,负面数据)并使用这些数据进行微调,从而得到幻觉响应较少的模型。 如 VictorSanh/LrvInstruction

(2)过程中纠正

指改进架构设计或特征表示。这些工作尝试探索幻觉的原因,并设计相应的补救措施,以在生成过程中减轻幻觉。

  • HallE-Switch 对物体存在幻觉的可能因素进行了实证分析,并假设存在幻觉源于未被视觉编码器定位的物体,而这些物体实际上是基于嵌入在LLM中的知识推断出来的。基于这一假设,引入了一个连续控制因子和相应的训练方案,以在推理过程中控制模型输出的想象程度。
  • VCD 提出物体幻觉源于两个主要原因,即训练语料库中的统计偏差和嵌入在LLM中的强语言先验。作者注意到,当向图像注入噪声时,MLLMs倾向于依赖语言先验而非图像内容进行响应生成,从而导致幻觉。相应地,这项工作设计了一种放大-对比解码方案,以抵消错误的偏差。

(3)后纠正

不同于先前的范式,后纠正以后期补救的方式减轻幻觉,在输出生成后进行纠正。

  • Woodpecker 是一种无需训练的通用幻觉纠正框架。具体而言,该方法结合专家模型来补充图像的上下文信息,并设计了一条逐步纠正幻觉的流程。该方法具有可解释性,因为每一步的中间结果都可以检查,且物体是基于图像的。

参考:
1.https://arxiv.org/pdf/2401.13601
2.https://arxiv.org/pdf/2312.16602
3.https://arxiv.org/pdf/2306.13549
4.https://mp.weixin.qq.com/s/a1slqH2ScZnrFmDFpo0R7A
5.https://zhuanlan.zhihu.com/p/684472814
6.https://zhuanlan.zhihu.com/p/688215018
7.https://huggingface.co/spaces/opencompass/open_vlm_leaderboard
8.https://zhuanlan.zhihu.com/p/682893729

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/721522.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JCR一区 | Matlab实现GAF-PCNN、GASF-CNN、GADF-CNN的多特征输入数据分类预测/故障诊断

JJCR一区 | Matlab实现GAF-PCNN、GASF-CNN、GADF-CNN的多特征输入数据分类预测/故障诊断 目录 JJCR一区 | Matlab实现GAF-PCNN、GASF-CNN、GADF-CNN的多特征输入数据分类预测/故障诊断分类效果格拉姆矩阵图GAF-PCNNGASF-CNNGADF-CNN 基本介绍程序设计参考资料 分类效果 格拉姆…

java架构设计-COLA

参考&#xff1a;https://github.com/alibaba/COLA 架构 要素&#xff1a;组成架构的重要元素 结构&#xff1a;要素直接的关系 意义&#xff1a;定义良好的结构&#xff0c;治理应用复杂度&#xff0c;降低系统熵值&#xff0c;改善混乱状态 创建COLA应用&#xff1a; mvn …

Centos8.5安装mysql8.0

1.检查是否有安装mysql数据库&#xff08;如果有mysql或者mariadb数据库&#xff0c;则卸载&#xff09; [rootmyhost ~]# rpm -qa |grep mysql [rootmyhost ~]# rpm -qa | grep mariadb [rootmyhost ~]# ll /etc/my.cnf ls: 无法访问/etc/my.cnf: No such file or directory…

猫头虎分享已解决Bug || 前端领域技术问题解析

原创作者&#xff1a; 猫头虎 作者微信号&#xff1a; Libin9iOak 作者公众号&#xff1a; 猫头虎技术团队 更新日期&#xff1a; 2024年6月6日 博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &…

python中scrapy

安装环境 pip install scrapy 发现Twisted版本不匹配 卸载pip uninstall Twisted 安装 pip install Twisted22.10.0 新建scrapy项目 scrapy startproject 项目名 注意&#xff1a;项目名称不允许使用数字开头&#xff0c;也不能包含中文 eg: scrapy startproject scrapy_baidu_…

Redis数据结构学习

Redis 关于redis相关的技术文章我一直没什么思路 直到最近的端午节,我偶然和一个程序员朋友聊到了关于redis数据结构相关的知识点, 所以我决定写一篇文章记录一下 首先我们需要知道redis支持哪些数据类型 Strings (字符串)Lists(列表)Hashes(哈希)Sets(集合)Sorted Sets(有序…

Transformer模型:未来的改进方向与潜在影响

Transformer模型&#xff1a;未来的改进方向与潜在影响 自从2017年Google的研究者们首次提出Transformer模型以来&#xff0c;它已经彻底改变了自然语言处理&#xff08;NLP&#xff09;领域的面貌。Transformer的核心优势在于其“自注意力&#xff08;Self-Attention&#xf…

【C语言习题】31.冒泡排序

文章目录 作业标题作业内容2.解题思路3.具体代码 作业标题 冒泡排序 作业内容 实现一个对整形数组的冒泡排序 2.解题思路 先了解一下冒泡排序&#xff1a; 两两相邻的元素进行比较&#xff0c;如果前面元素大于后面元素就交换两个元素的位置&#xff0c;最终的结果是最大的…

RERCS系统开发实战案例-Part08 FPM 应用程序的表单组件(From UIBB)与列表组件(List UIBB)组合的创建

1、新建From UIBB的FPM Application的快速启动面板 备注&#xff1a;该步骤可第一步操作&#xff0c;也可最后一步操作&#xff0c;本人习惯第一步操作。 1&#xff09;使用事务码 LPD_CUST&#xff0c;选择对应的角色与实例进入快速启动板定制页面&#xff1b; 2&#xff09…

pg表空间和mysql表空间的区别

一、表空间的定义 1、在pg中表空间实际上是为表指定一个存储的目录。并且在创建数据库时可以为数据库指定默认的表空间。创建表和索引时可以指定表空间&#xff0c;这样表和索引就可以存储到表空间对应的目录下了。 在pg中一个库中可以有多个表空间&#xff0c;一个表空间可以…

U盘量产经历二——phisonPS2251-70(PS2270)

写在前面&#xff1a; 量产相关的BBS看了挺多&#xff0c;phison群联的芯片PS2251-70(PS2270)的量产工具比较少&#xff0c;而且很难下载。这里我访问了国外的网站下载来了&#xff0c;也贴出来给童鞋们取用。 以下是记录的量产过程&#xff1a; https://www.usbdev.ru 工具…

Linux操作系统学习:day04

内容来自&#xff1a;Linux介绍 视频推荐&#xff1a;[Linux基础入门教程-linux命令-vim-gcc/g -动态库/静态库 -makefile-gdb调试]( 目录 day0422、通过文字设定法修改用户对文件的操作权限23、通过数字设定法修改文件的权限24、修改文件所有者和所属组25、tree—查看目录内…

国际荐酒师香港协会受邀参加2024年美国独立日庆祝活动

国际荐酒师&#xff08;香港&#xff09;协会受邀参加2024年美国独立日庆祝活动促进世界酒中国菜的全球化发展 2024年6月18日&#xff0c;国际荐酒师&#xff08;香港&#xff09;协会大中华区驻广州办事处荣幸地接受了美国驻广州总领事馆 Nicholas Burns大使和Lisa Heller总领…

python修改pip install 默认安装路径

第一步:通过win菜单,找到Prompt,点击进入 第二步:在cmd里输入 python -m site获得: D:\ProgramData\Anaconda3 ----》是Anaconda安装的位置USER_BASE: C:\Users\kevin… ----》表示默认路径在C盘USER_SITE: C:\Users\kevin… ----》表示默认路径在C盘1.2 修改pip 默认安…

使用Minikube部署Kubernetes环境

使用Minikube部署Kubernetes环境 1. Minikube简介 Minikube是一个轻量级的Kubernetes实现&#xff0c;它在本地运行一个Kubernetes集群&#xff0c;可以是单节点或者集群环境&#xff0c;主要用于开发和测试。Minikube支持Kubernetes的所有主要功能&#xff0c;包括Dashboard…

C#——方法的参数列表ref、out、params、in详情

在C#中&#xff0c;方法参数列表是在定义方法时指定的&#xff0c;用于接收传递给方法的数据。参数列表包括参数类型和参数名。参数可以是必需的&#xff08;必须有值&#xff09;&#xff0c;也可以是可选的&#xff08;可以有默认值&#xff09;。 方法的参数列表 1. 值参数…

温湿度采集与OLED显示

目录 一、什么是软件I2C 二、什么是硬件I2C 三、STM32CubeMX配置 1、RCC配置 2、SYS配置 3、I2C1配置 3、I2C2配置 4、USART1配置 5、TIM1配置 6、时钟树配置 7、工程配置 四、设备链接 1、OLED连接 2、串口连接 3、温湿度传感器连接 五、每隔2秒钟采集一次温湿…

jquey+mybatis-plus实现简单分页功能

这篇文章介绍一下怎么通过JQuery结合mybatis-plus的分页插件实现原生HTML页面的分页效果&#xff0c;没有使用任何前端框架&#xff0c;主要是对前端知识的应用。 创建Springboot项目 Intellij IDEA中创建一个Springboot项目&#xff0c;项目名为pager。 添加必须的依赖包 修…

Linux安装Tomcat和Nginx

目录 前言一、系统环境二、Tomcat安装步骤Step1 安装JDK环境Step2 安装Tomcat 三、Nginx安装步骤四、测试4.1 测试Tomcat4.2 测试Nginx 总结 前言 本篇文章介绍如何在Linux上安装Tomcat web服务器。 一、系统环境 虚拟机版本&#xff1a;VMware Workstation 15 ProLinux镜像…

Java基础 - 练习(二)打印菱形

Java基础练习 打印菱形&#xff0c;先上代码&#xff1a; // 方法一&#xff1a;基础&#xff0c;好理解 public static void diamond() {//控制行数for (int i 1; i < 4; i) {//空格的个数for (int k 1; k < 4 - i; k) {System.out.print(" ");}//控制星星…