经典多模态大模型

“浅对齐”模型

经典多模态结构BLIP2

Motivation

  • 端到端的进行vision-language预训练成本太大了,之前存在很多预训练好的模型,这篇文章希望能够使用这些训练好的参数,节约成本。

  • 如果直接冻结预训练好的参数,去做下游任务,效果不佳。这是因为图像表征和文本表征是在两个不同的语料利用不同的模型训练出来的,不好对齐。

因此这篇论文提出了一个Query Transformer(Q-Former)结构,通过训练该结构能够对齐两种模态的信息,并且q-former很轻量,训练很快,花销很小。

整个训练过程被分成了两阶段。第一阶段进一步学习图像和文本表征;第二阶段从冻结的大语言模型中引导图像到文本的生成学习,实现zero-shot图像到文本生成。它冻结了图像编码器和文本编码器中的参数,不需要端到端的训练图像编码器和文本编码器,只需要训练Q-former。

Q-former结构

  • Image-Text Contrastive Learning (ITC)

鼓励成对正样本之间更相似,负例之间相似度更低。但由于query的存在,它并不是直接使用图像和文本编码器输出的图文表征。对于图像表征,它选择了经过图像编码器后的query representation,对于文本表征选择使用text transformer输出的[CLS]表征 t。并且由于query embedding中包含了32个query的表征,需要分别计算每一个query和 t 之间的相似度,最后只取相似度的最高值。为了避免信息泄露,这个任务使用的是unimodal self-attention mask

  • Image-grounded Text Generation (ITG)

Q-former结构中,冻结的图像编码器和text tokens不能直接交互,因此想做生成时需要两步,第一步使用queries提取表征,第二步将表征通过自注意力层传递给text token(这里体现在q-former中的图像部分和文本部分使用的self-attention是共享的)因此,query被迫提取有关文本所有信息的视觉表征。

使用multimodal causal self-attention mask控制query-text交互,query看不到text,text能看到query和之前的text token。

  • Image-Text Matching (ITM)

图文匹配二分类任务。使用bi-directional self-attention mask,query和text之间可以互相看到。每一个query embedding作为二分类任务的输入都可以得到一个预测概率,最终取32个query预测概率的平均值作为输出的预测分数。这篇论文中也使用了ALBEF中的hard negative mining strategy。

LLaVA&MiniGPT-4

如图1与图2所示,比较典型的是LLaVA;以及MiniGPT-4和VisualGLM采用基本相同的方案,都是基于BLIP-2

  • LLaVA是将视觉encoder处理过后的视觉向量通过一个简单的投影层直接映射到词向量空间;

  • MiniGPT-4则是使用q-former将视觉encoder产生的向量通过32个特殊tokens抓取与输入文本最相关的信息而产生32个新的tokens,再将这32个tokens通过一个投影层映射到词向量空间。

CogVLM解读

CogVLM在“浅对齐”的基础上,往大语言模型的每个decoder层添加视觉专家模块,实现了更深层次的对齐。

思路

受到p-tuning和LoRA的效果对比的启发(P-tuning通过学习给LLM添加前缀prompt来微调LLM,这与多模态大模型的"浅对齐"方式类似;而LoRA通过在LLM的每一个attention模块上添加低秩矩阵来实现微调。LoRA的微调效果要远强于P-tuning)作者想到了给LLM添加视觉专家模块。

深层解释

给模型添加视觉模块还有两个原因:

  1. 语言模型中的冻结权重是针对文本标记进行训练的。视觉特征在输入文本空间中没有完美的对应。因此,在多层转换后,视觉特征可能不再匹配深层权重的输入分布。

  2. 在预训练过程中,图像caption任务的先验,例如文字风格和caption长度,只能在浅对齐方法中编码到视觉特征中。它削弱了视觉特征与内容之间的一致性。

如果将视觉和语言信息一起训练可能可以解决这些问题。但是后果是会造成灾难性遗忘。而CogVLM采用的方案是给原LLM的每个decoder层加上一个视觉专家模型,每个视觉专家模型由一个完整的decoder模块构成(即Attention + FFN)。在训练过程中,原LLM的参数被固定不训练,所以训练消耗的FLOPs不变(笔者个人理解,不变是不可能的,只是增加的不多)。并且由于LLM的参数被固定,所以LLM原有的能力不受影响。

LLaMA-Adapter系列

LLaMA-Adapter

LLaMA- Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

模型图如下,红色的表示初始化的可训练的 adaption prompts,蓝色的表示参数冻结的 LLM 模型

Multi-modal Reasoning of LLaMA-Adapter。LLaMAAdapter被扩展为多模态变体,用于图像条件问答。给定图像作为视觉上下文,我们通过多尺度聚合获得全局图像标记,并将其巧妙地添加到视觉指令跟随的自适应提示中。

LLaMA-Adapter V2

通过解锁更多的可学习参数,增强了LLaMA-Adapter,比如Norm、bias和scale,这能将instruction-following能力分散到整个LLaMA模型,除了adapters。

一个图文对和instruction-following数据的联合训练模式通过优化可学习参数的拆分组被引入。这个策略有效的减轻了两个任务间的推理:图文对齐和instruction following,并且只使用一小部分图文和instruction数据集,取得了好的多模态推理。

在推理中,我们将额外的expert模型融合到了LLaMA-Adapter中去,在不需要增加训练成本下,进一步增强它的图像理解能力。

主要贡献:

  1. 更强的语言指导模型。有参数高效微调的方法、高质量语言instruction数据,LLaMA-Adapter V2在语言instruction-following性能上超过了LLaMA-Adapter。而且,LLaMA-Adapter V2能够开展多轮对话,展示了它的更强的语言instruction能力。

  2. 平衡的视觉Instruction 微调 我们提出了一个简单的早期融合策略去解决图文匹配和Instruction Following之间的干扰。因此,我们将LLaMA-Adapter V2变成了视觉Instruction 模型,不需要多模态Instruction训练数据。

  3. 加入专家系统。没有在大规模的图文对上预训练,而是采用整合不同的专家系统去增强LLMs的图像理解能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/614424.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

防火墙技术基础篇:解析防火墙应用层代理概念及功能

防火墙技术基础篇:解析防火墙应用层代理概念及功能 1 应用层代理的概念 应用层代理(Application Proxy):防火墙应用层代理是网络安全领域中的一种重要技术,工作在OSI模型的第七层,即应用层。它通过代理服…

ubuntu系统在有无NVIDIA驱动下查看显卡型号

在ubuntu系统下,分别在有nvidia显卡驱动和无nvidia显卡驱动时,查看nvidia显卡型号。 1、有nvidia显卡驱动时的查看方式 nvidia-smi -L会显示如下信息: GPU 0: NVIDIA GEForce GTX 1660 SUPER (UUID: GPU-*****)2、无nvidia显卡驱动时的查看…

基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (四)

基于 LlaMA 3 LangGraph 在windows本地部署大模型 (四) 大家继续看 https://lilianweng.github.io/posts/2023-06-23-agent/的文档内容 第三部分:工具使用 工具的使用是人类的一个显着而显着的特征。我们创造、修改和利用外部物体来完成超…

IDEA使用技巧2—发布web项目

作者:私语茶馆 1.War包类型 发布Web项目有两种模式:war和war exploded, war模式:将WEB工程以包的形式上传到服务器 ;war exploded模式:将WEB工程以当前文件夹的位置关系上传到服务器; war ex…

6.数据库

1.实体用矩形表示,属性用椭圆表示,联系用菱形表示 2.层次模型用数表示 3.网状模型用图结构表示 4.关系模型用二维表格结构来表示 5.概念模式基本表 外模式视图 内模式存储 6.模式/内模式映像 外模式/模式映像 7.数据的物理独立性 跟内模式关系 逻辑是视图…

10分钟解决你电脑带不动3dmax渲染的问题‼️

你是否经常遇到这样的窘境: “创意如泉涌,操作如猛虎,却在渲染的关键时刻遭遇电脑崩溃,且发现工作成果未保存…” “在作业截止日期临近时,你的笔记本电脑突然罢工,迫使你不得不在网吧度过漫漫长夜来完成…

【蚂蚁笔试题汇总】2024-05-11-蚂蚁春招笔试题-三语言题解(CPP/Python/Java)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新蚂蚁近期的春秋招笔试题汇总~ 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢&#x1f49…

Java医院绩效考核系统源码B/S+avue+MySQL助力医院实现精细化管理 医院综合绩效核算系统源码

Java医院绩效考核系统源码B/SavueMySQL助力医院实现精细化管理 医院综合绩效核算系统源码 医院绩效考核系统目标是实现对科室、病区财务指标、客户指标、流程指标、成长指标的全面考核、分析,并与奖金分配、学科建设水平评价挂钩。 具体功能模块包括收入核算、成本…

邂逅Linux--常见指令,万物为文件(一)

引子:在之前,我们经常听到Linux,那什么是Linux呢?Linux是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯本纳第克特托瓦兹(Linus Benedict Torvalds)于1991年10月5日首次发布&#xff…

最新ChatGPT中文系统网站源码+系统部署+支持AI对话、AI绘画、AI音乐等大模型

一、系统介绍 本文将介绍最新的ChatGPT中文版AI创作系统——星河易创AI系统,该系统基于ChatGPT的核心技术,融合了自然语言问答、绘画、音乐等创作功能,并兼容官方GPT全模型。该系统提供多样化的应用,包括GPTs的多场景应用、实时G…

FPGA第2篇,FPGA与CPU GPU APU DSP NPU TPU 之间的关系与区别

简介:首先,FPGA与CPU GPU APU NPU TPU DSP这些不同类型的处理器,可以被统称为"处理器"或者"加速器"。它们在计算机硬件系统中承担着核心的计算和处理任务,可以说是系统的"大脑"和"加速引擎&qu…

具备教学意义的实操(用队列实现栈)

225. 用队列实现栈 - 力扣(LeetCode)https://leetcode.cn/problems/implement-stack-using-queues/description/ 实现逻辑 一个是先进先出(队列),一个是后进先出(栈) 这里用两个队列导入一下数据…

Linux-线程概念

1. 线程概念 线程:轻量级进程,在进程内部执行,是OS调度的基本单位;进程内部线程共用同一个地址空间,同一个页表,以及内存中的代码和数据,这些资源对于线程来说都是共享的资源 进程:…

突破编程界限:探索AI编程新境界

文章目录 一、AI编程助手1.1 Baidu Comate智能代码助手1.2 阿里云 通义灵码 二、场景需求三、体验步骤3.1 官网下载3.2 手动下载 四、试用感受4.1 提示4.2 注释生成代码4.3 代码生成4.4 选中生成注释4.5 查看变更&新建文件4.6 调优建议4.7 插件使用 五、结尾推荐 一、AI编程…

XMind 2021 v11.1.2软件安装教程(附软件下载地址)

软件简介: 软件【下载地址】获取方式见文末。注:推荐使用,更贴合此安装方法! XMind 2021 v11.1.2被誉为顶尖思维导图工具,以其简洁、整洁的界面和直观的功能布局脱颖而出。尽管软件体积小巧,却极具强大功…

第七届精武杯部分wp

第一部分:计算机和手机取证 1.请综合分析计算机和手机检材,计算机最近一次登录的账户名是 答案:admin 创建虚拟机时直接给出了用户名 2. 请综合分析计算机和手机检材,计算机最近一次插入的USB存储设备串号是 答案&#xff1a…

Linux:文件IO

Linux:文件IO C语言 文件IOfopen Linux 文件IOopen接口close接口write接口read接口 内存文件管理struct filestruct files_struct文件描述符 fd 缓冲区 C语言 文件IO 在正式讲解Linux中是如何对文件进行IO前,我们先简单回顾以下C语言中,是如…

AWS云优化:实现性能和成本的最佳平衡

随着企业数字化转型的加速,对云计算平台的需求也不断增长。AWS作为云计算行业的领导者之一,提供了广泛的云服务和解决方案,帮助企业实现业务的创新和发展。在AWS云上部署应用程序和服务后,对其进行优化是至关重要的,以…

ECharts系列文章汇总(持续更新中)

ECharts介绍 ECharts是一款基于JavaScript的数据可视化图表库,提供了直观、生动、可交互、可个性化定制的数据可视化图表。以下是关于ECharts的详细介绍: 发展历程: ECharts最初由百度团队开源,并在2018年初捐赠给Apache基金会&…

【联通支付注册/登录安全分析报告】

联通支付注册/登录安全分析报告 前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨…