HuggingFace烧钱做了一大批实验,揭示多模态大模型哪些trick真正有效

构建多模态大模型时有很多有效的trick,如采用交叉注意力机制融合图像信息到语言模型中,或直接将图像隐藏状态序列与文本嵌入序列结合输入至语言模型。

但是这些trick为什么有效,其计算效率如何,往往解释得很粗略或者或者缺乏充分的实验验证。

Hugging Face团队最近进行了广泛的实验以验证在构建多模态大模型时哪些trick是真正有效的,得出了一系列极具参考价值的结论,甚至推翻了以往文献中普遍使用的观点

基于这些验证过的有效trick,团队开源了一个8B参数的视觉大模型——Idefics2,它在同等大小模型中是最能打的,其性能在某些基准测试中甚至超越了比它大4倍的模型,足以与闭源模型Gemini 1.5 Pro相媲美

图片

除此之外,还对Idefics2做了专门的对话训练,在与用户交互时也表现得相当出色

比如分析表中数据并进行正确的计算:

图片

在简历中找到所需的信息,并将其组织为JSON格式:

图片

解读表情包也像模像样:

图片

这个表情包描绘了一个穿着黄色雨衣的年轻女孩,她似乎正在穿过一片草地。她手里拿着一个黄色的东西,可能是一个玩具或一件设备。这张照片的背景是一片绿色的田野,远处有树木。表情包上的文字是“我在假期前一天下班”。这表明女孩在假期开始前兴奋地提前下班,象征着她在田野里快乐地奔跑。女孩充满活力的姿势和结合“工作”,为那些可能也期待假期的观众创造了一个轻松愉快和相关的场景。

团队也开放了源码和试玩地址,感兴趣的朋友可以试试效果~

试玩地址
https://huggingface.co/spaces/HuggingFaceM4/idefics2_playground

论文标题:
What matters when building vision-language models?

论文链接
https://arxiv.org/pdf/2405.02246

GPT-3.5研究测试:

yeschat

GPT-4研究测试:

Hello, LLMs

Claude-3研究测试(全面吊打GPT-4):

AskManyAI

多模态大模型的基础结构

首先我们先简单了解一下多模态大模型由哪几部分组成。

一般来说,整个多模态大模型的训练可以被分为多模态理解与多模态生成两个步骤,如下图所示。多模态理解包含多模态编码器,输入投影与大模型主干三个部分,而多模态生成则包含输出投影与多模态生成器两个部分,通常而言,在训练过程中,多模态的编码器、生成器与大模型的参数一般都固定不变,不用于训练,主要优化的重点将落在输入投影与输出投影之中。

图片

▲图源《MM-LLMs: Recent Advances in MultiModal Large Language Models》

本文主要聚焦于多模态理解能力,因此着重关注多模态编码器与输入投影部分

多模态大模型构建中常用的trick真的有效吗?

模态编码器对性能的影响

多模态大模型使用预训练的模态编码器提取视觉输入的特征,使用语言模型主干提取文本输入特征。那么选择不同的视觉和文本模型对最终的性能有何影响呢?

作者固定了预训练模块的大小、用于多模态预训练的数据以及训练更新次数。在交叉注意力架构下,在视觉-语言基准测试中,随着模型升级,其性能大幅提升

如下表1所示,将语言模型LLaMA-1-7B替换为Mistral-7B的性能提升了5.1个百分点。

图片

此外,将视觉编码器从CLIP-ViT-H切换到SigLIP-SO400M在基准测试中提升了3.3个百分点,如下表2所示:

图片

结论:对于固定参数,语言模型主干质量对最终VLM性能的影响大于视觉模型主干。

完全自回归架构与交叉注意架构相比哪个更优?

输入投影目的是将预训练的视觉模块和语言模块连接起来,对齐视觉输入和文本输入,主流方法有两种:

  1. 交叉注意力(Cross-attention):通过视觉模块对图像进行编码,并通过交叉注意力块将图像嵌入与文本嵌入注入到语言模型的不同层中。

  2. 完全自回归架构(fully autoregressive architecture):视觉编码器的输出直接与文本嵌入串联,并将整个序列作为语言模型的输入。视觉序列可以进行压缩,提高计算效率。

为了评估两种架构的优劣,作者冻结了单模态模块,仅训练新初始化的参数(一侧采用交叉注意力,另一侧进行模态投影和池化),并在固定训练数据量下进行了比较。交叉注意力块与语言模型层的高频交替排列能提升视觉-语言性能。遵循此设置,交叉注意力架构拥有额外的13亿个可训练参数(总计20亿),且在推理时计算量增加10%。在此条件下,交叉注意力架构的性能比完全自回归架构提升了7个百分点,如下表第二行和第三行所示。

图片

在总参数中,完全自回归架构占比约15%,而交叉注意力架构占比约25%。这种低比例可能限制训练的表达能力。作者解冻了所有参数(包括新初始化和预训练的单模态模块参数)来对比两种架构。为了防止完全自回归架构的训练损失发散,采用了LoRA方法来调整预训练参数,同时对新初始化参数进行完全微调,实验结果如上表最后两行所示。

这种方法显著提升了训练的稳定性:完全自回归架构性能提升12.9个百分点,而交叉注意力架构提升0.6个百分点。因此在可调参数增加的情况下,完全自回归架构更具性价比。

结论1:在单模态预训练模块被冻结时,交叉注意结构性能优于完全自回归结构。然而,一旦解冻并训练单模态网络,尽管交叉注意结构参数更多,但完全自回归架构反而展现出更佳的性能。

结论2:在完全自回归架构下,直接解冻预训练模块可能会导致训练过程的不稳[1]。采用LoRA技术可以在保持训练稳定的同时,有效增加模型的表现力。

图像tokens越多,性能越强??

先前的研究通常将视觉编码器的所有隐藏状态直接传递给模态投影层,并输入到语言模型中,不进行池化操作,这导致每个图像的tokens数量庞大,从而增加了训练成本。[2,3]的研究表明,增加视觉tokens的数量可以提升性能,但作者发现当使用超过64个视觉tokens时,性能并未得到进一步提升。作者推测,在理论上无限训练和数据的假设场景下,tokens越多,性能可能会有所提高,但代价是实际场景中无法接受的。

为了解决这一问题,作者引入了可训练的Transformer池化器(如Perceiver),以减少每个图像隐藏状态的序列长度。这种方法在减少tokens数量的同时,还提高了模型的性能。如下表所示,相比不进行池化的方法,该方法平均提高了8.5分,并将每个图像所需的tokens数量从729减少到了64。

图片

结论:使用可训练的池化器减少了视觉tokens的数量,显著提高了训练和推理的计算效率,同时提高了下游任务的性能。

固定图像宽高比和分辨率对性能是否有影响?

视觉编码器(如SigLIP)通常在固定大小的正方形图像上进行训练。调整图像大小会改变其原始宽高比,这在某些任务(如阅读长文本)中存在问题。此外,仅在单一分辨率上进行训练存在局限性:低分辨率可能忽略关键视觉细节,而高分辨率则降低训练和推理效率。允许模型处理不同分辨率的图像可以让用户根据需要灵活调整计算资源。

视觉编码器(如SigLIP)通常在固定正方形图像上训练,若调整大小会改变宽高比,影响如长文本阅读等任务。另外如果不同分辨率各有优劣:低分辨率忽略细节,高分辨率降低效率。因此允许不同分辨率输入可灵活调整计算资源。

本文尝试了直接将图像分块送入视觉编码器,不调整图像大小或改变其宽高比。在固定大小的低分辨率方形图像上训练时,插入了预训练的位置嵌入,并使用LoRA参数调整视觉编码器。结果如下表:

图片

可以看到,固定长宽比的策略(AR preserving)在释放计算灵活性的同时,能保持任务性能。并且无需统一调整为高分辨率,节省GPU内存,允许按需处理图像。

结论:在固定大小的正方形图像上使用预训练的视觉编码器来保持图像的原始宽高比和分辨率,既加速了训练和推理,又减少了内存消耗,且性能不受影响。

切分成子图训练对性能有何影响?

多篇文献表明将图像分割成子图,然后再与原始图像连接可以提高下游任务的性能,但代价是需要编码的图像tokens数量大幅度增加。

作者在指令微调阶段,将每张图像扩展为包含原始图像和四个裁剪图像的列表。这样,模型在推理时既能处理单张图像(64个视觉tokens),也能处理增强的图像集(总共320个视觉tokens),结果如下表:

图片

对于TextVQA和DocVQA等基准测试,这种策略尤为有效,因为它们需要高分辨率来提取图像中的文本。即使仅对50%的训练图像进行分割,性能提升也未受影响。

结论:在训练期间将图像分割成子图像,可以在推理期间提高计算效率,提高性能。在涉及读取图像中的文本的任务中,性能的提高尤其明显。

构建Idefics2——一个开放的最先进的视觉语言基础模型

在对影响视觉模型性能的因素进行讨论后,作者训练了一个开放的8B参数的视觉语言模型——Idefics2。下面将展开模型的构建、数据集的选择、训练阶段的过程。

1. 多阶段预训练

我们从SigLIP-SO400M和Mistral-7B-v0.1开始,并在3种类型的数据上预训练Idefics2。

交叉的图像-文本文档

数据源选用OBELICS数据集,并进行了过滤与清洗。这是一个开放的交叉的图像-文本文档数据集,包含3.5亿张图像和1150亿个文本tokens。OBELICS的长文档设计使语言模型在维持性能的同时,能够学习处理任意数量的交叉图像和文本。

图像-文本对

接下来需要利用图像-文本对训练模型,使其学习图像与其相关文本的对应关系。本文使用来自PMD的高质量人工标注的图像-文本对数据以及LAION COCO版本的合成标注数据,LAION COCO中的图像由基于COCO训练的模型进行标注,噪声较少。并使用一个高召回率的NSFW分类器进行过滤。

PDF文档

为了克服VLM在提取图像和文档中文本时的不足,作者训练了Idefics2模型,使用OCR-IDL的1900万份行业文档、PDFA6的1800万页数据,并加入了Rendered Text来增强对字体多样、颜色丰富文本的识别。结果如下表,这样的设置显著提升了模型阅读文档、提取图像的能力。

图片

训练过程

为提高计算效率,分两个阶段进行预训练。第一阶段,图像最大分辨率设为384像素,使得可以使用平均大小为2048的批次大小(涵盖17000张图像和2500万个文本tokens)。数据中70%基于OBELICS数据集(序列长度最大为2048),30%为图像-文本对数据集(序列长度最大1536)。

第二阶段,引入PDF文档,将分辨率提升至980像素,保持全局批次大小但减少单机批次大小,使用梯度累积弥补额外内存。样本分配上,OBELICS占45%(序列长最大为2048),图像-文本对占35%(序列长度最大为1536),PDF文档占20%(序列长最大为1024)。同时,随机放大图像以覆盖不同尺寸。

模型评估

本文选择VQAv2 ,TextVQA,OKVQA 和COCO 进行模型评估。如下表:

图片

尽管Idefics2每张图片的tokens数量较少,但其高效性使其性能超越了当前最佳的基础视觉语言模型。特别是在理解图像中文本的能力上,Idefics2展现出了显著的优势。下图展示了Idefics2-base识别手写字体的示例。

图片

2. 指令微调

在指令微调阶段,并创建了The Cauldron——一个混合了50个视觉-语言数据集的庞大集合,覆盖广泛任务,如视觉问答、计数、字幕、文本转录、文档理解等。数据集采用共享的问题/答案格式,对于多问题/答案对,构建多回合对话。此外,还添加了纯文本指令数据集,教授模型遵循复杂指令、解决数学和算术问题。

使用一种LoRA变体DoRA对基础模型进行指令调优。在微调时,仅计算Q/A对答案部分的损失,并采取NEFTune对嵌入添加噪声等多种策略降低过拟合风险。然后随机调整图像分辨率以及随机打乱多轮交互将示例输入模型。

评估如下表显示,Idefics2在MMMU、MathVista、TextVQA和MMBench等基准上表现出色,不仅在推理时具有更高的计算效率,在性能上超越了同类大小的视觉语言模型(LLaVA-Next、DeepSeek-VL、MM1-Chat)。

图片

Idefics2与比自己大四倍的最先进的模型性能相当,而且在MathVista和TextVQA等基准上还可与闭源模型Gemini 1.5 Pro相媲美。

3. 对话场景优化

评估基准往往期望非常简短的答案,但人类在与模型交互时更倾向于长篇的生成。而Idefics2在精确遵循预期格式的指令时可能会遇到困难,难以把握生成回复的“长”与“短”。

因此,指令微调后,作者进一步对Idefics2进行对话数据的训练。在LLaVA-Conv和ShareGPT4V上对Idefics2进行了几百步的微调。

用户评价显示,在许多交互中,Idefics2-chatty明显优于仅经过指令微调的版本。下面是一些生成示例:

图片

▲描述一个AI生成的图像

图片

▲根据科学图表回答问题

结论

本文通过详尽的实验,深入探讨了构建多模态大模型时文献中常见trick的有效性,并得出了一系列有价值的结论。不仅如此,作者还亲身实践了这些有用的技巧,成功构建了一个性能卓越的8B参数视觉语言模型——Idefics2。在同等规模的模型中,Idefics2展现出了最先进的性能,并具备更高的推理效率,为多模态大模型的研究提供了重要参考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/607204.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++ Builder XE EnumWindowsProc遍历所有窗口的名称

BOOL CALLBACK EnumWindowsProc(HWND hwnd, LPARAM lParam) { // 这里可以添加你的处理逻辑 // 例如,将句柄添加到列表中或者其他操作 // 这里我们仅仅输出到调试窗口 OutputDebugString(L"枚举窗口句柄: "); char windowHandle[10];…

ROS 2边学边练(45)-- 构建一个能动的机器人模型

前言 在上篇中我们搭建了一个机器人模型(其由各个关节(joint)和连杆(link)组成),此篇我们会通过设置关节类型来实现机器人的活动。 在ROS中,关节一般有无限旋转(continuous),有限旋转…

【每日力扣】98. 验证二叉搜索树 与 108. 将有序数组转换为二叉搜索树

🔥 个人主页: 黑洞晓威 😀你不必等到非常厉害,才敢开始,你需要开始,才会变的非常厉害 98. 验证二叉搜索树 给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下&a…

【优选算法】——双指针——15. 三数之和

目录 1.题目 2.解法(排序双指针): 算法思路: 3.代码实现 1.题目 15. 三数之和 提示 给你一个整数数组 nums ,判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ,同时还满足…

【LLM第三篇】名词解释:RLHF——chatgpt的功臣

RLHF (Reinforcement Learning from Human Feedback) ,直译为:“来自人类反馈的强化学习”。RLHF是一种结合了强化学习和人类反馈的机器学习方法,主要用于训练大模型以执行复杂的任务,尤其是当这些任务难以通过传统的奖励函数来精…

重学java 33.API 4.日期相关类

任何事,必作于细,也必成于实 —— 24.5.9 一、Date日期类 1.Date类的介绍 1.概述: 表示特定的瞬间,精确到亳秒 2.常识: a.1000毫秒 1秒 b.时间原点:1970年1月1日 0时0分0秒(UNIX系统起始时间),叫做格林威治时间,在0时区上 c.时区:北京位于东八区,一个时区…

Linux 操作系统线程1

目录 一、线程 1.1线程的基本概念 1.2 线程相关的API函数 1.2.1 线程的创建 1.2.2 线程退出 1.2.3 线程等待函数 1.2.4 获取线程ID 1.2.5 线程取消 1.2.6 线程的清理函数 一、线程 1.1线程的基本概念 线程是属于进程;一个进程可以有多个线程&#xff…

salmon使用体验

文章目录 salmon转录本定量brief模式一:fastq作为输入文件需要特别注意得地方 模式二: bam文件作为输入 salmon转录本定量 brief 第一点是,通常说的转录组分析其中有一项是转录本定量,这是一个很trick的说话,说成定量…

深度学习——前馈全连接神经网络(鸢尾花)

前馈全连接神经网络对鸢尾花数据集进行分类 1.导入所需要的包2.打印训练集和测试集二维数组3.定义模型4.打印模型信息5.权重和偏执6.编译网络和训练网络7.打印二维数据表格8.绘制图像9.查看准确率 1.鸢尾花数据集可以用 from sklearn.datasets import load_iris 方式获取&#…

医院预约挂号|基于Springboot+vue的医院预约挂号系统小程序的设计与实现(源码+数据库+文档)

医院预约挂号系统小程序 目录 基于Springboot+vue的医院预约挂号系统小程序设计与实现 一、前言 二、系统设计 三、系统功能设计 1小程序端 后台功能模块 4.2.1管理员功能 4.2.2医生功能 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选…

jsp 实验16 MVC 表白墙

源代码以及执行结果截图&#xff1a; ExpressWish_Bean.java package web; import java.util.HashMap; import java.util.ArrayList; import java.util.Iterator; public class ExpressWish_Bean { public HashMap<String,ExpressWish> wishList; ArrayList&…

#内部类#

1,概念 如果一个类定义在另一个类的内部&#xff0c;这个内部类就叫做内部类。内部类是一个独立的类&#xff0c;它不属于外 部类&#xff0c;更不能通过外部类的对象去访问内部类的成员。外部类对内部类没有任何优越的访问权限。重点&#xff1a;内部类是一个独立的类 注意&…

JavaEE 多线程详细讲解(2)

1.线程不安全分析 &#xff08;1&#xff09;线程不安全的主要原因就是&#xff0c;系统的抢占式执行&#xff0c;对于内核设计者来说&#xff0c;这是非常方便的一个执行方式&#xff0c;但是这却却导致线程不安全的问题&#xff0c;也有不抢占执行的系统&#xff0c;但是这种…

从心理学角度看,GPT 对人有什么影响?

开启个性化AI体验&#xff1a;深入了解GPT的无限可能 导言 GPT 与我们日常生活的融合标志着技术进步的重大飞跃&#xff0c;为提高效率和创新提供了前所未有的机遇。然而&#xff0c;当我们与这些智能系统日益紧密地交织在一起时&#xff0c;探索它们对个人产生的细微的心理影响…

15-LINUX--线程的创建与同步

一.线程 1.线程的概念 线程是进程内部的一条执行序列或执行路径&#xff0c;一个进程可以包含多条线程。 2.线程的三种实现方式 ◼ 内核级线程&#xff1a;由内核创建&#xff0c;创建开销大&#xff0c;内核能感知到线程的存在 ◼ 用户级线程&#xff1a;线程的创建有用户空…

抖音APP运用的AI技术拆解

1.推荐系统&#xff08;RS&#xff09; 用户画像&#xff1a;根据用户的信息&#xff08;如地区、性别、年龄、收藏、关注......&#xff09;进行分析&#xff0c;构建用户画像&#xff0c;对用户进行分类&#xff1b; 行为分析&#xff1a;将用户的显形行为数据&#xff08;如…

PaddleOCR使用

最近在项目过程中需要用到文字识别的能力&#xff0c;之前没有接触过。需要对现有的开源能力进行调研和学习。 1. 基本概念 1.1 PaddlePaddle PaddlePaddle 是一个由百度开源&#xff0c;基于 Python 的深度学习框架。PaddlePaddle 针对不同的硬件环境提供了不同的安装包或安…

2024/5/9 QTday4

完成定时器制作 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);connect(&timer2, &QTimer::timeout, this, &Widget::label_begin);connect(&…

Linux0.11中MINIX 文件系统

阅读linux 的源码的时候对minix 文件系统有很多的疑惑&#xff0c;根据自己的认识将这些做一个总结。 MINIX 文件系统由六个部分组成&#xff0c;分别是引导块&#xff0c;超级块&#xff0c;i结点位图&#xff0c;逻辑块位图&#xff0c;i结点&#xff0c;数据块。 引导块&am…

Python 中 “yield“ 的不同行为

在我们使用Python编译过程中&#xff0c;yield 关键字用于定义生成器函数&#xff0c;它的作用是将函数变成一个生成器&#xff0c;可以迭代产生值。yield 的行为在不同的情况下会有不同的效果和用途。 1、问题背景 在 Python 中&#xff0c;“yield” 是一种生成器&#xff0…