无编码器多模态大模型EVE:原生多模态新方案

近期,关于多模态大模型的研究如火如荼,工业界的投入也愈发高涨。国外相继推出了炙手可热的模型,例如 GPT-4o (OpenAI)Gemini(Google)Phi-3V (Microsoft)Claude-3V(Anthropic),以及Grok-1.5V(xAI)等。与此同时,国内的 GLM-4V智谱AI)、Step-1.5V阶跃星辰)、Emu2北京智源)、Intern-VL上海AI实验室)、Qwen-VL阿里巴巴)等模型百花齐放。

当前,视觉语言模型(VLM)通常依赖视觉编码器(Vision Encoder, VE)来提取视觉特征,再结合用户指令传入大语言模型(LLM)进行处理和回答。然而,目前面临的主要挑战在于视觉编码器和大语言模型的训练分离。这种分离导致视觉编码器在与大语言模型对接时引入了视觉归纳偏置问题,例如受限的图像分辨率和纵横比,以及强烈的视觉语义先验。随着视觉编码器容量的不断扩大,多模态大模型在处理视觉信号时的部署效率也受到极大限制。此外,如何找到视觉编码器和大语言模型的最佳容量配置,也变得越来越具有复杂性和挑战性。

在此背景下,一些前卫的构想迅速浮现:

  • 💡能否去除视觉编码器,即直接构建无视觉编码器的原生多模态大模型

  • 💡如何高效且丝滑地将大语言模型演变为无视觉编码器的原生多模态大模型?

  • 💡如何弥合无编码器的原生多模态框架和基于编码器的主流多模态范式的性能差距?

Adept AI 去年年末发布了Fuyu系列模型,尽管做出了一些相关尝试,但在训练策略、数据资源和设备信息方面没有任何披露。同时,Fuyu模型在公开的视觉文本评测指标上与主流算法存在显著的性能差距。同期,我们进行的一些先导试验显示,即使大规模拉升预训练数据规模,无编码器的原生多模态大模型仍面临收敛速度慢和性能表现差等棘手问题。

针对这些挑战,智源研究院视觉团队联合大连理工大学、北京大学等国内高校,推出了新一代无编码器的视觉语言模型EVE。通过精细化的训练策略和额外的视觉监督,EVE将视觉-语言表征、对齐和推理整合到统一的纯解码器架构中。使用公开数据,EVE在多个视觉-语言基准测试中表现出色,与类似容量的基于编码器的主流多模态方法相媲美,并显著优于同类型Fuyu-8B。EVE的提出旨在为纯解码器的原生多模态架构发展提供一条透明且高效的路径。

  • 论文地址: https://arxiv.org/abs/2406.11832

  • 项目代码: https://github.com/baaivision/EVE

  • 模型地址: https://huggingface.co/BAAI/EVE-7B-HD-v1.0

  • 技术亮点 

  • 🔥原生视觉语言模型:  打破了主流的多模态模型的固定范式,去除视觉编码器,可处理任意图像长宽比。在多个视觉语言基准测试中显著优于同类型的Fuyu-8B模型,并接近主流的基于视觉编码器的视觉语言架构。

  • 🔥数据和训练代价少:  EVE模型的预训练仅筛选了来自OpenImages、SAM和LAION的公开数据,并利用了66.5万条LLaVA指令数据和额外的120万条视觉对话数据,分别构建了常规版本和高分辨版本的EVE-7B。训练在两个8-A100 (40G)节点上约需9天完成,或者在四个8-A100节点上约需5天完成。

  • 🔥透明和高效的探索: EVE尝试探索一条高效、透明且实用的路径通往原生视觉语言模型,为开发新一代纯解码器的视觉语言模型架构提供全新的思路和宝贵的经验,为未来多模态模型的发展开辟新的探索方向。

  • 模型结构

首先,通过Vicuna-7B语言模型进行初始化,使其具备丰富的语言知识和强大的指令跟随能力。在此基础上,去除深度视觉编码器,构建轻量级视觉编码层,高效无损地编码图像输入,并将其与用户语言命令输入到统一的解码器中。此外,通过视觉对齐层与通用的视觉编码器进行特征对齐,强化细粒度的视觉信息编码和表征。

2.1 Patch Embedding Layer

· 首先使用单层卷积层来获取图像的2D特征图,然后通过平均池化层进行下采样;

· 使用交叉注意力模块(CA1)在限定感受野中交互,增强每个patch的局部特征;

· 使用<CLS> token并结合交叉注意力模块(CA2),为后续每个patch特征提供全局信息;

· 在每个patch特征行的末尾插入了一个可学习的<SPL> token,帮助网络理解图像的二维空间结构。

2.2 Patch Aligning Layer

· 记录有效patch的二维形状;丢弃<CLS>/<PAD> tokens,并利用自适应池化层还原到原始的二维形状;

· 通过层级交叉注意力模块(CA3),整合多层网络视觉特征,从而实现与视觉编码器输出的细粒度对齐。

  • 训练策略

  • · 大语言模型引导的预训练阶段:建立视觉和语言之间的初步联系,为后续稳定高效的大规模预训练打下基础;

  • · 生成式预训练阶段:进一步提高模型对视觉-语言内容的理解能力,实现纯语言模型到多模态模型的丝滑转变;

  • · 监督式的微调阶段:进一步规范模型遵循语言指令和学习对话模式的能力,满足各种视觉语言基准测试的要求。

  • · 在预训练阶段,筛选了来自SA-1B、OpenImages和LAION等3300万公开数据,仅保留分辨率高于448×448的图像样本。特别地,针对LAION图像冗余度高的问题,通过在EVA-CLIP提取的图像特征上应用K-means聚类,生成50,000个聚类,并从中挑选出最接近每个聚类中心的300张图像,最终选出1500万张LAION图像样本。随后,利用Emu2 (17B)和LLaVA-1.5 (13B)重新生成高质量图像描述。

  • · 在监督微调阶段,使用LLaVA-mix-665K微调数据集来训练得到标准版的EVE-7B,并整合AI2D、Synthdog、DVQA、ChartQA、DocVQA、Vision-Flan和Bunny-695K等混合数据集来训练得到高分辨率版本的EVE-7B。

  • 定量分析

EVE模型在多个视觉语言基准测试中明显优于同类型的Fuyu-8B模型,并且与多种主流的基于编码器的视觉语言模型表现相当。然而,由于使用大量视觉语言数据训练,其在准确响应特定指令方面存在挑战,在部分基准测试中表现有待提高。令人兴奋的是,通过高效的训练策略,可以实现无编码器的EVE与带编码器基础的视觉语言模型取得相当的性能,从根本上解决主流模型在输入尺寸灵活性、部署效率和模态容量匹配方面的问题。

相较于带编码器的模型易受到语言结构简化和丰富知识丢失等问题困扰,EVE表现出随着数据规模的增加而逐步稳定地提升性能,逐渐逼近基于编码器模型的性能水平。这可能是因为在统一网络中编码和对齐视觉和语言模态更具挑战性,使得无编码器模型相对于带编码器的模型更不容易过拟合。

业界评价

英伟达高级研究员Ali Hatamizadeh表示,EVE令人耳目一新,尝试提出全新的叙事,区别于构建繁杂的评测标准和渐进式的视觉语言模型改进。

谷歌Deepmind首席研究员Armand Joulin表示,构建纯解码器的视觉语言模型令人兴奋。

苹果机器学习工程师Prince Canuma表示,EVE架构非常有趣,对MLX VLM项目集是一个很好的补充。

未来展望

作为无编码器的原生视觉语言模型,目前EVE取得了令人鼓舞的结果。沿着这条路径,未来还有一些有趣的方向值得探索尝试:

  • · 进一步的性能提升: 实验发现,仅使用视觉-语言数据进行预训练显著地降低了模型的语言能力(SQA得分从65.3%降至63.0%),但逐步提升了模型的多模态性能。这表明在大语言模型更新时,内部存在语言知识的灾难性遗忘。建议适当融合纯语言的预训练数据,或采用专家混合(MoE)策略来减少视觉与语言模态间干扰。

  • · 无编码器架构的畅想: 通过恰当策略和高质量数据的训练,无编码器视觉语言模型可以与带编码器的模型相匹敌。那么在相同的模型容量和海量的训练数据下,二者性能如何?我们推定通过扩大模型容量和训练数据量,无编码器架构是能够达到甚至超越基于编码器架构,因为前者几乎无损地输入图像,避开了视觉编码器的先验偏置。

  • · 原生多模态的构建: EVE完整地展现了如何高效稳定地构建原生多模态模型,这为之后整合更多模态(如音频、视频、热成像、深度等)开辟了透明和切实可行的道路。核心思想是在引入大规模统一训练之前,先通过冻结的大语言模型对这些模态进行预对齐,并利用相应的单模态编码器和语言概念对齐进行监督。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/803201.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringMVC框架--个人笔记步骤总结

一、步骤 1.创建工程 2.加入springmvc依赖--pom.xml <!--springmvc依赖--> <dependency> <groupId>org.springframework</groupId> <artifactId>spring-webmvc</artifactId> <version>5.2.10.RELEASE</version> </depend…

jenkins系列-07.轻易级jpom安装

jpom是一个容器化服务管理工具&#xff1a;在线构建&#xff0c;自动部署&#xff0c;日常运维, 比jenkins轻量多了。 本篇介绍mac m1安装jpom: #下载&#xff1a;https://jpom.top/pages/all-downloads/ 解压&#xff1a;/Users/jelex/Documents/work/jpom-2.10.40 启动前修…

C语言 ——— 编写代码,判断 整型数组 是否 有序

目录 题目要求 代码实现 题目要求 判断 整型数组 是否有序 如果 整型数组 有序输出 sorted&#xff1b;否则输出 unsorted 代码实现 #include<stdio.h> int main() {int arr[10] { 0 };int sz sizeof(arr) / sizeof(arr[0]);//输入for (int i 0; i < sz; i){s…

Large Language Model系列之一:语言模型与表征学习(Language Models and Representation Learning)

语言模型与表征学习&#xff08;Language Models and Representation Learning&#xff09; 1 语言模型 N-Gram模型 from collections import defaultdictsentences [The swift fox jumps over the lazy dog.,The swift river flows under the ancient bridge.,The swift br…

分页查询

1 基础分页 1.1需求分析 我们之前做的查询功能&#xff0c;是将数据库中所有的数据查询出来并展示到页面上&#xff0c;试想如果数据库中的数据有很多(假设有十几万条)的时候&#xff0c;将数据全部展示出来肯定不现实&#xff0c;那如何解决这个问题呢&#xff1f; 使用分页…

【网络安全】PostMessage:分析JS实现XSS

未经许可&#xff0c;不得转载。 文章目录 前言示例正文 前言 PostMessage是一个用于在网页间安全地发送消息的浏览器 API。它允许不同的窗口&#xff08;例如&#xff0c;来自同一域名下的不同页面或者不同域名下的跨域页面&#xff09;进行通信&#xff0c;而无需通过服务器…

中转程序理解

P1S SRV ParserCfgFile解析配置文件&#xff08;由ATS.XML---->ATS.BIN&#xff09; CCHandler 循环调用接口&#xff0c;继承于CycleSchInterface 继承于DcsHandler800&#xff0c;收发DCS报文 继承于MsgProcessor&#xff0c;好像 收发同步消息有关 继承于DcsLogMana…

微软的vscode和vs2022快捷键官网链接

vscode官方文档:https://code.visualstudio.com/docs/ vscode快捷键官方文档:https://code.visualstudio.com/docs/getstarted/keybindings vs2022官方文档:https://learn.microsoft.com/zh-cn/visualstudio/ide/?viewvs-2022 vscode快捷键官方文档:https://learn.microsoft.c…

论文学习——基于自适应选择的动态多目标进化优化有效响应策略

论文题目&#xff1a;Effective response strategies based on adaptive selection for dynamic multi-objective evolutionary optimization 基于自适应选择的动态多目标进化优化有效响应策略&#xff08;Xiaoli Li a,b,c, Anran Cao a,∗, Kang Wang a&#xff09;Applied S…

MongoDB常用命令大全,概述、备份恢复

文章目录 一、MongoDB简介二、服务启动停止、连接三、数据库相关四、集合操作五、文档操作六、数据备份与恢复/导入导出数据6.1 mongodump备份数据库6.2 mongorestore还原数据库6.3 mongoexport导出表 或 表中部分字段6.4 mongoimport导入表 或 表中部分字段 七、其他常用命令八…

HarmonyOS 开发者联盟高级认证最新题库

本篇文章包含 Next 版本更新后高级认证题库中95%的题目。 答案正确率 50-60%&#xff0c;答案仅做参考。 请在考试前重点看一遍题目&#xff0c;勿要盲目抄答案。 欢迎在评论留言正确答案和未整理的题目。 1、下面关于方舟字节码格式PREF_IMM16_v8_v8描述正确的是 16位前缀操作…

STM32 BootLoader 刷新项目 (三) 程序框架搭建及刷新演示

STM32 Customer BootLoader 刷新项目 (三) 程序框架搭建 文章目录 STM32 Customer BootLoader 刷新项目 (三) 程序框架搭建典型工作流程 1. 硬件原理图介绍1.1 USART硬件介绍1.2 LED和按键介绍 2. STM32 CubeMX工程搭建2.1 创建工程2.2 系统配置2.3 USART串口配置2.4 配置按键G…

汇总国内镜像提供了Redis的下载地址

文章目录 1. 清华大学开源软件镜像站&#xff1a;2. 中国科技大学开源软件镜像&#xff1a;3. 阿里云镜像&#xff1a;4. 华为云镜像&#xff1a;5. 腾讯云镜像&#xff1a;6. 网易开源镜像站7. 官方GitHub仓库&#xff08;虽然不是镜像&#xff0c;但也是一个可靠的下载源&…

java学习笔记(浓缩版)

一.数据类型 整型&#xff08;4个&#xff09;&#xff1a; byte&#xff08;字节型&#xff09;、short&#xff08;短整型&#xff09;、int&#xff08;整型&#xff09;、long&#xff08;长整型&#xff09; 浮点型&#xff08;2个&#xff09;&#xff1a;float&#x…

彻底改变时尚:使用 GAN 实现 AI 的未来

彻底改变时尚&#xff1a;使用 GAN 实现 AI 的未来 一、介绍 想象一下&#xff0c;在这个世界里&#xff0c;时装设计师永远不会用完新想法&#xff0c;我们穿的每一件衣服都是一件艺术品。听起来很有趣&#xff0c;对吧&#xff1f;好吧&#xff0c;我们可以在通用对抗网络 &a…

Postman安装使用教程(详解)

目录 一、Postman是什么 二、安装系统要求 三、下载Postman 四、注册和登录Postman 五、创建工作空间 六、创建请求 一、Postman是什么 在安装之前&#xff0c;让我们先来简单了解一下Postman。Postman是一个流行的API开发工具&#xff0c;它提供了友好的用户界面用于发送…

Python 实现股票指标计算——WR

WR - 威廉指标 1 公式 威廉指标的计算公式为&#xff1a; 其中&#xff1a; &#x1d43b;&#x1d45b;​ 是过去n日内的最高价。 &#x1d43f;&#x1d45b;​ 是过去n日内的最低价。 &#x1d436; 是当前收盘价。 2 数据准备 我们以科创50指数 000688 为例&#xff0c…

如何打造一个专属网盘?可道云teamOS这些个性化设置了解一下

在这个数字化时代&#xff0c;企业对于云端存储和协作工具的需求日益增长。而网盘作为企业协作的重要工具之一&#xff0c;其个性化、定制化的需求也日益凸显。 今天&#xff0c;我要为大家介绍的是一款高度个性化的企业网盘——可道云teamOS。 满足个性化需求的企业网盘 可…

连锁直营店小程序赋能多店如何管理

如商超便利店卖货线下场景&#xff0c;也有不少品牌以同城多店和多地开店经营为主&#xff0c;获取店铺周围客户和散流&#xff0c;如今线上重要性凸显&#xff0c;品牌电商发展是经营的重要方式之一&#xff0c;也是完善同城和外地客户随时便捷消费的方式之一。 多个门店管理…

ESP8266模块简单连接以及作为作为Station连接“服务器”的问题(ERROR CLOSED)

ESP8266简介 AT指令集是从终端设备&#xff08;Terminal Equipment&#xff0c;TE)或数据终端设备&#xff08;Data Terminal Equipment&#xff0c;DTE)向终端适配器(Terminal Adapter&#xff0c;TA)或数据电路终端设备(Data CircuitTerminal Equipment&#xff0c;DCE)发送…