英伟达发布 VILA 视觉语言模型,实现多图像推理、增强型上下文学习,性能超越 LLaVA-1.5

前言

近年来,大型语言模型 (LLM) 的发展取得了显著的成果,并逐渐应用于多模态领域,例如视觉语言模型 (VLM)。VLM 旨在将 LLM 的强大能力扩展到视觉领域,使其能够理解和处理图像和文本信息,并完成诸如视觉问答、图像描述生成等任务。然而,现有的 VLM 通常缺乏对视觉语言预训练过程的深入研究,导致模型在多模态任务上的性能和泛化能力受限。为了解决这个问题,英伟达的研究人员发布了 VILA,一种全新的 VLM,通过改进的预训练方法实现了多图像推理、增强型上下文学习等能力,并在多个基准测试中性能超越了 SOTA 模型 LLaVA-1.5。

  • Huggingface模型下载:https://huggingface.co/Efficient-Large-Model/Llama-3-VILA1.5-8B

  • AI快站模型免费加速下载:https://aifasthub.com/models/Efficient-Large-Model

技术特点
优化视觉语言预训练过程

VILA 的核心技术在于对视觉语言预训练过程的优化。研究人员通过对预训练数据集、训练策略和模型架构进行深入研究,发现了影响 VLM 性能的关键因素:

  • 更新 LLM 传统的 VLM 预训练方法通常冻结 LLM 参数,仅训练视觉编码器和投影层。而 VILA 发现,更新 LLM 参数对于模型的上下文学习能力至关重要。通过更新 LLM,模型能够更好地将视觉和文本特征融合到深层网络中,从而提高对多模态信息的理解能力。

  • 交错式视觉语言数据: VILA 发现,使用交错式视觉语言数据(例如 MMC4 数据集)进行预训练,能够更好地保留 LLM 的文本处理能力,并提升模型在视觉语言任务上的性能。与仅包含图像-文本对的数据集相比,交错式数据集更接近于 LLM 预训练所使用的纯文本语料,因此能够更有效地进行模态对齐。

  • 联合监督微调: 为了弥补预训练过程中 LLM 文本能力的下降,VILA 采用联合监督微调方法,将纯文本指令数据添加到视觉语言指令数据中进行微调。这种方法不仅能够恢复 LLM 的文本能力,还能提升模型在视觉语言任务上的准确率。

简单高效的模型架构

VILA 采用了简单高效的模型架构,包括视觉编码器、LLM 和投影层。视觉编码器用于提取图像特征,LLM 用于处理文本和视觉特征,投影层用于将视觉特征映射到 LLM 的输入空间。VILA 使用 CLIP 模型作为视觉编码器,并使用 Llama-2 作为 LLM。投影层则采用简单的线性层,以保证模型的效率。

性能表现

VILA 在 12 个视觉语言基准测试中展现出优异的性能,并超越了 SOTA 模型 LLaVA-1.5,例如:

  • VQAv2: VILA-13B 的准确率达到了 80.8%,高于 LLaVA-1.5-13B 的 80.0%。

  • GQA: VILA-13B 的准确率达到了 63.3%,高于 LLaVA-1.5-13B 的 63.3%。

  • TextVQA: VILA-13B 的准确率达到了 73.7%,高于 LLaVA-1.5-13B 的 71.6%。

  • 多语言能力: VILA 在 MMBench-Chinese 基准测试中也取得了优异的成绩,表明其具有多语言处理能力。

此外,VILA 还表现出强大的文本处理能力,在 MMLU、BBH 和 DROP 等文本基准测试中也取得了与 Llama-2 相当的成绩。

应用场景

VILA 凭借其强大的性能和多模态理解能力,在众多应用场景中具有巨大潜力:

  • 视觉问答: VILA 可以用于回答与图像相关的问题,例如“图片中有什么?”、“这个人正在做什么?”等。

  • 图像描述生成: VILA 可以根据图像内容生成详细的描述,例如“这是一张海滩的照片,沙滩上有很多人在晒太阳”。

  • 多模态对话: VILA 可以与用户进行多模态对话,例如用户可以上传一张图片并询问相关问题,VILA 可以根据图片内容进行回答。

  • 多图像推理: VILA 能够理解多张图片之间的关系,并进行推理,例如找出多张图片中的共同点或差异。

总结

VILA 是英伟达发布的一款全新的视觉语言模型,通过优化预训练方法实现了多图像推理、增强型上下文学习等能力,并在多个基准测试中性能超越了 SOTA 模型 LLaVA-1.5。VILA 的发布表明,视觉语言预训练对于 VLM 的性能提升至关重要,而交错式数据、LLM 参数更新和联合监督微调则是提升 VLM 性能的关键因素。相信 VILA 将会推动 VLM 的进一步发展,为多模态人工智能应用带来更多可能性。

模型下载

Huggingface模型下载

https://huggingface.co/Efficient-Large-Model/Llama-3-VILA1.5-8B

AI快站模型免费加速下载

https://aifasthub.com/models/Efficient-Large-Model

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/631415.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在springboot项目中自定义404页面

今天点击菜单的时候不小心点开了一个不存在的页面,然后看到浏览器给的一个默认的404页面 后端的程序员都觉得这页面太丑了,那么怎么能自定义404页面呢? 很简单,在我们的springboot的静态资源目录下创建一个error包,然…

开发属于自己的Spring Boot Starter-18

为什么要开发专用的Spring Boot Starter Spring在通常使用时,一般是通过pom.xml文件中引入相关的jar包,然后再通过application.yml文件配置初始化bean的配置,但随着项目越来越复杂或是项目组中的应用数量越来越多,可能会带来几个…

邦注科技 即热式节能模温机的原理及应用介绍

模温机是一种用于控制模具温度的设备,它在各种工业领域中发挥着重要作用,特别是在塑料加工行业中。以下是关于模温机的原理及应用的详细介绍: 原理 模温机的工作原理主要是通过加热和冷却功能,维持模具温度在一个恒定的范围内。…

Redis - hiredis源码安装和接口使用介绍

一、hiredis源码安装说明 本文创作基于 hiredisv1.2.0版本 1.简介 hiredis是一个用于与Redis交互的C语言客户端库。它提供了一组简单易用的API,使开发人员可以轻松地连接到Redis服务器,并执行各种操作,如设置和获取键值对、执行命令、订阅和…

绝地求生:29.2商城更新内容预览:挣脱尘网通行证,经典皮肤返场,空投活动

就在今天历经9小时维护,29.2版本终于上线,柠檬茶带大家一起看看,这次游戏里都更新了哪些内容吧。 挣脱尘网通行证 豪华版:$14.99 普通版:$4.99 豪华版比普通版多10级升级券和2套生存者宝箱 分支一 分支二 分支三 额外…

我21岁玩“撸货”,被骗1000多万

最近,撸货业界内发生了一些颇受瞩目的事件。 在郑州,数码档口下面抢手团长跑路失联,涉及金额几百万,在南京,一家知名的电商平台下的收货站点突然失联,涉及金额高达一千多万,令众多交易者震惊不已…

【oracle】图片转为字节、base64编码等形式批量插入oracle数据库并查询

1.熟悉、梳理、总结下Oracle相关知识体系 2.欢迎批评指正,跪谢一键三连! 资源下载: oci.dll、oraocci11.dll、oraociei11.dll3个资源文件资源下载: Instant Client Setup.exe资源下载: oci.dll、oraocci11.dll、oraoc…

CTFshow 爆破

第一题0 抓包发现输入账号密码后数据包会多一个base64编码 所有推出用户密码在传输的时候进行了加密 所以爆破时也用base64加密 设置paylod 用题目给的字典 在添加两条规则 第一个是增加前缀 admin: 第二个是使得payload进行base64编码 取消URL编码字符 因为会把号编码了 开…

【多模态】31、Qwen-VL | 一个开源的全能的视觉-语言多模态大模型

文章目录 一、背景二、方法2.1 模型架构2.2 输入和输出2.3 训练 三、效果3.1 Image Caption 和 General Visual Question Answering3.2 Text-oriented Visual Question Answering3.3 Refer Expression Comprehension3.4 视觉-语言任务的少样本学习3.5 真实世界用户行为中的指令…

【FPGA、maltab】基于FPGA的SOQPSK调制解调技术的设计与实现

基于FPGA的SOQPSK调制解调技术的设计与实现 SOQPSK一、QPSK、OQPSK、SOQPSK之间的关系二、SOQPSK调制原理 matlab 仿真FPGA 实现顶层设计发射模块接收模块顶层调制解调FPGA代码 SOQPSK 一、QPSK、OQPSK、SOQPSK之间的关系 SOQPSK(Shaped Offset Quadrature Phase …

Oracle 自治数据库 Select AI 初体验

这几天有点时间,准备尝试下Oracle Select AI,虽然此功能2023年就已经发布了。 Oracle自治数据库已经集成好了Select AI,本文也是讲的这个。 配置 Select AI 需要以下步骤: 创建ADB申请Cohere/OpenAI免费账号设置ADB测试Select…

第十七篇:数据库性能优化的数学视角:理论与实践的融合

数据库性能优化的数学视角:理论与实践的融合 1. 引言 在现代信息技术快速发展的背景下,数据库性能优化已经成为计算机科学领域的一个热点问题。随着数据量的爆炸式增长和用户需求的多样化,数据库系统所承载的数据处理任务变得越来越复杂&…

unity制作app(7)--panel control

根据用户的状态,在界面中显示不同的panel 1.新建一个脚本PanelControl,控制各个脚本的显示与隐藏 2.实现第一个逻辑判断功能:如果没有登记过信息,就直接跳转到登记界面,如果登记过,跳转到住界面。许多需要…

2A 150KHz 40V Buck DC to DC 转换器XL1509

前言: 该器件仅做介绍,不推荐在新设计中使用。 新设计应尽量使用MHZ开关频率,以降低电感量,从而降低成本。 新设计应使用同步DCDC降压转换器。 XL1509丝印和封装 引脚定义 XL1509管脚描述 管脚编号 管脚名称 管脚描述 1 电压输入…

Online RL + IL :Policy Improvement via Imitation of Multiple Oracles

NIPS 2020 paper code 如何利用多个次优专家策略来引导智能体在线学习,后续有多个文章研究该设定下的RL。 Intro 论文探讨了在强化学习(RL)中,如何通过模仿多个次优策略(称为oracle)来提升策略性能的问题…

宁静致远(“静”)

宁静致远是一个成语,读音为nng jng zh yuǎn,意思是只有心境平稳沉着、专心致志,才能厚积薄发、 有所作为。出自《淮南子:主术训》。 出处 宁静致远张铭篆刻 此句最早出自西汉初年道家刘安的《淮南子:主术训》,蜀汉丞相诸葛亮的…

TEMU电商行情分析:未来趋势与盈利机遇探讨

近年来,跨境电商行业风起云涌,其中TEMU作为新兴力量,其市场表现备受关注。那么,TEMU电商现在的行情究竟如何?对于卖家而言,是否仍然是一个能够赚钱的平台呢? 首先,从市场趋势来看 TEMU电商正处于一个快速…

创建按钮的第二种方法

可以设置两个参数,按钮的内容和父对象 QPushButton * button2 new QPushButton("第二个按钮",this); 区别: 方式1:窗口默认大小,按钮显示在左上角 方式2:窗口是根据按钮的大小来创建的 (所以需要重置窗…

Java入门基础学习笔记27——生成随机数

Random的使用:生成随机数。 随机数应用: 随机点名: 年会抽奖: 猜数字游戏: 密码学。 查看API文档: package cn.ensource.random;import java.util.Random;public class RandomDemo1 {public static voi…

强化学习的优化策略PPO和DPO

DPO DPO(直接偏好优化)简化了RLHF流程。它的工作原理是创建人类偏好对的数据集,每个偏好对都包含一个提示和两种可能的完成方式——一种是首选,一种是不受欢迎。然后对LLM进行微调,以最大限度地提高生成首选完成的可能性,并最大限…