GPT-4o仅排第二!北大港大等6所高校联手,发布权威多模态大模型榜单!

多模态大模型视频分析能力榜单出炉:

Gemini 1.5 Pro最强,GPT-4o仅排第二? 曾经红极一时的GPT-4V屈居第三。

3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com

最近,北大港大等6所高校联手,发布首个专为视频分析设计的多模态大模型评估基准——Video-MME。在该基准中,冠军Gemini 1.5 Pro甩开第二名GPT-4o近10分,第三名GPT-4V近15分。

而在开源模型中,最高分为LLaVA-NeXT-Video,但总体准确率只有52.5%,远远不及商业模型,还有较大提升空间。

论文标题:
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

论文链接
https://arxiv.org/pdf/2405.21075

Video-MME是首个专为视频分析设计的多模态大模型评估基准,包含900段视频,并为每段视频设计了2,700个高质量的多选题,如下图例子所示:

Video-MME涵盖6大视觉领域,包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言,并进一步细分为天文学、科技、纪录片等30个类别视频长度从11秒到1小时不等。此外,Video-MME还整合字幕和音频轨道,增强了对视频理解的多模态输入分析。

更难能可贵的是,Video-MME中所有数据,包括问答、视频、字幕和音频,都是手工收集和整理的,确保了该基准的高质量。数据集详细信息可在官方链接中获取:

https://video-mme.github.io/

Video-MME构建过程

Video-MME数据集的构建过程分为三个步骤:

  • 视频收集:作者根据YouTube的流行趋势定义了6个关键领域:知识、电影与电视、体育竞赛、生活记录和多语言。每个领域又进一步细分为详细的标签,例如体育竞赛中的足球和篮球,总共得到30个精细分类的视频类别。然后从YouTube中收集不同长度的视频,包括短(少于2分钟)、中(4-15分钟)和长(30-60分钟)视频,同时还获取了视频的字幕与音频。

  • 问题-答案标注:为方便评估,该基准采用选择题格式,由本文的所有作者人工标注。所有的标注人员首先观看整个视频内容,然后通过反复观看视频,为每个视频生成3个相关问题,每个问题有4个备选答案,总计获得2,700个QA对。问题类型共有12种如下图所示,包括感知、推理和信息概要等。

  • 质量审查:不同的标注人员每个QA对交叉审核,确保语言表达准确、问题可答且答案合理。另外为增强问题挑战性,使用Gemini 1.5 Pro过滤需要视频辅助才能回答的QA对。也就是说将纯文本问题输入Gemini 1.5 Pro,如“2022年阿根廷的十大成就是什么?”这类不需要视频也能回答的问题将被过滤。Gemini 1.5 Pro在纯文本问题下的准确率低于15%。

最终Video-MME包含总共900个视频、713个字幕和869个音频文件,大多数视频都配有字幕和音频,为研究外部信息对视频理解性能的影响提供了宝贵的资源。

Video-MME统计分析

QA对质量分析

经过统计,Video-MME中QA对的风格相对统一、答案分布均匀,确保了评价的公平。如下表所示,问题、选项和答案的单词数在不同视频长度之间表现出明显的一致性。四个答案选项(A/B/C/D)的分布较为接近,分别为25.2%/27.2%/25.2%/22.3%。另一方面,字幕的单词数随着视频长度的增加而显著增加,例如,短视频的平均单词数为200.9,而长视频子集的单词数可达6,500。随着字幕的增加量表明较长的视频包含更多信息。

Video-MME-S/M/L表示短/中/长部分

▲Video-MME-S/M/L表示短/中/长部分

Video-MME挑战性分析

在视频分析领域,确定一个QA对是否有难度,可采用“Certificate Length Analysis(证书长度分析)”的方法[1]。证书长度计算为识别出的子片段的总时长之和。从下表中可以看到,对于短、中、长视频,其证书长度的中位数分别为26.0秒、167.3秒和890.7秒。与EgoSchema的证书长度相比,Video-MME的中长视频子集需要更长的视频内容理解才能回答问题,也就是说更具挑战性

Video-MME VS. 其他基准

传统视频基准如MSRVTT-QA、MSVD-QA等多聚焦于电视视频等特定领域,缺乏层次结构,不适用于全面诊断MLLMs的局限性。尽管有一些基准如TempCompass和MVBench涉及开放领域和多级评估,但视频时长较短。

Video-MME作为首个涵盖开放领域、时长从11秒至1小时的手动标注的基准,评估了多层次视频理解能力,并包含字幕、音频等元信息,可全面推动为MLLMs的评估与开发。

详细分析MLLMs在Video-MME上的表现

评估采用“整段视频帧+完整字幕(可选)+带有提示的问题”的格式。默认模型的原有的提示,如果没有则使用如下常见的提示:

正如前文提到,在3个商业模型以及5个开源视频多模态语言模型,还有3个先进的图像多模态语言模型的横向对比中,Gemini 1.5 Pro大获全胜

Gemini 1.5 Pro表现突出

另外,如下图所示,Gemini 1.5 Pro在六大视频类别中,电影与电视识别准确率最高(79.1%),体育竞赛最低(71.1%)。随着视频时长增长,其性能下降14.8%,凸显了模型在捕捉长时序关系方面的不足。尽管如此,Gemini 1.5 Pro在长视频上的表现仍超越所有开源模型在短视频上的性能

除视觉帧外,Gemini 1.5 Pro还支持字幕和音频输入,**在融合了音频后,长视频中准确率提高了7.2%,特别是多语言类别提高了16.6%**。这表明,字幕和音频对于提升模型的视频理解能力有所帮助。

开源模型仍存在显著差距

在不同类的任务中,开源模型如LLaVA-NeXT-Video和InterVL-Chat-V1.5离商业模型还有很大的差距,特别是在计数问题、动作识别和时间感知方面,差距明显。

Video-MME也可用于评估图像MMLMs

除了视频多模态模型,Video-MME也可用于评估图像MMLMs。据下表所示,基于图像的Qwen-VL-Max和InterVL-Chat-V1.5模型在性能上与LLaVA-NeXT-Video相当,这一发现充分展示了图像MMLMs在序列数据处理上的出色泛化能力。同时,这也进一步强调了图像理解作为视频理解基础的重要地位。

除此之外,本文还做了额外的分析,探索哪些因素会影响模型视频理解的性能。

影响视频理解性能的因素有哪些

额外的模态是否能提升性能

大多数评估仅使用视频帧作为输入,要求模型仅依赖视觉上下文来回答问题。然而,许多视频本质上包含来自其他模态的额外信息,如字幕和音频。

视频本身就是一个多模态集合体,除了视觉帧外,还包含字幕、音频等其他模态,这些模态对视频理解是否有帮助?答案是肯定的

作者发现:

  • 引入字幕和音频能显著提升模型性能。 例如,Gemini 1.5 Pro在添加音频后,长视频准确率提高了16.6%,额外的模态为回答问题提供了关键信息。

  • 对于长视频,字幕和音频的作用尤为明显。在短视频中,字幕仅带来2.4%的提升,但在长视频中提升至8.8%,这可能是因为长视频包含更多需要推理的难题,需要模型利用更多模态信息。

  • 在多模态模型中,字幕比音频更有效。字幕主要捕捉语音内容,而音频则包含更多环境声音。在实验中,字幕通常带来更高的性能提升。特别在多语言任务中字幕质量对效果的影响很大。

MLLMs如何应对不同视频时长的挑战?

通过对比不同模型在短、中、长视频上的性能,作者发现随着视频时长增加,无论是开源还是商业模型,性能均出现显著下滑

LLaVA-NeXT-Video的准确率从短视频到中视频减少了12%,从短视频到长视频更是减少了18.5%;而Gemini 1.5 Pro的准确率也分别下降了7%和14.8%。

性能下降的原因本文主要总结了三点:

  • 一是长视频中困难任务比例增加,尤其是推理问题增多,对模型构成更大挑战;

  • 二是帧采样稀疏,导致输入信息减少,许多模型固定输入帧数,如8帧,这在长视频中造成信息密度过低,影响模型预测;

  • 三是长文本理解难度增大,即使Gemini 1.5 Pro增加了帧采样数,长上下文理解仍是一个挑战。

虽然引入额外模态如字幕,可以有效补充缺失信息,提升模型性能。但部分开源MLLMs仅支持有限的输入帧难以理解长序列任务,因此需要创新的架构来扩展上下文。在未来提升多模态大模型的长序列理解能力将成为一大研究趋势

结语

数据集是大模型领域技术进步的基石,相比文本和图像数据集来说,目前视频数据集仍然不足,特别是涉及长视频的复杂高质量数据集更是凤毛麟角。本文提出的首个全面的视频分析多模态基准——Video-MME正好弥补了这一不足。其涵盖了各种类型的视频、不同的时长和多种数据模态,所有内容都配以高质量、专家标注的问答对,对于现有的开源模型来说极具挑战性,相信其能激发MLLMs的进一步发展的需求。

参考资料

[1]K. Mangalam, R. Akshulakov, and J. Malik. Egoschema: A diagnostic benchmark for very long-form video language understanding. In NeurIPS, 2024.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/691879.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python代码中参数的默认值

python中的函数,可以给形参指定默认值。 带有默认值的参数,可以在调用的时候不传参。 如上图所示,在给函数设定形参的时候可以给函数形参设定默认值,当然默认参数的形参应该在非默认形参的后面。 如果在调用函数的时候&#xff…

【机器学习】因TensorFlow所适配的numpy版本不适配,用anaconda降低numpy的版本

目录 0 TensorFlow最高支持的numpy版本 1 激活你的环境(如果你正在使用特定的环境) 2 查找可用的NumPy版本 3 安装特定版本的NumPy 4. 验证安装 5.(可选)如果你更改了base环境 0 TensorFlow最高支持的numpy版本 要使用 …

测试基础11:测试用例设计方法-等价类划分

课程大纲 1、概述 1.1测试用例设计方法意义 穷举测试:每种输入都测一次。最完备,但不现实。 使用设计方法,用最少的数据(成本),实现最大的测试覆盖。 1.2常用设计方法 ①等价类划分 ②边界值分析 ③错误推…

SpringBoot+Vue网上购物商城系统(前后端分离)

技术栈 JavaSpringBootMavenMySQLMyBatisVueShiroElement-UI 系统角色对应功能 用户商家管理员 系统功能截图

【安装笔记-20240608-Linux-免费空间之三维主机免费空间】

安装笔记-系列文章目录 安装笔记-20240608-Linux-免费空间之三维主机免费空间 文章目录 安装笔记-系列文章目录安装笔记-20240608-Linux-免费空间之三维主机免费空间 前言一、软件介绍名称:三维主机免费空间主页官方介绍 二、安装步骤测试版本:openwrt-…

ROS学习记录:栅格地图格式

一、机器人导航所使用的地图数据,就是ROS导航软件包里的map_server节点在话题 /map 中发布的消息数据,消息类型是nav_msgs消息包中的OccupancyGrid,它的中文意思的占据栅格,是一种正方形小格子组成的地图。 二、对障碍物进行俯视&…

基于STM32智能小车

一、前置准备 前置知识:需要学习stm32,建议去b站看江科大的视频,讲的很详细,学完串口那一块就可以制作了,软件用的是Keil5,开发语言C语言,手机连接蓝牙模块软件是蓝牙调试器。 需要准备的器件…

const详解

关键字const用来定义常量,如果一个变量被const修饰,那么它的值就不能再被改变。 但是,可以通过取地址进行修改。 将const 在指针前进行修饰,那么就修饰指针所指向的变量。 但是指针变量可以被修改。 将const 在指针后进行修饰&am…

轻松连接远程服务器SecureCRT for Mac/Windows

SecureCRT是一款功能强大的终端仿真器和文件传输工具,专为网络管理员、开发人员和系统工程师设计。它支持SSH、Telnet、RDP和串口等多种协议,提供安全、高效的远程访问和管理体验。SecureCRT具有多窗口/多标签管理、自定义终端仿真、颜色方案优化等高级功…

30-unittest生成测试报告(HTMLTestRunner插件)

批量执行完测试用例后,为了更好的展示测试报告,最好是生成HTML格式的。本文使用第三方HTMLTestRunner插件生成测试报告。 一、导入HTMLTestRunner模块 这个模块下载不能通过pip安装,只能下载后手动导入,下载地址是:ht…

DOM型xss靶场实验

DOM型xss可以使用js去控制标签中的内容。 我使用的是一个在线的dom型xss平台&#xff0c;靶场链接&#xff1a;Challenges 第一关Ma Spaghet!&#xff1a; Ma Spaghet! 关卡 <h2 id"spaghet"></h2> <script>spaghet.innerHTML (new URL(locatio…

数字校园的优势有哪些

数字化时代下&#xff0c;数字校园已成为教育领域一股显著趋势。数字校园旨在借助信息技术工具对传统校园进行改造&#xff0c;提供全新的教学、管理和服务方式。那么&#xff0c;数字校园究竟具备何种优势&#xff1f;现从三个方面为您详细介绍。 首先&#xff0c;数字校园为教…

【NI国产替代】产线测试:数字万用表(DMM),功率分析仪,支持定制

数字万用表&#xff08;DMM&#xff09; • 6 位数字表显示 • 24 位分辨率 • 5S/s-250KS/s 采样率 • 电源和数字 I/O 均采用隔离抗噪技术 • 电压、电流、电阻、电感、电容的高精度测量 • 二极管/三极管测试 功率分析仪 0.8V-14V 的可调输出电压&#xff0c;最大连…

鸿业的【管立得】设计的地下管线BIM模型如何导入到图新地球

0序&#xff1a; 在城乡建设行业&#xff0c;不论是园区的建设还是整个区划的智慧城市应用&#xff0c;地下管线都是很重要的组成元素。地下管线的直接测绘成果是管点表、管线表&#xff0c;存档及交付的成果多数是CAD文件&#xff0c;在智慧城市、市政工程、三维GIS信息化平台…

linux系统——ping命令

ping命令可以用来判断对远端ip的连通性&#xff0c;可以加域名也可以加公共ip地址 这里发送出56字节&#xff0c;返回64字节

How to: Add and Customize the Ribbon Skin List and Skin Gallery

皮肤列表和皮肤库允许用户选择皮肤。本文介绍如何在功能区中显示“皮肤列表”或“皮肤库”并对其进行自定义。 DevExpress演示中心中的大多数应用程序都允许您选择皮肤。例如&#xff0c;运行XtraGrid演示并导航到皮肤功能区页面以更改当前皮肤。 在功能区UI中显示皮肤列表或…

多模态模型是什么意思(国内外的AI多模态有哪些)

在人工智能和机器学习的领域&#xff0c;我们经常会遇到一些专业术语&#xff0c;这些术语可能会让初学者感到困惑。其中&#xff0c;"多模态模型"就是这样一个概念。 什么是AI多模态。它是什么意思呢&#xff1f; 那么&#xff0c;多模态模型是什么意思呢&#xff1…

前端工程化:基于Vue.js 3.0的设计与实践

这里写目录标题 《前端工程化&#xff1a;基于Vue.js 3.0的设计与实践》书籍引言本书概述主要内容作者简介为什么选择这本书&#xff1f;结语 《前端工程化&#xff1a;基于Vue.js 3.0的设计与实践》书籍 够买连接—>https://item.jd.com/13952512.html 引言 在前端技术日…

MySQL基础_10.约束

文章目录 第一章、约束1.1 约束的定义1.2 非空约束1.3 唯一性约束1.4 主键约束1.5 自增列1.6 外键约束1.7 CHECK约束1.8 DEFAULT约束 第一章、约束 1.1 约束的定义 约束是对表中字段的限制。 约束按照作用范围可以分为&#xff1a;列级约束和表级约束 列级约束&#xff1a;声…

人体感应提醒 大声公+微波模块

文章目录 模块简介接线程序示例 模块简介 微波感应开关模块 RCWL-0516是一款采用多普勒雷达技术&#xff0c;专门检测物体移动的微波感应模块。采用 2.7G 微波信号检测&#xff0c;该模块具有灵敏度高&#xff0c;感应距离远&#xff0c;可靠性强&#xff0c;感应角度大&#…