智源联合多所高校推出首个多任务长视频评测基准MLVU

当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此,智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准MLVU(A Comprehensive Benchmark for Multi-Task Long Video Understanding)。MLVU拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对20个最新的流行多模态大模型(MLLM)评测发现,排名第一的GPT-4o的单选正确率不足65%,揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素,期待MLVU能够推动社区对长视频理解研究的发展。

论文标题:MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

论文链接:https://arxiv.org/abs/2406.04264

项目链接:https://github.com/FlagOpen/FlagEmbedding/tree/master/MLVU

背景介绍

使用MLLM进行长视频理解具有极大的研究和应用前景。然而,当前研究社区仍然缺乏全面和有效的长视频评测基准,它们主要存在以下问题:

1、视频时长不足:当前流行的 Video Benchmark[1,2,3] 主要针对短视频设计,大部分视频的长度都在1分钟以内。

2、视频种类和任务类型不足:现有评测基准往往专注在特定领域的视频(例如电影[4, 5],第一视角[6])和特定的视频评测任务(例如Captioning[2],Temporal Perception[7],Action Understanding[8])

3、缺乏合理的长视频理解任务设计:现有部分长视频理解评测任务往往只和局部帧有关[4];或者使用针对经典电影进行问答[9],MLLMs 可以直接凭借 text prompt 正确回答问题而不需对视频进行分析。

MLVU的构建过程

针对以上不足,我们提出了MLVU:首个全面的多任务长视频理解Benchmark。MLVU具有以下特点:

1、充足且灵活的视频时长

MLVU的视频时长覆盖了3分钟到超过2小时,平均视频时长12分钟,极大扩展了当前流行的Video Benchmark的时长范围。另外,MLVU的大部分任务标注过程中进行了片段-问题对应标注(例如,Video Summarization任务分段标注了视频的前3分钟,前6分钟...)。MLLMs可以灵活地在MLVU上选择测试不同时长情况下的长视频理解能力。

2、覆盖真实和虚拟环境的多种视频来源

MLVU收集了包括电影、电视剧、纪录片、卡通动画片、监控视频、第一视角视频和游戏视频等多个类型的长视频。覆盖了长视频理解的多个领域范围。

3、针对长视频理解设计的全面任务类别

我们针对长视频理解设计了9类不同的任务,并进一步将他们任务分为三类:全面理解,单细节理解、多细节理解。

·全面理解任务:要求MLLMs理解和利用视频的全局信息来解决问题;

·单细节理解任务:要求MLLMs根据问题定位长视频中的某一细节,并利用该细节来解决问题;

·多细节理解任务:要去MLLMs定位和理解长视频中的多个相关片段来完成和解决问题。

此外,我们还包括了单项选择题形式和开放生成式问题,全面考察MLLMs在不同场景下的长视频理解能力。

(文末提供了MLVU的9类任务示例图参考)

4、合理的问题设置与高质量答案标注

以情节问答(Plot Question Answering)任务为例。一部分Benchmark[9, 10]使用电影/电视的角色作为问题线索来对MLLMs进行提问,然而他们使用的视频多为经典电影/电视,MLLMs可以直接使用自有知识回答问题而不需要对输入视频进行理解。另一部分Benchmark[4]试图避免这个问题,但由于长视频的复杂性,仅仅利用代词和描述性语句来指代情节细节非常困难,他们的问题非常宽泛或者需要在问题中额外指定具体的时间片段而不是让MLLMs自己根据题目寻找对应细节。

MLVU通过精细的人工标注克服了这些问题,在所有的情节问答任务中,MLVU均使用“具有详细细节的代词”来指代情节中的人物、事件或背景,避免了问题泄露带来的潜在影响,MLLMs需要根据问题提供的线索识别和定位相关片段才能进一步解决问题。此外,MLVU的Plot QA问题具备丰富的多样性,增强了评测的合理性和可靠性。

详细分析MLLMs在MLVU上的表现

我们在MLVU上对20个流行的MLLM进行了评测,包括开源模型和闭源模型。评测结果如下:

实验结果发现:

(1)长视频理解仍然是富有挑战的任务。尽管GPT-4o[11]在所有任务中均取得了第1名的成绩,然而,它的单选平均准确率只有64.6%。所有的模型都在需要细粒度理解能力的任务上(单细节、多细节理解任务)表现糟糕。此外,大部分模型的性能都会随着视频时长增加显著下降。

(2)开源模型和闭源模型之间存在较大的差距。开源模型中单项选择题性能最强的InternVL-1.5[12]单选平均准确度仅有50.4%;开放生成式题目最强的LLaMA-Vid得分仅有4.22,均远远落后于GPT-4o的64.6%和5.80。此外,现有长视频模型并没有在长视频理解任务上取得理想的成绩,说明当前的MLLMs在长视频理解任务上仍然存在较大的提升空间。

(3)上下文长度、图像理解能力、LLM Backbone 是MLLMs提升长视频理解能力的关键因素。实证研究发现,提升上下文窗口,提升MLLM的图像理解能力,以及使用更强大的LLM Backbone对长视频理解的性能具有显著的提升作用。这揭示了未来MLLMs在提升长视频理解能力的重要改进方向。

总结

我们提出MLVU,首个专为长视频理解任务设计的全面多任务评测基准。MLVU极大扩展了现有基准的视频长度、提供了丰富的视频类型,并针对长视频理解设计了多样化的评估任务,从而为MLLMs提供了一个可靠高质量的长视频理解评测平台。

通过评估当前流行的20个MLLMs,我们发现,长视频理解仍然是一个富有挑战和具有巨大提升空间的研究领域。通过实证研究,我们揭示了多个影响长视频理解能力的因素,为未来MLLMs的长视频理解能力构建提供了洞见。此外,我们将不断扩展和更新MLVU覆盖的视频类型和评估任务,期待MLVU能够促进社区对长视频理解研究的发展。

附录:MLVU的任务示例图

部分参考文献:

[1] Li K, Wang Y, He Y, et al. Mvbench: A comprehensive multi-modal video understanding benchmark[J]. arXiv preprint arXiv:2311.17005, 2023.

[2] Xu J, Mei T, Yao T, et al. Msr-vtt: A large video description dataset for bridging video and language[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5288-5296.

[3] Li B, Wang R, Wang G, et al. Seed-bench: Benchmarking multimodal llms with generative comprehension[J]. arXiv preprint arXiv:2307.16125, 2023.

[4] Song E, Chai W, Wang G, et al. Moviechat: From dense token to sparse memory for long video understanding[J]. arXiv preprint arXiv:2307.16449, 2023.

[5] Wu C Y, Krahenbuhl P. Towards long-form video understanding[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1884-1894.

[6] Mangalam K, Akshulakov R, Malik J. Egoschema: A diagnostic benchmark for very long-form video language understanding[J]. Advances in Neural Information Processing Systems, 2024, 36.

[7] Yu Z, Xu D, Yu J, et al. Activitynet-qa: A dataset for understanding complex web videos via question answering[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 9127-9134.

[8] Wang Z, Blume A, Li S, et al. Paxion: Patching action knowledge in video-language foundation models[J]. Advances in Neural Information Processing Systems, 2023, 36.

[9] Li Y, Wang C, Jia J. LLaMA-VID: An image is worth 2 tokens in large language models[J]. arXiv preprint arXiv:2311.17043, 2023.

[10] Lei J, Yu L, Bansal M, et al. Tvqa: Localized, compositional video question answering[J]. arXiv preprint arXiv:1809.01696, 2018.

[11] OpenAI. Gpt-4o. https://openai.com/index/hello-gpt-4o/, May 2024.

[12] Chen Z, Wang W, Tian H, et al. How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites[J]. arXiv preprint arXiv:2404.16821, 2024.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/719761.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

利用K8S技术栈打造个人私有云

1.三个节点:master,slave,client 在Kubernetes集群中,三个节点的职责分别如下: Master节点: docker:用于运行Docker容器。 etcd:一个分布式键值存储系统,用于保存Kuberne…

AI + 3D:用单个图像和文本提示创建可交互的3D世界

你是否曾经梦想过只需一张照片和一些简单的文字描述,就能立即进入一个生动的3D虚拟世界?今天,我们将介绍一个革命性的技术,它就像是一台神奇的3D场景制造机,能够根据你的想象快速构建出令人惊叹的虚拟空间。 一、技术概览 这项技术不仅仅是一个简单的图像到3D的转换工具…

PCB雕刻切割用德国自动换刀主轴SycoTec 4033 AC-ESD

随着电子行业的蓬勃发展,印刷电路板(PCB)的应用范围正在迅速扩大,涵盖了通信、计算机、消费电子等诸多领域。伴随着PCB的广泛应用,对PCB板切割加工技术的要求也日益严格。高速电主轴作为分板机的关键零部件之一&#x…

【vue3|第10期】Vue3中watchEffect详解

日期:2024年6月10日 作者:Commas 签名:(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释:如果您觉得有所帮助,帮忙点个赞,也可以关注我,我们一起成长;如果有不对的地方&#xf…

CSS详解

盒子模型&#xff08;box-sizing&#xff09; line-height与height CSS选择符和可继承属性 属性选择符&#xff1a; 示例&#xff1a;a[target"_blank"] { text-decoration: none; }&#xff08;选择所有target"_blank"的<a>元素&#xff09; /* 选…

63、上海大学:MSConvNet-多尺度卷积神经网络解码大鼠运动疲劳数据[攒劲的模型来喽]

1、介绍&#xff1a; 文章&#xff1a;<A multiscale convolutional neural network based on time-frequency features for decoding rat exercise fatigue LFP >&#xff0c;本文由上海大学于2024.4.8日发表于<Biomedical Signal Processing and Control >&…

【启明智显产品介绍】Model4 工业级HMI芯片详解系列专题(一):芯片性能

Model4 工业级HMI芯片详解系列专题&#xff08;一&#xff09;【芯片性能】 Model4系列工业级MPU是国产自主面向工业应用的RISC-V架构的应用级芯片&#xff0c;内置玄铁64bit RISC-V CPU C906&#xff0c;主频高达600MHz&#xff0c;算力约1380DMIPS。 Model4系列工业级MPU具…

App上架和推广前的准备

众所周知&#xff0c;App推广的第一步是上架各大应用下载市场&#xff0c;然后才是其他推广渠道。所以本文主要分两部分&#xff0c;第一部分主要介绍的是上架各大应用市场方面的准备&#xff0c;第二部分主要介绍的是其他渠道推广方面的准备。 一、App上架前的准备 1.1 上架…

演示:WPF开发的Diagram自动化流程图应用

一、目的&#xff1a;演示Diaram应用功能 二、预览 三、功能列表 功能模块 通用测试 流程图 仪器仪表 机器人 网络通信测试 PLC测试 轮毂生产线流程测试 图像处理 目标检测 绘图 思维导图 图表 流程图功能 模板管理 工程管理 模块许可管理 工具栏 开始 停止 删除 清除 …

任务3.8.3 利用RDD统计每日新增用户

任务目标 统计给定用户访问历史数据中&#xff0c;每日的新增用户数量。 数据准备 原始数据格式&#xff1a;每行包含两个字段&#xff0c;日期和用户名&#xff0c;以逗号分隔。示例数据&#xff1a;2024-05-01,mike 2024-05-01,alice 2024-05-01,brown ...解决方案 使用倒…

一平台一张图,撑起危化生产“安全伞”

安全生产是永恒的主题&#xff0c;是一切工作的基础。 风险辨识不到位、特种作业不合规、隐患治理不彻底、应急能力不匹配……如何从消除事故隐患、从根本上解决问题&#xff1f;随着新一代信息技术和安全生产的深度融合&#xff0c;安全生产的管理方式也在发生深刻变化。 提前…

docker怎么拉取全部镜像,打包所有镜像

因为docker&#xff0c;所以我把电脑上之前的镜像全部打包出来了 你们也可以打包&#xff0c;我提供一个脚本&#xff0c;你运行即可 export_docker.sh #!/bin/bash# 导出目录 EXPORT_DIR"docker_images_backup" mkdir -p "$EXPORT_DIR"# 获取所有镜像 …

苹果电脑压缩视频的软件,苹果电脑怎么压缩视频文件大小

在数字时代的浪潮中&#xff0c;视频已成为我们日常生活和工作中不可或缺的一部分。然而&#xff0c;视频文件的大小也在不断攀升&#xff0c;给存储和传输带来了不小的挑战。因此&#xff0c;视频压缩技术应运而生&#xff0c;成为解决这一问题的关键。本文将详细介绍视频压缩…

DS18B20温度传感器完整使用介绍(配合51单片机)

DS18B20是一款由Maxim Integrated&#xff08;原Dallas Semiconductor&#xff09;生产的数字温度传感器&#xff0c;以其高精度、低功耗、灵活的接口方式和易于使用的特性&#xff0c;在各种温度监测应用中被广泛采用。 以下是DS18B20的详细介绍&#xff1a; 基本特性 数字输…

Vue3学习日记(day3)

目录详解&#xff1a; 简单解释&#xff1a; 详细解释&#xff1a; .vscode public assets compents router views app.vue package.json package-lock.json 区别 探究文档 应用配置​ 语法合集 插值表达式​ V- HTML&#xff08;易造成xss漏洞&#xff09;​…

AMEYA360代理品牌 | 思瑞浦发布高精度12位8通道SAR ADC-TPC502200

聚焦高性能模拟芯片和嵌入式处理器的半导体供应商思瑞浦3PEAK(股票代码&#xff1a;688536)全新推出TPC502200&#xff0c;支持I2C接口的12位8通道SAR ADC。 TPC502200集成了高精度基准源&#xff0c;同时可在极端温度范围(-40C至125C)下稳定工作。TPC502200凭借强大的性能优势…

基于协同过滤算法的电影推荐

基于协同过滤算法的电影推荐 电影推荐系统使用了基于**协同过滤&#xff08;Collaborative Filtering&#xff09;的算法来生成推荐。具体来说&#xff0c;使用了基于用户的协同过滤&#xff08;User-Based Collaborative Filtering&#xff09;**算法&#xff0c;步骤如下&am…

网络安全:什么是SQL注入

文章目录 网络安全&#xff1a;什么是SQL注入引言SQL注入简介工作原理示例代码 攻击类型为什么SQL注入危险结语 网络安全&#xff1a;什么是SQL注入 引言 在数字化时代&#xff0c;数据安全成为了企业和个人最关心的问题之一。SQL注入&#xff08;SQL Injection&#xff09;是…

vue大作业-实现学校官网

vue大作业-实现学校官网 基于vue2实现的学校官网 项目展示 学校官网介绍 欢迎访问我们学校的官方网站&#xff0c;这里为您提供了全面的信息和资源&#xff0c;帮助您更好地了解我们的教育理念、教学资源和学术活动。 首页 首页是您了解我们学校的起点。这里展示了学校的最…

0基础也能轻松玩转首尔哦,柯桥零基础韩语培训

不会韩语的姐妹们千万不要担心来韩国语言不通很麻烦&#xff01;&#x1f609; 教你们5招&#xff0c;0基础也能轻松玩转首尔哦&#xff01;&#x1f1f0;&#x1f1f7;&#x1f495; . &#x1f4cd;Tip 1&#xff1a;使用翻译App&#xff0c;说好不说坏&#xff01; 本人亲测…