InternVideo2重塑视频理解新标杆,多模态学习引领行业风向


1f3333e0b6d7491337dd93e0a72010dc.jpeg

4dd80678b6cf927bd70e157fb704dfc4.jpeg

引言:视频理解的新篇章——InternVideo2的介绍

随着视频内容在日常生活中的普及,视频理解技术的重要性日益凸显。视频不仅包含丰富的视觉信息,还蕴含着动态变化和多模态元素,如音频和文本。这些特性使得视频成为一个复杂的数据类型,对其进行深入理解和分析是一项挑战。近年来,随着大型语言模型(LLM)和多模态大型语言模型(MLLM)的发展,视频理解领域迎来了新的发展机遇。这些模型通过学习世界模型,为视频嵌入提供了新的视角,从而推动了视频理解技术的进步。

在此背景下,我们介绍了一种新的视频基础模型(ViFM)——InternVideo2。InternVideo2采用了渐进式训练范式,统一了不同的自监督或弱监督学习框架,包括遮蔽视频标记重建、跨模态对比学习和下一个标记预测。这些训练阶段引导模型通过不同的前置任务捕获不同层次的结构和语义信息。在数据层面,我们优先考虑时空一致性,通过语义分割视频并生成视频-音频-语音字幕,改善了视频与文本之间的对齐。我们对InternVideo2的数据和模型规模进行了扩展。通过广泛的实验,我们验证了我们的设计,并展示了InternVideo2在超过60个视频和音频任务上取得了最先进的性能。值得注意的是,我们的模型在各种视频相关的字幕、对话和长视频理解基准测试中表现优异,凸显了其在推理和理解长时间上下文方面的能力。

论文标题:INTERNVIDEO2: SCALING VIDEO FOUNDATION MODELS FOR MULTIMODAL VIDEO UNDERSTANDING

机构:OpenGVLab, Shanghai AI Laboratory, Zhejiang University, The University of Hong Kong, Nanjing University, Fudan University, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences

项目地址:https://github.com/OpenGVLab/InternVideo2

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

InternVideo2模型架构:三阶段的渐进式学习方法

InternVideo2模型采用了一种渐进式学习方法,该方法包括三个阶段:遮蔽视频令牌重建、跨模态对比学习和下一个令牌的预测。这些阶段旨在提高模型的时空感知能力,将其与其他模态的语义对齐,并通过下一个令牌预测来增强其世界模型。

da969ca438c701d7b8202f37a8b43a23.png

2d48dc03cce59dbde80c3b783414b504.jpeg

1. 遮蔽视频令牌重建

在遮蔽视频令牌重建的初始阶段,模型学习重建被遮蔽的视频令牌,使视频编码器能够发展基本的时空感知。为了估计被遮蔽的令牌,使用了不同训练的视觉编码器(InternViT和VideoMAE-g)作为代理。这一阶段的学习目标是通过重建剩余的令牌来形成,其中包括最小化相关未遮蔽令牌的均方误差(MSE)。

2. 跨模态对比学习

在多模态学习的下一阶段,架构扩展为包括音频和文本编码器。这不仅提高了视频和文本之间的对齐,还使InternVideo2能够处理视频-音频任务。通过结合这些额外的模态,模型对视频的理解得到了丰富,并与音频提供的语义对齐。

3. 下一个令牌的预测

在下一个令牌预测阶段,利用视频中心对话系统和相应的指令微调数据集来训练InternVideo2。这一迁移学习过程使模型能够从LLM和其他知识中受益。通过将InternVideo2连接到LLM,视频编码器通过下一个令牌预测训练进一步更新,增强了其生成上下文相关下一个令牌的能力。

数据处理的创新:时空一致性的重要性

在数据处理方面,InternVideo2强调了时空一致性的重要性。通过语义分割视频并生成视频-音频-语音字幕,改进了视频和文本之间的对齐。

1. 视频剪辑的语义分割

为了保持时空一致性,使用AutoShot模型代替传统的SceneDet滤镜来分割视频剪辑。AutoShot基于时间语义变化而不是像素差异来预测边界,从而生成语义完整的剪辑,避免混入不一致的上下文。

2. 视频、音频和语音字幕的生成与融合

在MVid数据集中,视频来自多个来源,包括YouTube和其他匿名来源,以提高数据集的多样性。对于视频数据集,首先保留超过2秒的剪辑。对于超过30秒的视频剪辑,如果剪辑中的片段来自同一镜头,则随机选择一个30秒的片段。此外,还自动为MVid的视觉、音频和语音生成字幕,然后使用LLM校正并融合它们,以便训练使用。

实验验证:跨越70个视频理解任务的表现

1. 动作识别

在动作识别方面,InternVideo2在多个数据集上进行了测试,包括Kinetics(K400、K600和K700)、Moments in Time V1(MiT)、Something-Something V2(SSv2)、UCF、HMDB、Charades、ActivityNet(ANet)和HACS。实验结果显示,InternVideo2在使用16帧的情况下,就能在这些数据集上取得新的最佳表现,超越了以往需要更高分辨率(例如224对比576)或模型集成的SOTA(State-of-the-Art)结果。例如,在MiT数据集上,InternVideo2-6B的表现超过了之前的SOTA,CoCa-g,达到了51.2%的准确率,比CoCa-g高出2.2%。在强调时间动态的Something-Something V2数据集上,InternVideo2-6B也以77.5%的准确率超越了MVD(77.3%)。此外,InternVideo2-6B在未裁剪视频分析上的表现也是顶尖的,例如在ActivityNet上达到了95.9%,在HACS上达到了97.0%。

3969f0187ad975c6e3414308c4f0d06e.jpeg

55d1f8feb1f5d98b8c673f9a6fd06d1b.jpeg

2. 视频-文本任务

在视频-文本任务方面,InternVideo2在视频检索、视频字幕和多选视频问答(QA)等任务上进行了评估。在视频检索任务中,使用阶段2中的文本编码器,将视频表示与候选文本进行匹配。在多选视频问答任务中,使用阶段3中学习的VideoLLM进行测试。此外,InternVideo2还在音频任务上进行了测试,展示了其在音频和文本编码器上的优势。

3. 视频中心对话

在视频中心对话方面,InternVideo2在MVBench、VideoChatGPT-Eval和MoVQA等数据集上的表现突出,不仅在平均分数上超过了其他系统,而且在每个子任务上(详见补充材料)也表现出色,除了在VideoChatGPT-Eval上。这些结果表明,InternVideo2确实嵌入了部分世界模型的知识,至少与其他模型相比是这样。这也验证了学习可转移视频表示对当前视频相关的MLLM(多模态大型语言模型)的重要性。

InternVideo2的优势:长视频理解与推理能力

InternVideo2在长视频理解和推理基准测试中表现出色,这突显了其在长时间上下文理解和推理能力方面的优势。在长视频或程序感知问答(QA)等复杂推理任务中,InternVideo2展现了其分析和推理一系列动作的能力。这些成果不仅证明了InternVideo2在视频感知、视频-语言对齐以及世界模型构建方面的卓越能力,还标志着其在多模态语言模型(MLLM)领域的各种基准测试中的顶级性能,有效地捕捉和理解视频内容。

模型的局限性与未来方向:固定输入分辨率和采样率的挑战

1. 模型的局限性

尽管InternVideo2在多模态视频理解任务中取得了显著的成绩,但它并没有引入新的训练方法或架构上的创新。相反,它利用现有的学习技术进行方案探索,同时专注于改进数据处理,以增强时空感知、语义对齐和基础知识嵌入。与先前的研究类似,InternVideo2仍然面临着固定输入分辨率、采样率和高度压缩的令牌的限制,这些限制了其表达丰富视频信息和捕捉细节的能力。

InternVideo2采用的渐进式学习方案在模型能力和训练计算之间取得了平衡。虽然同时学习三个优化目标在计算上是可行的,但当面临资源有限的情况时,可扩展性成为一个问题。

尽管InternVideo2在长视频理解和推理基准测试中表现出领先的性能,但它无法保证一个隐含的世界模型,以确保视觉推理的一致性。固定输入表示的内在约束,加上视觉推理任务的复杂性,呈现出在实现对视觉世界的全面和一致理解方面的挑战。

2. 未来方向

未来的研究方向可能包括开发新的模型架构和训练方法,以克服固定输入分辨率和采样率的限制。这可能涉及到探索更灵活的输入表示,以更好地捕捉视频内容的丰富性和细节。此外,研究人员可以探索如何有效地结合不同模态的信息,以进一步提高模型在多模态视频理解任务中的性能。

讨论与总结:InternVideo2在多模态视频理解中的潜力与影响

InternVideo2作为一种新型的视频基础模型,在多模态视频理解领域展现出了巨大的潜力。通过结合掩码视频令牌重建、视频-音频-文本对比学习以及下一个令牌预测,InternVideo2不仅在视频感知和视频-语言对齐方面表现出色,而且在模拟世界方面也有出色的表现。它在多模态语言模型(MLLM)领域的各种基准测试中的顶尖性能标志着其有效捕捉和理解视频内容的能力。这些经验性发现验证了InternVideo2作为未来探索视频理解的合格视频编码器的资格。

InternVideo2在视频相关对话和长视频理解方面的卓越性能,突显了其在各种世界模型研究和应用中的潜力。然而,我们也必须认识到,与其他基础模型一样,InternVideo2有可能嵌入其训练数据中存在的偏见,这些偏见可能由数据创建者的个人观点、偏好、价值观和视角以及所使用的训练语料库引起。这些偏见在AI模型中的存在可能会产生社会影响,并加剧现有的不平等或偏见。因此,在将InternVideo2部署到现实世界应用中时,必须仔细考虑潜在的影响,并采取积极措施来减轻偏见,确保公平性。

更广泛的影响:训练数据中的偏见问题及其社会影响

在构建和训练机器学习模型,尤其是视频理解模型如InternVideo2时,训练数据的选择和处理至关重要。这些数据不仅决定了模型的性能,还可能在模型中引入偏见,从而影响模型在现实世界中的应用和社会影响。

1. 训练数据的多样性和代表性

InternVideo2模型的训练数据包括来自不同来源的视频,这些视频覆盖了从第一人称到第三人称的不同视角,时长短长不一,涉及多样的角色和场景。例如,K-Mash数据集包含了来自著名动作识别数据集的视频,而K-Mash2M则进一步从YouTube中精选了视频以增加多样性。此外,MVid数据集结合了视频、音频、语音信息及其文本描述,这些丰富的多模态信息有助于模型更好地理解和处理视频内容。

然而,尽管这些数据集的多样性和代表性有所提高,但仍然存在潜在的偏见风险。例如,如果视频数据集中某一类别的视频过多或过少,模型可能会在识别该类别的视频时表现出偏差。此外,数据集中的文化背景也可能影响模型的学习,例如MVid数据集中包含了一小部分中国数据,这可能会导致模型对特定文化背景的视频有更好的理解能力。

2. 偏见的来源和影响

训练数据中的偏见可能来源于数据创作者的个人观点、偏好、价值观和视角,以及所使用的训练语料库。例如,视频数据的采集、剪辑和注释过程中的主观性可能会导致某些群体或行为被不公正地表示或忽略。此外,使用的语言模型(如LLMs)和神经教师(如InternViT [Chen et al., 2023a] 和VideoMAE [Wang et al., 2023a])也可能将它们自身的偏见传递给视频理解模型。

这些偏见在AI模型中的存在可能会在社会上产生影响,加剧现有的不平等或偏见。例如,如果InternVideo2在处理与性别、种族或年龄相关的视频内容时表现出偏差,可能会在输出中体现出不公平或歧视性的结果,从而在社会中强化训练数据中存在的社会偏见或刻板印象。

3. 应对偏见的措施

为了减轻训练数据中的偏见并确保公平性,需要采取积极的措施。这可能包括使用更加多样化和平衡的数据集、对数据进行仔细的审查和预处理以消除偏见,以及开发和应用算法来识别和纠正模型中的偏见。此外,对模型的输出进行监控和评估,以确保其在现实世界应用中不会产生不公正或歧视性的影响,也是非常重要的。

总之,训练数据中的偏见问题不仅影响模型的性能,还可能对社会产生深远的影响。因此,在开发和部署视频理解模型时,确保训练数据的质量和公平性是至关重要的。 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/532516.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯-求阶乘

问题描述 满足 N!的末尾恰好有 区 个o的最小的 N 是多少? 如果这样的 N 不存在输出 -1。 输入格式 一个整数 区。 输出格式 一个整数代表答案。 样例输入 样例输出 10 评测用例规模与约定 对于 30% 的数据,1<K<106 对于 100% 的数据,1<K<1018 运行限制 最大运行时…

Leetcode算法训练日记 | day14

一、二叉树的前序遍历 1.题目 Leetcode&#xff1a;第 144 题 给你二叉树的根节点 root &#xff0c;返回它节点值的 前序 遍历。 示例 1&#xff1a; 输入&#xff1a;root [1,null,2,3] 输出&#xff1a;[1,2,3]示例 2&#xff1a; 输入&#xff1a;root [] 输出&#…

wps可以打钩的框框

方法一&#xff1a; 输入2611&#xff0c;按下altx 方法二&#xff1a; R 选中后->开始->字体wingdings字体

MATLAB 点云体素滤波 (58)

MATLAB 体素滤波 (58) 一、基本原理二、算法实现1.代码数据的海量性始终是点云处理时需要面临的一个大问题,严重的时间消耗和内存占用影响了点云处理的发展,当然了,点云数量主要应该看项目的实际需求,若是对细节要求较高,那么点云数量不可过少,但是要求过低时,我们就可…

番外篇 | YOLOv8改进之引入YOLOv9的ADown模块 | 替换YOLOv8卷积

前言:Hello大家好,我是小哥谈。YOLOv9是一种目标检测算法,而ADown模块是YOLOv9中的一个重要组成部分。ADown模块主要用于特征提取和下采样操作,以便在后续的检测任务中更好地捕捉目标的特征。具体来说,ADown模块是YOLOv9中的一个卷积块,由一系列卷积层和池化层组成。它的…

Linux网卡:连接虚拟与现实的桥梁

在介绍Linux网卡之前&#xff0c;让我们先迈入时光机&#x1f570;️&#xff0c;回到1980年代末期&#xff0c;互联网正在逐步从一个科研网络向公众网络转变&#xff0c;Linux——一个自由和开源的操作系统诞生了&#x1f427;。Linux的出现&#xff0c;对于计算机科学领域来说…

B端:发起个申请,审批慢如蜗牛,那是你不懂高效审批流程设计。

有时候我们发起个申请&#xff0c;让领导和上级审批&#xff0c;迟迟不见动静&#xff0c;又不好一直催促领导&#xff0c;或者领导不会操作&#xff0c;误操作&#xff0c;怎么办&#xff0c;其实你是缺乏高效的流程设计。 设计一个高效的审批流程对于B端系统非常重要&#x…

Unity核心学习

目录 认识模型的制作流程模型的制作过程 2D相关图片导入设置图片导入概述纹理类型设置纹理形状设置纹理高级设置纹理平铺拉伸设置纹理平台打包相关设置 SpriteSprite Editor——Single图片编辑Sprite Editor——Multiple图片编辑Sprite Editor——Polygon图片编辑SpriteRendere…

高精度地图导航论文汇总

文章目录 2022基于高精度地图的智能车辆路径规划与跟踪控制研究[M] 2023一种无人驾驶融合决策方案的设计与实现[M] 2022 基于高精度地图的智能车辆路径规划与跟踪控制研究[M] 摘要&#xff1a; 随着计算机及通信技术的不断进步&#xff0c;汽车行业也得到了飞速的发展。汽车在…

ZStack Cloud 5.0.0正式发布——Vhost主存储、隔离PVLAN网络、云平台报警优化、灰度升级增强四大亮点简析

近日&#xff0c;ZStack Cloud 5.0.0正式发布&#xff0c;推出了包含Vhost主存储、隔离PVLAN网络、云平台报警优化、灰度升级增强在内的一系列重要功能。云主机管理、物理机运维、密评合规、灾备服务等诸多使用场景和功能模块均有更新&#xff0c;为您带来更完善的平台服务、更…

机器人坐标系转换从局部坐标系转换到世界坐标系

矩阵方式&#xff1a; 下面是代码&#xff1a; #include <Eigen/Dense>static void transLocalToWorldCloudWith2dPose(const PointCloud &pc_tar, const QPose3f &pose, PointCloud &pc_org) {if (pc_tar.empty())return;PointCloud tmp_pc;Eigen::Rotati…

解读POP3:电子邮件查看必备技巧揭秘

在您点击阅读时&#xff0c;是否曾想过您是如何如此轻松地查看电子邮件的&#xff1f;对我们来说&#xff0c;这听起来可能只是几秒钟的加载时间&#xff0c;但实际上幕后发生了许多事情。邮局协议&#xff08;POP3&#xff09;是一种应用层协议&#xff0c;电子邮件客户端使用…

基于Android的记单词App系统的设计与实现

博主介绍&#xff1a;✌IT徐师兄、7年大厂程序员经历。全网粉丝15W、csdn博客专家、掘金/华为云//InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&#x1f3…

Linkedin领英封号原因是什么?如何养号?

领英作为全球最大的职场社交平台&#xff0c;用户总数已超过8亿&#xff0c;覆盖200多个国家和地区&#xff0c;中国会员总数也已经累计超过5700万&#xff0c;庞大的基数使得他迅速成为跨境业务员建立形象&#xff0c;拓展人脉&#xff0c;开发客户的重要渠道。“领英职场”的…

C语言面试题之检查二叉树平衡性

检查二叉树平衡性 实例要求 1、实现一个函数&#xff0c;检查二叉树是否平衡&#xff1b;2、在这个问题中&#xff0c;平衡树的定义如下&#xff1a;任意一个节点&#xff0c;其两棵子树的高度差不超过 1&#xff1b; 示例 1: 给定二叉树 [3,9,20,null,null,15,7]3/ \9 20/…

【PyQt5篇】和子线程进行通信

文章目录 &#x1f354;使用QtDesigner进行设计&#x1f6f8;和子线程进行通信&#x1f388;运行结果 &#x1f354;使用QtDesigner进行设计 我们首先使用QtDesigner设计界面 得到代码login.ui <?xml version"1.0" encoding"UTF-8"?> <ui …

如何保证消息不丢失?——使用rabbitmq的死信队列!

如何保证消息不丢失?——使用rabbitmq的死信队列&#xff01; 1、什么是死信 在 RabbitMQ 中充当主角的就是消息&#xff0c;在不同场景下&#xff0c;消息会有不同地表现。 死信就是消息在特定场景下的一种表现形式&#xff0c;这些场景包括&#xff1a; 消息被拒绝访问&am…

c/c++函数: strtok() ,strtok_s()

概述 函数的原型&#xff1a; char* strtok : strtok (char* _String, char const* _Delimiter); char* strtok_s: strtok_s( char* _String, char const* _Delimiter, char** _Context);函数的参数: _String : 传入一个字符串 _Delimiter: 传入一个字符字…

【canvas】canvas基础使用(四):线型的设置

简言 学习如何使用canvas来设置线形。 线型的方法和属性 使用canvas经常会和线段打交道&#xff0c;下面是设置线型的常用属性和方法。 lineWidth 线宽 CanvasRenderingContext2D.lineWidth 是 Canvas 2D API 设置线段厚度的属性&#xff08;即线段的宽度&#xff09;。 线…

VR紧急情况模拟|V R体验中心加盟|元宇宙文旅

通过VR技术实现紧急情况模拟&#xff0c;提升安全应急能力&#xff01; 简介&#xff1a;面对突发紧急情况&#xff0c;如火灾、地震、交通事故等&#xff0c;正确的反应和应对能够有效减少伤害和损失。为了提高人们在紧急情况下的应急能力&#xff0c;我们借助先进的虚拟现实…