VideoPrism——探索视频分析领域模型的算法与应用

概述

论文地址:https://arxiv.org/pdf/2402.13217.pdf
视频是我们观察世界的生动窗口,记录了从日常瞬间到科学探索的各种体验。在这个数字时代,视频基础模型(ViFM)有可能分析如此海量的信息并提取新的见解。迄今为止,视频理解领域的研究确实取得了长足进步,但构建真正的基础视频模型,娴熟地处理外观和运动问题,仍是一个尚未实现的领域。

因此,本文提出了创新型通用视频编码器VideoPrism,旨在解决从视频分类到定位、搜索、字幕和问题解答等所有视频理解任务。通过广泛的评估(包括计算机视觉数据集以及神经科学和生态学等科学学科),VideoPrism 以最小的适应度展示了最先进的性能。下图是 VideoPrism 的概览。

在 VideoPrism 的开发过程中,我们强调了预训练数据的重要性。理想情况下,预训练数据应该是来自世界各地的具有代表性的视频样本,但实际上,许多视频并不附带描述内容的文本,或者噪音非常大。因此,VideoPrism 通过收集 3,600 万对高质量视频和字幕以及 5.82 亿个噪声视频片段,充分利用了这些数据。

建模从视频和语言之间的意义对比学习开始。然后,它使用纯视频数据,结合全局和局部提炼、标记洗牌,并通过屏蔽视频建模进一步改进。这种独特的两阶段方法是 VideoPrism 在同时关注视频外观和运动的任务中的优势所在。

通过在四大理解任务类别中进行广泛评估,包括从网络视频、脚本表演到科学实验的 33 种不同基准,证明了这种方法的有效性 VideoPrism 在其中 30 种基准中的表现优于现有的视频基础架构模型 (ViFM)。在其中 30 项基准测试中,VideoPrism 的表现远远超过了现有的视频基础架构模型(ViFM),证明了其卓越的性能。结果如下图所示。

这表明 VideoPrism 具有 "非常 "好的概括能力。

技术

VideoPrism 采用创新的视频理解方法。其核心是一个丰富的预训练数据集,包含 3600 万个片段。这些片段是从 3,600 万个视频中提取出来的,并配有高质量的人工字幕。此外,2.75 亿个视频中的 5.82 亿个片段包含带噪声的平行文本。这种预训练数据集在视频基础模型(ViFM)中是前所未有的,但与图像基础模型所用的数据相比仍然较少。为了填补这一空白,本文还收集了其他数据,包括 ASR、元数据和通过大规模多模态模型生成的噪声文本。

值得注意的是,在预训练和后续训练中都没有使用评估基准的训练集。这可以防止模型针对特定的评估基准进行过度优化。此外,预训练语料库与评估基准视频是去重复的,以避免数据泄露。

在模型架构方面,VideoPrism 基于视觉转换器(ViT),但同时考虑了空间和时间因素。这确保了在输出标记序列中保留空间和时间维度,以支持需要细粒度特征的下游任务:VideoPrism-g 采用了拥有 10 亿个参数的 ViT-giant 网络,而较小的 ViT-Base 网络则采用了更小的 ViT-Giant 网络。VideoPrism-B 采用较小的 ViT-Base 网络。

VideoPrism 采用独特的两阶段方法,通过利用视频和文本对以及纯视频数据来学习纯视频数据。由于大型预训练数据集中的文本在某些视频中通常会出现噪声,因此 VideoPrism 专注于纯视频数据,以捕捉视频的深层含义。

第一阶段:在这一阶段,对比学习用于使视频编码器与文本编码器同步。这一过程根据视频-文本对的相似性得分,通过最小化对称交叉熵损失,从语言中引导视频编码器学习丰富的视觉语义。这一阶段产生的模型为下一阶段的学习提供了语义视频嵌入。

第2 阶段:第 1 阶段中仅基于视觉文本数据的学习面临着一个问题,即文本描述包含噪音,而且往往只捕捉外观而非运动。第二阶段的重点是从纯视频数据中学习外观和运动信息。这里引入了一种新的标记洗牌方案以及全局和每个标记的蒸馏损失,作为对遮蔽视频建模的改进。这样,模型就能在保留语义知识的基础上,根据遮蔽视频学习预测第一阶段的嵌入。

通过这种两阶段方法,VideoPrism 正在构建一个底层视频编码器,它可以更好地理解视频并捕捉外观和运动的语义。

试验

对 VideoPrism 进行了评估,以证明其在各种以视频为中心的理解任务中的性能和多功能性。这些任务分为四类:第一类是一般视频理解。这包括分类和时空定位;第二类是零镜头视频文本检索;第三类是零镜头视频字幕和质量保证;第四类是用于科学研究的计算机视觉;第四类是用于视频分析的视频理解。

在所有实验中,VideoPrism 都被固定为视频编码器,只训练特定任务所需的组件。这样就可以评估 VideoPrism 的多功能性及其独立于特定任务模型的能力。此外,VideoPrism 方法在视频分析中特别有用,因为视频编码的成本可以分摊到多个任务中,因此很难进行昂贵的微调。

首先将其与视频理解基准 VideoGLUE 中的先进模型进行比较。评估范围包括以外观为重点的动作识别(VC(A))、动作丰富的动作识别(VC(M))、多标签视频分类(VC(ML))、时间动作定位(TAL)、时间和空间动作定位(STAL)。这项研究使用了八个具有代表性的数据集,包括

从 ViT-B 到 ViT-g,随着模型大小的增加,VideoPrism 的性能显著提高。这意味着 VideoPrism 在单一编码器中结合了对不同视频源的鲁棒性,如外观和运动线索、空间和时间信息、网络视频和脚本性能。

然后,我们使用 MSRVTT、VATEX 和 ActivityNet 这三个关键基准来评估 VideoPrism 的零镜头视频文本检索性能。零镜头视频分类任务也是对 Kinetics-400、Charades、SSv2-Temporal、SSv2-Events 和 NExT-QA 的 ATP-Hard 子集的挑战。

作为一项重要成果,VideoPrism 在多项基准测试中创造了新的最佳记录,并在特别具有挑战性的数据集上取得了显著改进,VideoPrism-B 的表现优于现有的大型模型。此外,与使用域内数据和其他模式预先训练的模型相比,VideoPrism 的表现同样出色,甚至更好。这些结果表明,VideoPrism 在零镜头搜索和分类任务中具有强大的泛化能力。

此外,MSRVTT、VATEX 和 YouCook2 等标准视频封顶数据集以及 MSRVTT-QA、MSVD-QA 和 NExT-QA 等视频质量保证基准被用于视频封顶和质量保证任务,并在零镜头设置下进行性能 评估。评估。请注意,这些模型并未针对字幕和质量保证任务进行专门调整。

结果如下表所示。尽管结构简单,适配器参数数量有限,但它仍具有竞争力,在除 VATEX 之外的大多数评估中都取得了优异成绩。这表明,VideoPrism 编码器在视频到语言的生成任务中具有广泛的通用能力。

现有的视频分析基准主要侧重于以人为中心的数据,而 VideoPrism 的功能及其在科学应用方面的潜力则是利用科学数据集对各种视频集进行探索。分析涵盖了广泛的学科,包括行为研究、行为神经科学、认知科学和生态学。本研究首次尝试将 ViFM 应用于科学数据集,结果表明 ViFM 的性能与专业模型相当,甚至更好。这

该分析包括在科学实验中捕获的标注了专业知识的大型视频数据集,其中包括苍蝇、小鼠、黑猩猩和肯尼亚野生动物。所有这些数据集都为行为视频分类或时空动作定位进行了详细注释。其中,CRIM13 数据集分析的是笼子侧面和上方视角的视频。

结果表明,使用共享的冻结编码器可以获得等同于或优于专用于个别任务的特定领域模型的性能。尤其是在基本模型中,VideoPrism 的表现优于专家模型。此外,扩展模型可大幅提高所有数据集的性能。这些结果表明,ViFMs 有潜力在多个领域显著加速视频分析。

总结

本文介绍的 VideoPrism 是一种基本的视频编码器,可在视频理解领域实现最先进的技术。它专注于数据和建模方法,建立了自己的大型预训练数据集和有效提取视频外观和运动信息的预训练策略。与其他模型相比,它在各种基准测试中取得了最佳性能,并显示出极高的泛化能力。

视频理解技术的进步有可能加速从科学研究到教育、机器人、医疗保健和内容推荐等领域的发展。这些技术有望促进科学发现、丰富学习体验、增强安保和安全,并实现反应更灵敏的互动系统。

然而,在现实世界中使用这些模型之前,还必须采取措施防止潜在的偏见和滥用。当务之急是减少算法偏差、保护隐私并遵守负责任的研究规范。论文指出,必须继续在社区内推动关于这些新发展的公开讨论,以便以负责任的方式从这项技术中获益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/768337.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Rustdesk如何编译代码实现安装后不会显示主界面,不会在右下角出现托盘图标,作为后台服务运行

环境: Rustdesk1.1.9 问题描述: Rustdesk如何编译代码实现安装后不会显示主界面,不会在右下角出现托盘图标,作为后台服务运行 解决方案: 可以自定义进程名称和图标,不会显示主界面,不会在…

小试牛刀-区块链代币锁仓(Web页面)

Welcome to Code Blocks blog 本篇文章主要介绍了 [区跨链代币锁仓(Web页面)] ❤博主广交技术好友,喜欢我的文章的可以关注一下❤ 目录 1.编写目的 2.开发环境 3.实现功能 4.代码实现 4.1 必要文件 4.1.1 ABI Json文件(LockerContractABI.json) 4.2 代码详解…

uniapp + vite中 uni.scss 使用 /deep/ 不生效(踩坑记录三)

vite 中使用 /deep/ 进行样式穿透报错 原因:vite 中不支持,换成 ::v-deep 或:deep即可

linux应用开发基础知识(八)——内存共享(mmap和system V)

mmap内存映射 内存共享定义 内存映射,简而言之就是将用户空间的一段内存区域映射到内核空间,映射成功后,用户对这段内存区域的修改可以直接反映到内核空间,同样,内核空间对这段区域的修改也直接反映用户空间。那么对…

在TkinterGUI界面显示WIFI网络摄像头(ESP32s3)视频画面

本实验结合了之前写过的两篇文章Python调用摄像头,实时显示视频在Tkinter界面以及ESP32 S3搭载OV2640摄像头释放热点(AP)工作模式–Arduino程序,当然如果手头有其他可以获得网络摄像头的URL即用于访问摄像头视频流的网络地址&…

如何快速掌握一门编程语言

学习一门新的编程语言可能是一个具有挑战性的过程,但通过一些系统的方法,可以大大加快这个过程。 目录 第一步:通过书籍和视频课程掌握基本语法1. **学习编程语言的基础知识**2. **掌握字符串处理**3. **掌握正则表达式和解析器**4. **掌握面…

停车场车牌识别计费系统,用Python如何实现?

关注星标,每天学习Python新技能 前段时间练习过的一个小项目,今天再看看,记录一下~ 项目结构 说明: datefile文件夹:保存车辆信息表的xlsx文件 file文件夹:保存图片文件夹。ic_launcher.jpg是窗体的右上角…

什么是 URL ?

统一资源定位符(URL)是一个字符串,它指定了一个资源在互联网上的位置以及如何访问它。URL 是由几部分组成的,每部分都有其特定的作用: 协议/方案:这是 URL 的开头部分,表明了用于访问资源的协议…

stm32F4库函数c++和C混合编程笔记20240626

1、有时候需要用到c的一些特性,封装,类等等。 2、研究一下如何更改之前c工程的内容,实现混合编程。 操作 1、keil设置 2、要重新建立一个main文件,后缀名是cpp,cpp才能调用cpp. 后面如果要用到c特性的,需要…

python sklearn机械学习-数据预处理

🌈所属专栏:【机械学习】✨作者主页: Mr.Zwq✔️个人简介:一个正在努力学技术的Python领域创作者,擅长爬虫,逆向,全栈方向,专注基础和实战分享,欢迎咨询! 您…

C++: 左值引用和右值引用

目录 概念: 理解: 左值引用,右值引用 左值引用能否给右值取别名? 右值引用能否给左值取别名? 引用的意义是什么? 左值和右值对自定义类型有什么区别吗? move的妙用! 没有优化…

统计信号处理基础 习题解答11-13

题目 如果是一个2x1的随机矢量,具有PDF 证明的PDF是一个随机变量。提可以因式分解成,其中是一个在4.5节描述的白化变换。 解答 首先: 因此,存在: 也就是是Hermitian矩阵。详细的性质可以参考: https://z…

Git使用[推送大于100M的文件后解救办法]

推送大于100M的文件后解救办法 本文摘录于:https://blog.csdn.net/u012150602/article/details/122687435只是做学习备份之用,绝无抄袭之意,有疑惑请联系本人! 当有文件大于100M的时候在提交的时候没有问题,但是在push的似乎就不行…

电影院售票管理系统(小白)大佬求解

最近在写一个关于电影院售票管理系统的sm项目,但是在买票的环节出现了问题及点击选座购票,没有数据渲染出来,我不知道什么情况,所以问问。有没有大佬可以帮我解决这个问题?下面是我的。控制层,服务层&#…

学校考场电子钟除了报时,还能做什么?-讯鹏时钟

在学校考场中,电子钟的存在似乎已经司空见惯,大多数人仅仅将其视为报时的工具。然而,学校考场电子钟的作用远不止于此,它具备众多优势和丰富的功能。 学校考场电子钟能够提供精准的时间参考,这是其最基础也是最关键的功…

Qt:5.QWidget属性介绍(Enabled属性-控件可用性设置、geometry属性-控件位置/大小设置)

目录 一、 QWidget属性的介绍: 二、Enabled属性-控件可用性设置: 2.1Enabled属性的介绍: 2.2获取控件当前可用状态的api——isEnabled(): 2.3设置控件当前的可用状态的api—— setEnabled() : 2.4 实例&#xff…

第二十一章 网络编程

​ 一、网络的相关概念 1. 网络通信 (1)网络通信:将 数据 通过网络从一台设备传输到另一台设备 (2)java.net 包下提供了一系列的类或接口,完成网络通信 2. 网络 概念:两台或多台设备通过一定…

VideoLLaMA 2:多模态视频理解新突破,音频理解能力再升级,挑战 GPT-4V

前言 近年来,人工智能技术飞速发展,尤其是大模型的出现,为视频理解和生成领域带来了前所未有的机遇。然而,现有的视频大模型(Video-LLM)在处理视频中复杂的时空信息和音频信息方面仍存在不足,例…

基于矩阵分解算法的评分预测实现---信息检索课设以及所涉及的深度学习原理

一、实验环境 Windows,Python 3 Python作为主要编程语言,使用Python的Pandas、NumPy、Matplotlib等库 二、实验内容 主要任务 查阅相关资料,了解矩阵分解算法的基本概念、应用场景及其难点。重点了解SVD(Singular Value Decomposition,奇异值分解)系列方法。掌握Pyth…

Python特征工程 — 1.4 特征归一化方法详解

目录 1 Min-Max归一化 方法1:自定义的Min-Max归一化封装函数 方法2: scikit-learn库中的MinMaxScaler 2 Z-score归一化 方法1:自定义的Z-score归一化封装函数 方法2: scikit-learn库中的StandardScaler 3 最大值归一化 4 L…