【论文笔记】Number it: Temporal Grounding Videos like Flipping Manga

🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。


基本信息

标题: Number it: Temporal Grounding Videos like Flipping Manga
作者: Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang
arXiv: https://arxiv.org/abs/2411.10332

基本信息

摘要

视频大型语言模型(Vid-LLMs)在理解视频内容以进行问答对话方面取得了显著进展。

然而,它们在将这种视觉理解扩展到需要精确时间定位的任务上存在困难,这些任务被称为视频时间定位(VTG)。

为了解决这一差距,我们引入了数字提示(NumPro),这是一种新颖的方法,它通过为每个视频帧添加独特的数字标识符,使Vid-LLMs能够将视觉理解与时间定位相结合。

将视频视为一系列编号的帧图像,NumPro将VTG转化为一个直观的过程:按顺序翻阅漫画分镜。

这使得Vid-LLMs能够“阅读”事件时间线,准确地将视觉内容与相应的时序信息联系起来。

我们的实验表明,NumPro显著提高了顶级Vid-LLMs的VTG性能,而无需额外的计算成本。

此外,在NumPro增强的数据集上进行微调为VTG定义了新的最先进水平,在关键帧检索的mIoU上超越了之前的最优方法高达6.9%,在突出检测的mAP上提高了8.5%。代码将在https://github.com/yongliang-wu/NumPro上提供。

Effectiveness of Adding Frame Numbers for Temporal Grounding

主要贡献

  • 我们引入了NumPro,这是一种新颖的方法,通过在视频帧上叠加帧号,增强了视频大型语言模型(Vid-LLMs)的视频时间定位(VTG)能力,使时间定位变得与翻阅漫画时跟随编号面板一样直观。
  • 通过实验研究,我们发现了一种合适的NumPro设计(字体大小、颜色和位置),确保模型的高可检测性,同时最小程度地干扰原始视频内容。
  • 我们在无训练和微调场景下,对标准VTG基准和指标进行了彻底的NumPro评估,证明了其在各种模型和数据集上的有效性。

Number-Prompt 方法

我们的数字提示(NumPro)方法提供了一种简单而有效的解决方案,以增强现有视频大型语言模型(Vid-LLMs)的视频时间基础(VTG)能力,无论是在无训练还是微调设置下。

Attention Analysis

当前视频语言模型将视频处理为一系列帧。视频的视觉表示可以视为每个单独帧的拼接表示,将离散帧的信息汇总为全面的视频级别。这允许视频语言模型通过将帧图像的视觉表示与语言查询的文本表示对齐来理解视频。

为了探索视频时间定位(VTG)的挑战,我们分析了帧图像token表示和查询语言token之间的注意力图,然后评估了相关视频帧的时间描述。以Qwen2-VL-7B为案例研究,我们突出了VTG对视频语言模型(Vid-LLMs)的挑战:虽然Vid-LLMs可以理解视频中正在发生的事件,但它们难以将这种理解转化为描述事件开始和结束时间的文本描述。

具体来说,我们以视频和语言查询作为输入,从Qwen2-VL-7B的最终多头自注意力层中提取注意力分数。对于视频序列中的每一帧,我们聚合所有对应该帧的视觉token在所有注意力头中的注意力分数。

Attention Analysis between Video Frames and Event Query

如图2所示,注意力图揭示了事件文本查询与目标视频片段之间的强相关性。这表明Qwen2-VL-7B能够有效地聚焦于与查询相关的帧,这与模型在其他内容相关的视频理解任务中的出色表现一致。然而,模型在表述正确的时间边界方面存在困难,并产生了诸如“从200到599”这样的令人惊讶的幻觉。这一观察强调了需要机制来弥合空间特征对齐与Vid-LLMs的时间推理之间的差距,这是我们NumPro方法旨在解决的问题。

NumPro and NumPro-FT

我们的方法,编号提示(NumPro),使VidLLMs能够直接将特定视觉内容与其时间信息关联起来,将时间定位转化为视觉对齐任务。如图3所示,NumPro在无训练和微调场景下均能运行。

Framework of Our Approach in Two Settings

在无训练设置中,每个视频帧都标有相应的帧号。通过利用VidLLMs内置的光学字符识别(OCR)功能,我们使它们能够通过与视觉内容相关的帧号“读取”时间线。为了阐明添加的数字对Vid-LLMs的目的,我们在每个事件查询前添加一条简单的指令:“每个帧上的红色数字代表帧号。”这种方法允许Vid-LLMs通过直接将帧号与语言查询相联系,准确识别帧级边界。

为了提高性能,NumPro-FT在NumPro增强的数据集上微调VidLLMs。这一阶段将训练数据中的帧数与时间跨度对齐,将时间定位能力嵌入到模型的学得表示中。在微调过程中,我们冻结视觉编码器,仅微调视觉投影器和LLM组件。为了减少参数数量和训练开销,我们应用低秩自适应(LoRA)来调整LLM。我们的训练目标是最大化通过自回归语言模型生成正确答案token A \mathbf{A} A 的可能性:

P ( A ∣ V , T instruct ) = ∏ j = 1 L P θ ( A j ∣ V , X instruct , A < j ) P(\mathbf{A} \mid V, T_{\text{instruct}}) = \prod_{j=1}^{L} P_\theta(A_j \mid V, X_{\text{instruct}}, \mathbf{A}_{<j}) P(AV,Tinstruct)=j=1LPθ(AjV,Xinstruct,A<j)

其中, V V V 代表输入视频, θ \theta θ 表示可训练参数, T instruct T_{\text{instruct}} Tinstruct 表示文本指令, L L L 表示答案序列 A \mathbf{A} A 的长度, A < j \mathbf{A}_{<j} A<j 包含所有在当前token A j \mathbf{A}_{j} Aj 之前的答案token。

Design of Numerical Prompt

一个有效的NumPro设计必须确保:

  1. 数字易于模型识别;
  2. 对视觉内容的干扰最小。

先前的研究表明,视觉提示的出现和位置可以影响模型的注意力。

鉴于所有Vid-LLMs都在336 × 336的固定分辨率下运行,我们通过评估三个因素来优化NumPro:字体大小、颜色和帧编号的放置位置。

为了确定有效的NumPro设计,我们使用两个主要指标:数字准确性,评估模型识别叠加数字的能力;字幕准确性,衡量添加数字后原始字幕与帧内容的一致性。平衡这两个指标,我们可以选择数字清晰可辨且不会干扰主要视频内容的NumPro配置。

为了使设计选择在各种模型和数据集上具有鲁棒性,我们在MSCOCO数据集的子集上进行了基于CLIP的实验,分别计算了数字准确率和字幕准确率。

我们使用CLIP ViT-B/32模型生成视觉和文本表示,因为许多Vid-LLMs都使用CLIP风格的视觉编码器,这使得我们的发现能够很好地推广到Vid-LLMs。

COCO图像-字幕对作为视频帧的代理,避免了直接VTG测试的高成本和有限的可扩展性。

具体来说,我们从MSCOCO中随机选择了1,000个不同的图像-字幕对,并在各种配置下将“0”到“99”的数字叠加到图像上。

Illustration of Our NumPro Design Algorithm

如图4所示,我们首先从CLIP视觉和文本编码器中获取表示,并计算它们之间的中间相似度分数(即数字和标题相似度)。使用添加的数字和原始标题作为真实情况,我们选择具有最高相似度分数的文本数字和标题作为预测,以计算数字和标题准确率。平衡这些准确率的配置对NumPro设计最优。

The Impact of Different Number-Prompt Designs

如图5所示,我们的研究结果指出,增大字体大小可以提高数字准确性,但会降低标题准确性,这表明中等字体大小(40或60)是最优的。在颜色选择方面,标题准确性在不同颜色下相对稳定。红色在数字准确性方面表现出最佳性能,而黑色效果最差。这一发现也与先前的研究一致。

此外,将文本置于图像中心会因与关键视觉元素重叠而显著降低标题准确性,而将数字置于右下角则能在标题和数字准确性之间提供最佳平衡。最后,我们为最终的NumPro设计选择了40号的字体大小、红色和右下角的位置。这一设计搜索使NumPro能够更好地利用Vid-LLMs固有的OCR和视觉语言对齐能力,以增强视频时间定位。

在实践中,基于CLIP的设计提供的是近似而非确定的指导,对Vid-LLMs进行VTG数据集的进一步测试可能产生额外的模型特定见解。

实验

Comparison of performance on the video temporal grounding task with previous state-of-the-art methods

Performance of Applying NumPro to Various Vid-LLMs and Ablation Results on NumPro-FT

Ablation study on various NumPro designs

Qualitative Comparison with State-of-the-Art

Performance Comparison of Sampling Strategies for NumPro

The influence of applying NumPro to general videoQA

总结

本文提出了一种名为Number-Prompt(NumPro)的简单而高效的视觉提示,旨在无需努力地增强视频大型语言模型(Vid-LLMs)的视频时间定位(VTG)能力。

通过在视频内容上叠加帧数,NumPro利用Vid-LLMs固有的光学字符识别(OCR)和视觉-语言对齐能力,使它们能够准确地将事件映射到特定的时序边界。

通过基于COCO启发式算法的系统设计,并在VTG基准测试中得到验证,我们证明了NumPro在支持细粒度时序理解的同时,还能保持一般视频理解。

通过广泛的评估,我们证明了NumPro在无训练和微调设置下均能持续达到最先进的性能,使其能够适应性地集成到闭源和开源的Vid-LLMs中。

NumProFT进一步提升了时间定位性能,在VTG任务中建立了新的SOTA。

此外,对一般视频-QA的微小影响表明,NumPro可以在保持稳健视频理解的同时增强VTG。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/922799.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【模版进阶】—— 我与C++的不解之缘(十八)

前言&#xff1a; ​ 之前浅浅的学了一下模版&#xff0c;这里来深入学习一下模版 1、非类型模版参数 模版参数可以分为类型形参 和非类型形参 类型形参&#xff1a;出现在模板参数列表中&#xff0c;跟在**class或者typename**之类的参数类型名称。非类型形参&#xff1a; 就是…

Diving into the STM32 HAL-----Timers笔记

嵌入式设备会按时间执行某些活动。对于真正简单且不准确的延迟&#xff0c;繁忙的循环可以执行任务&#xff0c;但是使用 CPU 内核执行与时间相关的活动从来都不是一个聪明的解决方案。因此&#xff0c;所有微控制器都提供专用的硬件外设&#xff1a;定时器。定时器不仅是时基生…

质量留住用户:如何通过测试自动化提供更高质量的用户体验

在当今竞争异常激烈的市场中&#xff0c;用户手头有无数种选择&#xff0c;但有一条真理至关重要&#xff1a; 质量留住用户。 产品的质量&#xff0c;尤其是用户体验 (UX)&#xff0c;直接决定了客户是留在您的品牌还是转而选择竞争对手。随着业务的发展&#xff0c;出色的用户…

C++ 优先算法 —— 长度最小的子数组(滑动窗口)

目录 题目&#xff1a;长度最小的子数组 1. 题目解析 2. 算法原理 Ⅰ. 暴力枚举 Ⅱ. 滑动窗口&#xff08;同向双指针&#xff09; 滑动窗口正确性 3. 代码实现 Ⅰ. 暴力枚举(会超时&#xff09; Ⅱ. 滑动窗口&#xff08;同向双指针&#xff09; 题目&#xff1a;长…

GPT系列文章

GPT系列文章 GPT1 GPT1是由OpenAI公司发表在2018年要早于我们之前介绍的所熟知的BERT系列文章。总结&#xff1a;GPT 是一种半监督学习&#xff0c;采用两阶段任务模型&#xff0c;通过使用无监督的 Pre-training 和有监督的 Fine-tuning 来实现强大的自然语言理解。在 Pre-t…

进程间通信5:信号

引入 我们之前学习了信号量&#xff0c;信号量和信号可不是一个东西&#xff0c;不能混淆。 信号是什么以及一些基础概念 信号是一种让进程给其他进程发送异步消息的方式 信号是随时产生的&#xff0c;无法预测信号可以临时保存下来&#xff0c;之后再处理信号是异步发送的…

代理模式:静态代理和动态代理(JDK动态代理原理)

代理模式&#xff1a;静态代理和动态代理以及JDK动态代理原理 为什么要使用代理模式&#xff1f;静态代理代码实现优缺点 动态代理JDK动态代理JDK动态代理原理JDK动态代理为什么需要被代理的对象实现接口&#xff1f;优缺点 CGLIB动态代理优缺点 代理模式的应用 为什么要使用代…

【AI技术赋能有限元分析应用实践】pycharm终端与界面设置导入Abaqus2024自带python开发环境

目录 一、具体说明1. **如何在 Windows 环境中执行 Abaqus Python 脚本**2. **如何在 PyCharm 中配置并激活 Abaqus Python 环境**3. **创建 Windows 批处理脚本自动执行 Abaqus Python 脚本**总结二、方法1:通过下面输出获取安装路径导入pycharm方法2:终端脚本执行批处理脚本…

【消息序列】详解(6):深入探讨缓冲区管理与流量控制机制

目录 一、概述 1.1. 缓冲区管理的重要性 1.2. 实现方式 1.2.1. HCI_Read_Buffer_Size 命令 1.2.2. HCI_Number_Of_Completed_Packets 事件 1.2.3. HCI_Set_Controller_To_Host_Flow_Control 命令 1.2.4. HCI_Host_Buffer_Size 命令 1.2.5. HCI_Host_Number_Of_Complete…

虚拟局域网PPTP配置与验证(二)

虚拟局域网PPTP配置与验证(二) windows VPN客户端linux 客户端openwrt客户端性能验证虚拟局域网PPTP配置与验证(一)虚拟局域网PPTP配置与验证(二) : 本文介绍几种客户端连接PPTP服务端的方法,同时对linux/windows/openwrt 操作系统及x86、arm硬件平台下PPTP包转发性能进…

uniapp中使用uni-forms实现表单管理,验证表单

前言 uni-forms 是一个用于表单管理的组件。它提供了一种简化和统一的方式来处理表单数据&#xff0c;包括表单验证、字段绑定和提交逻辑等。使用 uni-forms可以方便地创建各种类型的表单&#xff0c;支持数据双向绑定&#xff0c;可以与其他组件及API进行良好的集成。开发者可…

Hive构建日搜索引擎日志数据分析系统

1.数据预处理 根据自己或者学校系统预制的数据 使用less sogou.txt可查看 wc -l sogou.txt 能够查看总行数 2.数据扩展部分 我的数据位置存放在 /data/bigfiles 点击q退出 将一个文件的内容传递到另一个目录文件下 原数据在 /data/bigfiles ->传递 到/data/workspac…

网络安全的学习方向和路线是怎么样的?

最近有同学问我&#xff0c;网络安全的学习路线是怎么样的&#xff1f; 废话不多说&#xff0c;先上一张图镇楼&#xff0c;看看网络安全有哪些方向&#xff0c;它们之间有什么关系和区别&#xff0c;各自需要学习哪些东西。 在这个圈子技术门类中&#xff0c;工作岗位主要有以…

深入浅出分布式缓存:原理与应用

文章目录 概述缓存分片算法1. Hash算法2. 一致性Hash算法3. 应用场景Redis集群方案1. Redis 集群方案原理2. Redis 集群方案的优势3. Java 代码示例:Redis 集群数据定位Redis 集群中的节点通信机制:Gossip 协议Redis 集群的节点通信:Gossip 协议Redis 集群的节点通信流程Red…

Mysql的加锁情况详解

最近在复习mysql的知识点&#xff0c;像索引、优化、主从复制这些很容易就激活了脑海里尘封的知识&#xff0c;但是在mysql锁的这一块真的是忘的一干二净&#xff0c;一点映像都没有&#xff0c;感觉也有点太难理解了&#xff0c;但是还是想把这块给啃下来&#xff0c;于是想通…

论文模型设置与实验数据:scBERT

Yang, F., Wang, W., Wang, F. et al. scBERT as a large-scale pretrained deep language model for cell type annotation of single-cell RNA-seq data. Nat Mach Intell 4, 852–866 (2022). https://doi.org/10.1038/s42256-022-00534-z 论文地址&#xff1a;scBERT as a…

TCP三次握手的过程是怎样的?

一开始&#xff0c;客户端和服务端都处于CLOSE状态。先是服务端主动监听某个端口&#xff0c;处于LISTEN状态。 &#xff08;1&#xff09;第一次握手 客户端会随机初始化序号&#xff08;client_isn&#xff09;&#xff0c;将此序号填入TCP首部的32位序号字段中&#xff0c…

Java核心知识详解:String类、StringBuffer、数组及日期时间的全面解析

&#x1f680; 作者 &#xff1a;“码上有前” &#x1f680; 文章简介 &#xff1a;Java &#x1f680; 欢迎小伙伴们 点赞&#x1f44d;、收藏⭐、留言&#x1f4ac; 标题 Java核心知识详解&#xff1a;String类、StringBuffer、数组及日期时间的全面解析 摘要 在Java中…

【MATLAB源码-第218期】基于matlab的北方苍鹰优化算法(NGO)无人机三维路径规划,输出做短路径图和适应度曲线.

操作环境&#xff1a; MATLAB 2022a 1、算法描述 北方苍鹰优化算法&#xff08;Northern Goshawk Optimization&#xff0c;简称NGO&#xff09;是一种新兴的智能优化算法&#xff0c;灵感来源于北方苍鹰的捕猎行为。北方苍鹰是一种敏捷且高效的猛禽&#xff0c;广泛分布于北…

SplatFormer: Point Transformer for Robust3D Gaussian Splatting 论文解读

目录 一、概述 二、相关工作 1、NVI新视角插值 2、稀疏视角重建 3、OOD-NVS 4、无约束重建下的正则化技术 5、基于学习的2D-to-3D模型 6、3D点云处理技术 三、SplatFormer 1、Point Transformer V3 2、特征解码器 3、损失函数 四、数据集 五、实验 一、概述 该论…