Video-GroundingDino论文解读

文章目录

  • 前言
  • 一、摘要
  • 二、引言
  • 三、贡献
  • 四、模型结构
    • 1、模型定义与问题
      • 数据少问题
      • 模型解决问题
      • 模型模块
    • 2、模型结构
      • 模型结构图
      • Cross-Modality Spatio-Temporal Encoder
      • Language-Guided Query Selection
      • Cross-Modality Spatio-Temporal Decoder
      • Prediction Heads
  • 总结


前言

之前我在博客介绍了一篇grounding DINO文章,该篇文章只是用于图像定位检测的open-vocabulary内容。最近,偶然看到一篇video grounding DINO文章,该篇文章解决视频相关定位,视频Grounding旨在定位视频中与输入文本查询相对应的时空部分。本文通过引入开放词汇时空视频Grounding任务,解决了当前视频Grounding方法中的一个关键限制。直白说,作者使用时空方式实现视频open-vocablary任务。我将在本博客分享我的见解,若有错误之处,欢迎指正。


一、摘要

视频Grounding旨在定位视频中与输入文本查询相对应的时空部分。本文通过引入开放词汇时空视频Grounding任务,解决了当前视频Grounding方法中的一个关键限制。 与由于训练数据和预定义词汇有限而难以应对开放词汇场景的流行封闭集方法不同,我们的模型利用基础空间基础模型的预训练表示。 这使其能够有效地弥合自然语言和多样化视觉内容之间的语义差距,在封闭式和开放式词汇环境中实现强劲的性能。 我们的贡献包括一种新颖的时空视频基础模型,在多个数据集的封闭集评估中超越了最先进的结果,并在开放词汇场景中展示了卓越的性能。 值得注意的是,所提出的模型在 VidSTG(陈述式和疑问式)和 HC-STVG(V1 和 V2)数据集的封闭集设置中优于最先进的方法。 此外,在 HC-STVG V1 和 YouCook-Interactions 的开放词汇评估中,我们的模型超越了最近表现最好的模型 4.26 m_vIoU 和 1.83% 的准确率,证明了其在处理不同语言和视觉概念以提高视频理解方面的功效。
在这里插入图片描述

二、引言

时空视频定位是链接视觉内容和语言描述的中枢,这促使视觉数据的语义理解。先前在视觉定位的方法如TubeDETR/STCAT和STVGFormer主要聚焦在closed-set数据,模型在这些带有预定义类别和详细注释的数据集中训练。尽管这些模型在VidSTG和HC-STVG closed-set数据集表现state-of-the-art,但模型在训练集之外泛化表现面临挑战。现有视频数据集规模小与受限多样性样本阻碍模型适应看不见unseen的场景。

现有监督方法又受有限vocabulary(类别)的闭集限制。作者也调研了open-vocabulary的时空视频定位方法。与传统惯例不一样,时空视频定位任务意解决多样性语言与视觉概念的视频定位是一个挑战。主要目的是在一系列有类别标注的数据与使用open-vocabulary方法生成unseen目标训练模型。为此,本文探讨了开放词汇视频基础所固有的挑战和机遇,为更强大和通用的视频理解奠定了基础。

作者又说,训练一个有效的open-vocabulary的视频定位需要大量带有丰富自然语言表达和对应时空定位数据集,这样数据能是模型学习通用视觉和文本特征去处理样本外的分布预测(zero-shot),可更好泛化。我们们受到基准方法启发,特别是空间定位方法。我们目的是结合预训练表征去增强视频定位。我们方法需是时空视频定位模型能像DETR架构一样通过空间回归模块增强。

三、贡献

1、我们评估时空定位模型,在HC-STVG V1与YouCook-interactions的zero-shot。我们模型超过最先进的TubeDETR与STCAT分别4.26的m_vIoU和1.83% accuracy。
2、结合空间定位优势与video-specific adapter互补,我们方法表现优异在四个closed-set数据集中。i.e.,VidSTG (Declarative) [32], VidSTG (Interrogative) [32],HC-STVG V1 [24] and HC-STVG V2 [24]

注:我觉得比较重要,也是贡献1说的时空定位模型结构,该篇文章也是提出编解码模块,处理时空融合。

四、模型结构

1、模型定义与问题

数据少问题

文章也说了对于数据少的问题,受空间定位方法启发,我们用空间grounding方法从有限的训练样本中生成表征去增强视频grounding的弱表征。原文如下说明:

To solve this problem, our approach takes inspirationfrom recent 
spatial grounding methods [4, 8, 12, 14, 29],which have strong open-vocabulary performance 
thanks to the large image-text corpus they are trained on. We can utilize the generalized representations of these models to enrich the weaker representation of video-grounding 
approaches obtained from the limited number of training samples. 
Our approach aims to leverage the strong pretrained representations of 
spatial grounding methods to achieve strong closed-set supervised 
and open-vocabulary video grounding performance

个人觉得作者并没有说清楚,数据少问题的处理

模型解决问题

spatio-temporal video grounding任务通过在视频序列中整合时间与空间信息涉及定位、识别目标和行为。与空间定位对应,它只聚焦一帧的定位、识别、行为,少了时间维度。这意味需要随时间移动理解每一帧目标位置或行为。

模型模块

作者提出类似DETR设计的时空视频定位模型,我们时空视频定位方法是基于DETR的DINO检测器,也借助了GLIP与Grounding DINO的图像文本校准概念,如下论文描述。

 Our proposed spatio-temporal video grounding method uses DETR-like [1] design, with
temporal aggregation and adaptation modules for learning video-specific representations.

nce. Our spatio-temporal video grounding approach is based on the state-of-the-art DETRbased [1] 
object detection framework DINO [31] and also borrows concepts of image-text alignment and grounding
from Grounded Language-Image Pre-training (GLIP) [10] and Grounding DINO [12]. 

2、模型结构

模型结构图

作者论文描述,文本与图像编码分别使用bert与swin-transformer,随后使用交叉多模态注意力机制编码,在解码时使用文本指导query,并也使用交叉多模态注意力机制解码。
在这里插入图片描述
整个架构:我们提出视频定位架构。它有视觉文本编码生成视觉文本特征。一个时空编码交叉模态模块融合时空维度与视觉文本模态信息。一个语言指导查询selction模块初始化交叉模态query(类似learn query)。一个时空解码交叉模态模块当融合信息来自视觉文本特征时解码queries。最终2个预测头预测每一帧的box和时间tube。火符号是学习模块、冰符号是冻结模块。

Cross-Modality Spatio-Temporal Encoder

作者解释获得视频特征与文本特征之间在不同帧间既没有多模态交互信息也没有时间依赖信息。因此,作者在不同时间帧中使用交叉多模态时空信息编码去学习交叉模态特征。对于视频特征,作者使用多头self-attention在时间维度编码,随后使用Deformable Attention在空间维度编码;对于文本特征,也采用同视频特征一样的方法。然后融合这2个特征类似GLIP方法。
在这里插入图片描述

Language-Guided Query Selection

该模块旨在选择与输入文本更相关的特征作为解码器query,以实现有效的语言视觉融合。使用正余弦位置编码,类似DETR可学习query方式。
在这里插入图片描述

Cross-Modality Spatio-Temporal Decoder

非常感觉类似DETR方法,使用query解码获得bounding box和开始或结束帧,然后做了一系列transformer等方式变化到可被head接收解码格式。
在这里插入图片描述

Prediction Heads

最终输出使用多层MLP方式实现。
在这里插入图片描述


总结

本篇文章是如何使用类似Groundin DINO进一步实现视频的时空定位,多了时间维度。作者提出,如何空间融合与时间融合的模块。但文章并没详细描述时间融合细节与处理视频数据少的问题。整体来说,本篇文章就是多了时间维度的open-vocabulary方法,是可值得借鉴的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/299336.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

冬天夺去的清爽,可爱,春天都会还给你

这款外套上身可太时尚好看了 春天日常穿着或者出行游玩 应对早晚温差,兼具时尚和温度两不误 干净率性闲适的洒脱范整件衣服干净不失细节 下摆有橡筋收紧更加保暖了工艺方面也毫不逊色,防水拉链 四合扣、猪鼻扣一应俱全简直就是一件实用与时尚并存的…

Grind75第2天 | 238.除自身以外数组的乘积、75.颜色分类、11.盛最多水的容器

238.除自身以外数组的乘积 题目链接:https://leetcode.com/problems/product-of-array-except-self 解法: 这个题有follow up, 要求优化到空间复杂度为O(1),所以给出baseline和follow up的解法。 Baseline:利用索引…

网络报文分析程序的设计与实现(2024)

1.题目描述 在上一题的基础上,参照教材中各层报文的头部结构,结合使用 wireshark 软件(下载地址 https://www.wireshark.org/download.html#releases)观察网络各层报文捕获,解析和分析的过程(如下 图所示&a…

SpringBoot+Redis实现接口防刷功能

场景描述: 在实际开发中,当前端请求后台时,如果后端处理比较慢,但是用户是不知情的,此时后端仍在处理,但是前端用户以为没点到,那么再次点击又发起请求,就会导致在短时间内有很多请求…

FCN-8s源码理解

FCN网络用于对图像进行分割,由于是全卷积网络,所以对输入图像的分辨率没有要求。本文重点对fcn8s.py中图像降采样和上采样后图像分辨率的变换进行理解。 相关知识 为准确理解图像分辨率的变换,对网络结构中影响图像分辨率变换的几个函数进行…

leetcode:3. 无重复字符的最长子串

一、题目 二、函数原型 int lengthOfLongestSubstring(char* s) 三、思路 本题就是找最长的无重复字符子串。 两层循环,外层循环控制字串的起始位置,内层循环控制字串的长度。 设置一个长度为256且初始为0的hash表(因为一共有256个字符…

windows----Vmware虚拟机安装ubuntu

双系统来回切有点麻烦,还是安装虚拟机先整个简单的。 1 安装Vmware17虚拟机 虚拟机下载网址,一直下一步就行,更新和加入计划关闭 秘钥:MC60H-DWHD5-H80U9-6V85M-8280D 2 下载ubantu镜像 浙大镜像,自己选择版本吧&a…

灰色关联分析

(相关性分析)反映关系有多么紧密 “在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法&#xff0…

STM32 ADC采样调试笔记

最近在搞STM32L051系列一个小MCU,要用这个去采集两路ADC作为输入。期间也碰到过一些问题,顺便记录下。 ADC采集原理不说了,主要采集电压,用数字进行细分,这样就可以知道输入电压多少了,网上也有很多相关文…

Spark中的二分类与多分类问题的解决

机器学习中的分类问题是数据科学中的一个重要领域,而在大数据环境中使用Apache Spark来解决二分类和多分类问题可以更好地处理大规模数据。本文将深入探讨如何使用Spark来解决二分类和多分类问题,包括数据准备、模型选择和性能评估等方面。 二分类问题 …

dnSpy调试工具二次开发1-新增菜单

测试环境: window 10 visual studio 2019 版本号:16.11.15 .net framework 4.8 开发者工具包 下载 .NET Framework 4.8 | 免费官方下载 .net 5开发者工具包 下载 .NET 5.0 (Linux、macOS 和 Windows) 利用git拉取代码(源码地址:Gi…

入库和出库的成本对不上如果如何解决

入库是前期手工录入的车价是对的,出库是根据销售出库单生成的 入库成本和出库成本不一致的解决方法 解决方法: 整车管理——正车库存——库存核算——整车出库 成本核算

Marvelous Designer 各版本安装指南

Marvelous Designer下载链接 https://pan.baidu.com/s/1ZZCraq6w2Z4JPisND8q0jA?pwd0531 1.鼠标右击【Marvelous Designer 12(64bit)】压缩包(win11及以上系统需先点击“显示更多选项”)选择【解压到 Marvelous Designer 12(64bit)】。 2.打开解压后的…

深入了解 RDD

深入了解 RDD 案例 明确需求: 在访问日志中,统计独立IP数量 TOP10 查看数据结构: IP,时间戳,Http,Method,Url…… 明确编码步骤 取出IP,生成一个只有IP的数据集简单清洗统计IP出现…

【小沐学CAD】开源Assimp库导入三维模型(C++、Python)

文章目录 1、简介2、下载编译3、代码测试3.1 C3.2 pyassimp(Python) 结语 1、简介 https://github.com/assimp/assimp Open Asset Import Library 是一个库,用于将各种 3D 文件格式加载为共享的内存格式。它支持 40 多种用于导入的文件格式和…

openssl3.2 - 编译

文章目录 openssl3.2 - 编译概述OpenSSL源码下载编译目标如何编译前置环境 - perl前置环境 - VS前置环境 - NASM快速编译步骤编译 - Quick startInstall PerlInstall NASMUse Visual Studio Developer Command Prompt with administrative privilegesFrom the root of the Open…

I.MX6ULL开发笔记(二)——硬件外设操作

0x01 点亮第一个RGB灯 在文章http://t.csdnimg.cn/EGWt9中有介绍Linux下文件目录,那么在Linux系统下,RGB灯也是一个设备,所以我们需要到/sys目录下去操作这个设备。 之后,我们进入到class目录,这里挂载着开发板上的外…

关于一个热成像仪的总结(一)硬件篇电源电路

1、电源部分 电源部分电路原理是这样的通过3.7V的锂电池供电,用Type-C选用TP4056作为充电电路给电池充电。使用MP2161开关电源作为5转3.3V 电源为MCU供电。 1-1电池 待定 1-2充电管理芯片TP4056 参考datasheet:https://atta.szlcsc.com/upload/publi…

[蓝桥杯学习] 线段树

学习blibli 定义 线段树是一种特殊的平衡二叉查找树,使用线段树,可以实现数据的添加、查找和删除。 树的根结点表示了一个完整的单元区间,左右孩子的区间是将父结点的区间进行二分,左右孩子的区间之和,就是他们的根…

studio3T mongodb 根据查询条件更新字段 或 删除数据

1. mongodb 等于、不等于$ne、不包含 $nin 以及批量更新数据的使用。 业务场景: 在集合中,根据查询条件,更新数据状态。 实现代码: 1. 部门名称为XXX、状态不等于“完好”的、并且不包含这些编码的数据先查询出来2. 再把状态更…