标题:OmniViD:通用视频理解的生成框架
源文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Wang_OmniViD_A_Generative_Framework_for_Universal_Video_Understanding_CVPR_2024_paper.pdfhttps://openaccess.thecvf.com/content/CVPR2024/papers/Wang_OmniViD_A_Generative_Framework_for_Universal_Video_Understanding_CVPR_2024_paper.pdf
源码链接:https://github.com/wangjk666/OmniVidhttps://github.com/wangjk666/OmniVid
发表:CVPR-2024
目录
摘要
1.引言
2. 相关工作
2.1. 针对特定任务的视频理解方法
2.2. 统一的视频模型
2.3. 计算机视觉中的自回归建模
3. 方法
3.1. 视频理解的统一词汇表
3.2. 统一架构
3.3. 统一训练与推理
4. 实验
4.1. 实现细节
4.2 主要结果
4.3. 消融研究
4.4. 可视化
5. 结论
读后总结
摘要
视频理解任务(如识别、字幕生成和追踪)的核心在于自动检测视频中的对象或动作,并分析它们的时间演变。尽管这些任务有着共同的目标,但它们往往依赖于不同的模型架构和标注格式。相比之下,自然语言处理得益于统一的输出空间,即文本序列,这简化了利用大量训练语料来训练强大的基础语言模型(例如GPT-3)的过程。受此启发,我们旨在通过使用语言作为标签,并额外引入时间与框(time and box tokens)令牌,来统一视频理解任务的输出空间。这样一来,多种视频任务就可以被表述为基于视频的令牌生成问题。这使得我们能够在完全共享的编码器-解码器架构下,遵循生成框架,处理包括分类(如动作识别)、字幕生成(涵盖片段字幕、视频问答和密集视频字幕)、以及定位任务(如视觉对象追踪)等多种类型的视频任务。通过全面的实验,我们证明了这一简单直接的想法非常有效,能够在七个视频基准测试上达到最先进或具有竞争力的结果,为更普遍的视频理解提供了一个新的视角。相关代码可在 https://github.com/wangjk666/OmniVid 获取。
1.引言
近年来,视频内容在在线教育、直播等各类应用中的激增深刻影响着我们的日常生活。视频已成为一种引人入胜的信息传递媒介,突显出对自动化算法迫切需求,这些算法需能理解视频序列中的行为、事件和移动对象。因此,视频理解领域经历了显著的扩展,涵盖了从动作识别、视频字幕生成到对象追踪等多种任务。长期以来,视频理解研究常采用特定任务范式,即设计专门的架构和损失函数以满足不同任务和基准的独特要求。尽管高性能深度神经网络取得了可喜成果,但这些方法针对性强,适应性较差,难以满足多样化场景部署的需求。为解决这一问题,视频基础模型因其在广泛视频任务中展现出的卓越性能及实现人工智能通用智能(AGI)愿景的潜力而受到越来越多的关注。然而,虽然可以学习到通用的空间-时间表示,但将这些模型应用于不同的下游任务通常需要精心设计和微调特定任务的头部。
本文认为,不同视频任务间多样化的标注方式(如动作识别中的类别集、字幕生成中的句子、事件或对象定位中的连续片段坐标)是导致这一局限性的根源,这自然要求针对优化进行特定任务的设计。相比之下,自然语言处理(NLP)中的不同任务享有共享的输出空间——文本序列,这促进了大型语言模型如GPT和Llama的发展。受此启发,我们利用自然语言中的词令牌来表示对于动作识别、视频字幕生成和视频问答等粗粒度任务至关重要的语义信息,并引入特殊的时间令牌和框令牌,为时空维度上的定位能力提供支持,这对密集视频字幕生成和视觉对象追踪等细粒度任务尤为重要。通过这种包含词、时间和框令牌的丰富词汇表,不同任务的输出格式和训练目标得以良好统一,详情请参见图1。
基于此理念,我们提出了OmniViD,一个基于视频输入的生成框架,将多种视频任务视为条件语言建模任务。OmniViD采用编码器-解码器架构,其中专用的视频编码器和语言编码器用于提取多模态特征。鉴于视频数据中存在的显著冗余,我们提出了一种轻量级MQ-former来增强后续建模的视频表示效率。MQ-former利用内容、句子和框三种可学习查询来通过交叉注意力聚合视频编码器的帧特征。最后,应用令牌解码器从上述词汇表中生成令牌序列。
我们在五个代表性视频任务上验证了OmniViD的有效性,包括动作识别、片段字幕生成、视频问答、密集视频字幕生成和视觉对象追踪。结果显示,OmniViD在主流视频基准上达到了新的最优或至少具有竞争力的结果。例如,使用VideoSwin-Base作为视频编码器,在Kinetics-400上动作识别的Top-1准确率达到了83.6%,MSRVTT上的片段字幕生成CIDEr得分为56.6,视频问答准确率为42.3%,ActivityNet上的密集视频字幕生成SODA c得分为5.6,以及TrackingNet上的视觉对象追踪标准化精度为88.9。首次,单一框架能够支持不同模态和粒度的视频任务。
2. 相关工作
2.1. 针对特定任务的视频理解方法
针对特定任务的视频理解模型大致可以分为分类、字幕生成和定位三大类。视频动作识别是视频领域最具代表性的分类任务,旨在识别视频中的人类行为。现有方法包括基于CNN的[32, 33, 46, 66]和基于Transformer的模型[3, 30, 64],广泛地将动作标签编码为独热向量,并采用交叉熵损失进行监督训练。另一方面,字幕生成任务通常为视频片段[61, 125, 126]或未剪辑的长视频[44, 99, 113]生成文本描述,常使用BERT这样的文本解码器[47]。值得注意的是,长视频字幕生成涉及在视频中定位时序事件的额外挑战,使其成为一个更复杂的任务。我们将开放式视频问答[50, 51, 59]归类为一种特殊的字幕生成任务,因为它们之间有类似的输出格式。定位任务以视觉对象追踪[20, 25, 96]为代表,给定视频序列中目标对象在首帧的位置,估计其在整个序列中的轨迹。遵循物体检测领域的实践[11, 38, 40],通常会采用边界框头来回归追踪对象的坐标。
总之,为了适应不同标注格式的特定需求,各种视频任务已发展出不同的预测头部,这对提出统一解决方案构成了挑战。本文从新颖的角度重新思考通用视频理解框架的设计,即重新定义一个可以被不同视频任务共享的输出空间。在这个统一的空间内,开发通用架构和训练目标变得明显可行。
2.2. 统一的视频模型
近期,研究人员在特定领域内统一视频任务方面做出了显著努力。OmniVL [92]和InterVideo [101]在视频-语言预训练领域迈出了重要步伐,它们在大规模视频-文本数据上进行预训练,并在多模态视频任务(如文本到视频检索和视频字幕生成)上取得了优异成绩。除了这些进展,UN-Loc [111]和UniVTG [76]试图在一个单一框架内解决一系列时序定位任务,通过同时预测每一帧(片段)的显著性分数和边界偏移实现。与视频-语言和时序定位相比,视频领域的空间定位,即追踪,在任务定义、模型架构和基准测试方面更为碎片化。Unicorn [109]通过为多种追踪任务采用完全共享的基于CNN的编码器和边界框头向前迈出重要一步,先对目标进行区分前利用目标。随后,随着视觉变换器[11]的显著成功,OmniTracker [94]和UNINEXT [110]通过整合基于Transformer的检测器进一步推动了追踪模型统一的界限。尽管这些方法取得了成就,但它们仍受限于特定任务的头部,为视频理解的更大统一留下了广阔空间。为了解决这一限制,我们使用一个可共享的输出空间统一了多样任务,并通过一个完全共享的生成框架来应对这些任务。
2.3. 计算机视觉中的自回归建模
自回归建模[114]是一种统计建模技术,基于历史观测值预测序列当前状态,在自然语言处理(NLP)[24]和时间序列分析[34, 68]领域取得了显著成功。受此启发,视觉领域的研究者也尝试探索其在视觉理解中的潜力。Pix2SeqV1&V2 [18, 19]通过量化图像坐标扩展了文本词汇表。通过这种方式,他们以统一的自回归方式解决了多个基本的图像任务,如对象检测和图像字幕生成。沿袭这一思路,ARTrack [102]和SeqTrack [21]进一步支持了视觉对象追踪任务。另一方面,VisionLLM [100]直接在预训练的LLMs基础上构建视觉为中心的框架,希望以最小的资源开销将它们的知识转移到视觉理解上。在本工作中,我们将自回归建模应用于通用视频理解框架的设计中。除了利用独特的时间令牌扩展到时序定位任务外,我们的方法还首次探索了自回归建模在通用视频理解框架中的优势。
3. 方法
我们的主要目标是设计一个通用框架,以适应多样化的视频理解任务。为此,我们在语言模型常用的词汇表[8, 53]基础上进行了扩展,引入了独特的时序令牌和边界框令牌。这一增强使得我们可以将各种视频任务的输出表示为共享词汇表内的一个令牌序列。在此基础上,我们进一步提出了OmniViD,这是一个生成框架,它将视频任务概念化为一个过程,即依据视频内容生成令牌。
给定一段持续数十秒至数分钟的视频V,我们从中抽取一序列帧[X1, X2, ..., XT]。对于视频问答,会提供关于视觉内容的问题;而在视觉对象追踪中,用户会指定第一帧中目标对象的边界框。以下内容首先介绍如何在第3.1节中利用上述词汇对不同视频任务进行令牌化,然后在第3.2节展示OmniViD的架构。最后,在第3.3节详述统一的训练和推断流程。
3.1. 视频理解的统一词汇表
在视频理解中,根据特定的设置和要求,不同的任务需要多样化的输入和输出。为了建立一个可以被不同视频任务共享的连贯输出空间,我们根据时间戳和空间坐标的离散化,分别在语言词汇表的单词令牌中补充了特殊的时间令牌和边界框令牌(见图2)。
通过丰富的词汇表,OmniViD的训练输入和目标序列可以按以下方式生成:
- 动作识别Action Recognition:输入仅包含任务提示ptask,例如“动作识别”,而目标则是真实的动作名称,如“跳芭蕾舞”。
- 片段字幕生成Clip Captioning:与动作识别相似,唯一的区别在于目标序列变为更长的描述,例如“显示电脑屏幕的片段”。
- 视频问答Video Question-Answering:输入既包含任务提示,也包含问题psen,如“视频中正在做什么?”,而目标是该问题的答案,如“击剑比赛”。
- 密集视频字幕Dense Video Captioning:预期输出是在给定视频中发生的一系列事件{ei}Ei=1。为了帮助模型学习时间戳与视觉内容之间的对应关系,我们为第i个事件ei定义了一个三元组,其中tstart_i和tdur_i表示开始和持续时间令牌,s代表事件的描述[113]。目标序列由所有事件的三元组连接而成。
- 视觉对象追踪Visual Object Tracking:我们采用任务提示以及第一帧中边界框的离散表示pbox作为输入,并将后续帧中的边界框令牌作为目标。给定一个在H×W图像上的边界框(x1, y1, x2, y2),其令牌化表示为。
不同视频任务的输入和目标序列总结在表1中。
3.2. 统一架构
图3展示了OmniViD的架构。混合Q-former(Mixed Q-former)将帧特征聚合为三种类型的查询,即内容查询、文本查询和边界框查询。之后,从不同帧获取的查询被输入到一个时间编码器中进行时间建模。最后,基于多模态输入,令牌解码器生成一系列令牌。
OmniViD采用了一种编码器-解码器架构,该架构首先利用视频编码器从视频帧序列{Xt}中(从t=1到T)提取视频特征F,其属于空间时间维度,其中Tf表示时间分辨率,Hf×Wf代表空间分辨率,而Cf是特征的维度。对于视觉对象跟踪任务,遵照惯例[4, 20, 96],我们会将首帧替换为裁剪后的模板图像。此外,还使用了语言编码器来转换三种不同类型的提示(ptask, psen, pbox)为提示嵌入Gtask, Gsen, Gbox,并沿着序列维度将这些嵌入连接起来形成文本特征G ∈ RLg×Cg。基于这些多模态输入,OmniViD会在给定的词汇表中生成一系列令牌。
MQ-former部分:为了将视频特征编码成更高效的表示形式,我们进一步提出了一种MQ-former机制,它将这些特征聚合成一组可学习的查询。我们的MQ-former受到了BLIP-2 [56]中的Q-Former启发,并对其内容查询qcon进行了增强,加入了句子查询qsen和边界框查询qbox。qsen和qbox通过使用两个独立的线性层转换对应的提示特征Gsen和Gbox获得。将qsen和qbox加到qcon上,目的是整合语义和位置线索[63]。这种不同类型的查询使用不仅使我们的方法能够适应多种视频任务,还能将来自提示的指导信息明确地融入视觉特征之中。
具体操作上,我们首先沿着时间维度将视频特征F切分,得到一系列帧特征{Fi}(从i=1到Tf),然后并行地将这些特征输入到MQ-former中。在MQ-former内部,累加的查询通过自注意力和跨注意力机制相互作用以及与每个Fi进行迭代交互,这有助于将帧特征整合到紧凑的查询中。随后,我们将针对每一帧的查询输入到一个变换器层来进行时间建模,从而得到Q,其形状为RTfNq×Cq,这里Nq设置为32(遵循BLIP-2的配置),Cq表示特征维度。
视觉翻译器部分:为了确保模型输出与视频内容本质相关,视频和文本表示之间的对齐至关重要。我们通过将Q传递给一个多层感知机(MLP)层,将其映射到文本嵌入空间,以此来实现与其维度的对齐,并与提示特征G保持一致。之后,沿着序列维度将它们拼接起来,得到多模态令牌M ∈ R(Lg+TfNq)×Cg。
基于视频的令牌解码:最后,我们采用一个令牌解码器,根据M来预测令牌序列。我们的令牌解码器结构类似于流行的语言解码器[53, 87],采用因果自注意力机制以自回归方式生成令牌。
3.3. 统一训练与推理
训练。给定条件M,OmniViD通过交叉熵损失来训练,目的是最大化预测令牌与目标令牌y之间的对数似然性:
其中P表示softmax概率,L是序列y的长度,到当前预测位置前的所有令牌。需要注意的是,各种视频任务的输出都可以表示为我们在第3.1节中引入的统一词汇表中的一系列令牌。
推理。在推理阶段,我们根据模型似然性,即,来预测每个令牌,并采用束搜索策略[35],因为它比argmax采样或核采样[41]能带来更好的性能。与语言模型类似,序列生成的结束由一个EOS(End Of Sequence)令牌来指示。对于密集视频字幕生成,事件片段可以通过反量化时间令牌轻松获得;而对于视觉对象跟踪,边界框则可以通过反量化边界框令牌获得。
4. 实验
4.1. 实现细节
数据集。我们的训练语料库涵盖了多个领域的数据集,包括动作识别(如Kinetics-400 [46]和Something-Something V2 [39])、视频片段字幕生成(如MSRVTT [107]和MSVD [106])、视频问答(同样使用MSRVTT [107]和MSVD [106])、密集视频字幕生成(如ActivityNet [10])以及视觉对象追踪(如TrackingNet [69]、LaSOT [29]和GOT10K [43])。
模型实例化。我们采用在Kinetics-600 [13]上预训练的VideoSwin作为视频编码器,并且初始化语言编码器和令牌解码器使用了预训练的Bart-base [53]模型,该模型大约有1.4亿个参数。时间令牌和边界框令牌的数量分别设置为300和1000。遵循BLIP-2 [56]的设计,我们的MQ-Former采用了与Bert-Base相同的架构,包含12层变换器层,并额外插入了交叉注意力模块。为了注入时间信息,我们会在MQ-Former的输出上添加位置编码。
训练与推理流程。对于基于片段的任务,包括动作识别(AR)、视频片段字幕生成(CC)和视频问答(ViQA),我们在训练时随机抽取32帧,而在推理时均匀抽取。对于密集视频字幕生成(DVP),我们遵循[113]的做法,以1FPS的频率提取帧,并在训练和推理期间将帧序列下采样或填充至160帧。在视觉对象追踪(VOT)任务中,我们训练时在一个视频序列中随机抽取两个帧,这遵循了常见的实践方法[20, 102]。
针对不同任务,我们的模型分别训练了50、20、50、500个周期,对应于AR、CC、ViQA、DVP和VOT。特别地,由于追踪数据集的规模较大,我们遵循[21, 102]的建议对VOT进行了更长时间的训练。我们采用了不同的批量大小:AR为64,CC为8,ViQA为256,DVP为8,VOT为16。模型使用AdamW优化器[65]进行优化,初始学习率为5e-6,并通过余弦调度衰减至0。采用的帧分辨率为224×224,同时进行随机缩放裁剪和水平翻转的数据增强。
在推理阶段,为了支持多片段&裁剪评估,我们对AR产生的令牌的logits进行平均作为最终得分;对于VOT,为了模板更新,我们也采取同样的平均logits策略[21, 102]。VOT中模板更新的阈值设为0.03。
4.2 主要结果
-
动作识别作为最具代表性的视频理解任务之一,旨在识别视频中的动作类别。我们在常用的数据集上评估了OmniViD的Top-1准确率,包括含有400个动作类别、306,000个短视频片段的Kinetics-400 (K400) [46],以及包含174个类别、22万个视频的Something-Something V2 (SSV2) [39]。与其他方法的对比结果见表2。OmniViD在这两个数据集上均取得了最佳表现,即K400上的83.6%和SSV2上的71.3%,分别超越了VideoSwin [64]模型0.9和1.7个百分点,突显了我们方法的优势。
-
视频字幕生成要求模型为给定视频生成文本描述,同时评估了我们的方法在视觉理解与文本生成方面的能力。我们采用了两大大规模开放领域视频字幕数据集MSRVTT [107]和MSVD [14],结果如表3所示。可以看到,OmniViD以明显优势超越了现有模型,在MSRVTT和MSVD上CIDEr指标分别提高了2.8和1.9,即便一些模型(如OA-BTG [118] 和ORG-TRL [121])通过离线方式利用物体检测器[38, 40]提取物体信息。
-
视频问答旨在根据视频内容回答自然语言问题。表4展示了OmniViD与其他视频问答(ViQA)模型在MSRVTT [107]和MSVD [106]上的准确率比较。结果显示,OmniViD不仅优于专门的问答方法(如JustAsk [112]),也超过了与任务相关的模型(如ALIPRO [55]),彰显了我们方法在处理复杂的多模态推理任务方面的有效性。
-
密集视频字幕生成需在未剪辑的视频中定位事件并为之生成相应的文本描述。遵循先前方法[99, 113]的做法,我们从三个方面评估了OmniViD:1) 在不同IOU阈值(0.3, 0.5, 0.7, 0.9)下的平均精度(P)、平均召回(R)及其调和均值以衡量定位性能;2) 用于密集字幕的BLEU4(B4)、METEOR(M)和CIDEr(C)指标;3) 以及SODA_c作为综合评估。结果见表5。与传统方法(包括两阶段如DVC [58]、SDVC [70]及一阶段如PDVC [99]、UEDVC [119])相比,OmniViD在所有指标上(除召回率外)都取得了更好的成绩。召回率略低是因为传统方法常固定数量的定位头产生大量假阳性预测,如SDVC [70]中的100个。Vid2Seq [113]是首个用于密集视频字幕生成的端到端框架,尽管在YT-Temporal-1B上我们模型略逊于他们的预训练模型,但在无大规模预训练的情况下,我们显著超越了他们,CIDEr指标为18.80对比26.00。OmniViD与Vid2seq的详细比较可在附录中找到。
-
视觉对象追踪任务要求在给出目标对象在首帧中的位置后,预测其轨迹,这需要对时空信息有精细的理解。在表6中,我们在两个最具代表性的数据集LaSOT [29]和TrackingNet [69]上,将OmniViD与其他追踪模型进行了比较,报告了成功率(Suc)、精度(P)和归一化精度(Pnorm)。值得一提的是,尽管SeqTrack [21]和ARTrack [102]也采用了自回归框架进行对象追踪,但OmniViD与它们在两方面存在差异:首先,我们在完整帧上执行追踪,而不是裁剪区域;其次,我们通过边界框查询将参考框编码到追踪帧的视觉特征中,而不仅仅是将其作为令牌解码器的提示。观察发现,OmniViD在LaSOT和TrackingNet上均展现出卓越性能,即Pnorm指标分别为79.6和88.9,击败了大多数先前的最先进方法。
4.3. 消融研究
OmniViD中各组件的分析。 表7中,我们进行了消融实验,以研究OmniViD核心组件的影响:
- 混合Qformer中的文本与边界框查询:不同的查询是我们方法的核心设计,旨在适应不同的视频任务,并将参考信息注入帧特征中。从第1行和第2行可以看出,它们分别在VQA(视频问答)和VOT(视觉对象追踪)任务上的性能提高了1.9和1.4,表明这些查询的有效性。
- 时间编码器:比较第3行和第5行的结果,很明显时间编码器在所有任务上都带来了显著的性能提升,验证了时间建模对于视频理解的重要性。
- 使用Bart [53]初始化令牌解码器:第4行的结果表明,令牌解码器的初始化对字幕生成任务有着更大的影响,这是因为字幕任务的训练目标本质上与令牌解码器的预训练更为一致。
开放词汇表动作识别:与传统的基于分类器的方法相比,OmniViD通过在输入文本提示中附加类别名称,更灵活地适应开放词汇表(OV)设置。如表8所示,OmniViD在无需复杂设计的情况下,与现有的OV方法相比,达到了竞争力强的结果。
时间和边界框令牌的数量。我们进一步尝试在定位任务上使用不同数量的时间(Nt)和边界框(Nb)令牌。如图4所示,对于这两种类型的令牌,增加数量最初可以改善结果,因为相应的量化误差随之减少,最终当Nt≥300和Nb≥1000时收敛。这意味着在此数量级上,增加更多令牌带来的收益逐渐减小,达到了性能上的平衡点。
4.4. 可视化
我们在图5中可视化了OmniViD在多种视频理解任务上的预测结果。从最上面两行可以看到,OmniViD不仅能为视频生成准确且自然的字幕,还能回答关于视频中人物或活动的问题,展示了其跨模态建模的能力。此外,OmniViD在时空定位方面也表现出色。第三行和第四行的结果显示,它能精确检测视频中不同类型的事件,并为这些事件生成生动的描述。而且,OmniViD在应对遮挡和物体追踪中的变化时也表现出了显著的鲁棒性。这些可视化结果突显了OmniViD在广泛视频任务中的多功能性和有效性。
图5。OmniViD对不同视频理解任务的可视化预测。从上到下,我们分别展示了视频字幕、视频问答、密集视频字幕和视觉对象跟踪的可视化结果。
5. 结论
本文介绍了一种通用视频理解的生成框架——OmniViD。我们通过向语言模型的词汇表中添加特殊的时间和边界框令牌,为不同的视频任务定义了一个统一的输出空间。借此,包括动作识别、视频片段描述、视频问题回答、密集视频描述以及视觉对象追踪在内的广泛视频任务,都能够被构造成一个基于视频的令牌生成过程,并进一步在一个编码器-解码器架构中得到解决。在七个突出的视频基准数据集上进行的广泛实验,展示了OmniViD卓越的视频理解能力和多面特性。
尽管取得了令人鼓舞的成果,OmniViD在联合训练中的性能在时空定位任务上相比于单独训练出现了一些退化。未来,我们将探索在多个数据集和任务上更先进的训练与优化策略,以进一步提升我们方法的整体性能和鲁棒性。
读后总结
出发点:现有的视频理解任务,如分类(如动作识别)、字幕生成(涵盖片段字幕、视频问答和密集视频字幕)、以及定位任务(如视觉对象追踪)等多种类型的视频任务,都设计具有针对性的模型架构和标注格式来实现对应任务需求。
创新点1:本文提出了统一的编码器-解码器的生成框架——OmniViD,在输出空间添加了时间和边界框令牌,为不同的视频任务定义了一个统一的输出空间,能够处理出发点中提及的所有任务需求。具体来说,将文本提示嵌入和视频嵌入组合,通过令牌解码器处理,得到分类任务、字幕生成任务(包含时间令牌)、定位任务(包含边界框令牌)的文本描述。
创新点2:针对视频数据中存在的显著冗余,本文提出了一种轻量级MQ-former来增强后续建模的视频表示效率,MQ-former是在BLIP-2的Q-Former基础上改进得到,在Q-Former原有的qcon基础上增加句子查询qsen和边界框查询qbox,来整合视频的语义和位置线索,通过添加不同类型的查询,不仅能适应多种任务需求,还能将提示信息明确的融入视觉特征中。