文章汉化系列目录
文章目录
- 文章汉化系列目录
- 摘要
- 引言
摘要
视频是多模态监督的丰富来源。在本研究中,我们通过自监督学习利用视频中天然存在的三种模态——视觉、音频和语言流——来学习表征。为此,我们引入了“多模态多功能网络”的概念,该网络能够接收多种模态输入,其学到的表示能够支持多模态的下游任务。特别地,我们探索了如何最佳地结合这些模态,以便在维持视觉和音频模态的细粒度表示的同时,将文本整合到一个通用的嵌入空间中。基于多功能性,我们还提出了一种新颖的“收缩”过程,使得该网络可以轻松地应用于视频或静态图像形式的视觉数据。我们展示了这种在大量未标注视频数据上训练的网络如何应用于视频、视频-文本、图像和音频任务。利用这些表示,我们在多个具有挑战性的基准数据集上(如UCF101、HMDB51、Kinetics600、AudioSet和ESC-50)实现了超越以往自监督方法的最先进性能。我们的模型已公开提供。
引言
我们对世界的体验是多模态的。从婴儿时期起,我们便通过多种感官系统来感知世界。例如,我们观看火焰在壁炉中跳动,听到木头噼啪作响的声音,还能感受到散发出的热量。通过这种多模态的同步感知,我们逐渐学会在模态之间建立有用的联系【73】,从而形成对世界的良好表征。随后,语言的出现使我们能够用高级的抽象概念来表达这种细致的多模态体验。
本研究的目标是以自监督的方式,从这种多模态体验中学习表征,而不依赖任何特定的人工标注。我们所考虑的模态包括从大量未标注视频中易于获取的三种:视觉、音频和语言(从旁白中提取)。我们旨在学习一种“多模态多功能网络”,其定义包含以下四个特性:(i)网络能够以三种模态中的任意一种作为输入;(ii)能够尊重模态的特性,特别是音频和视觉模态的细粒度性强于语言模态;(iii)即便在训练期间模态数据未曾一起出现,网络也能够轻松比较不同模态;最后,(iv)网络能够高效地应用于动态视频或静态图像形式的视觉数据。
如何设计一个符合这四个原则的网络?我们选择将每个模态嵌入到一个向量空间中,使得模态之间的相似性可以通过简单的点积来获得。每种模态通过适应信号特性的主干网络进行处理,构建了一个模态嵌入图,使得视觉和音频嵌入是细粒度的,而文本嵌入则是语义粗粒度的。这一策略基于观察得出:视觉和音频空间是细粒度的(例如,相同的吉他在视觉或音频上可能表现出很大的不同),而文本域则更为粗略,因为其目的是抽象掉细节(例如,仅使用“吉他”一词)。网络随后通过对大量未标注视频进行自监督对比学习从零开始训练。
为了定量评估我们学习到的多模态多功能(MMV)网络,我们在多个下游任务上衡量其性能,以评估其视频和图像表征的各种属性:动词学习(在HMBD51、UCF101和Kinetics600数据集上进行的动作分类)、名词学习(在PASCAL VOC和ImageNet上的图像分类)、文本与视觉联合表征(YouCook2、MSRVTT),以及音频表征(ESC-50和AudioSet上的声音分类)。所提出的MMV在这些基准上取得了自监督方法的最先进性能,并缩小了与监督方法的性能差距。
贡献:本文的主要贡献如下:
(a) 我们研究了不同的MMV模态嵌入图,并提出了一种简单而有效的自监督训练策略,用于音频、视觉和语言流的多模态表征;
(b) 我们引入了“收缩”方法,使得MMV视频网络能够高效地接受静态图像;
© 我们在多项图像、视频、音频和视频-文本的下游任务中验证了所学习表征的优越性。