介绍
论文地址:https://arxiv.org/abs/2105.05964
源码地址:https://github.com/facebookresearch/connect-caption-and-trace
在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两个领域的想法逐渐趋同。
特别是,重点是建立多模态模型来协调视觉和语言,这些模型的目标是模仿人类压缩信息和跨模态翻译的非凡能力。
然而,尽管取得了这些进展现有的图像标题数据集只提供简短的名词或短语级别的标题,并且而且,到目前为止,图像标题和视觉定位模型无法联合生成长篇自然语言标题和高度精确的词级视觉定位。
本文介绍了一个使用新颖的Transformer架构解决上述问题的论文,该架构对图像、标题和追踪这三种模式进行联合建模。
数据集和新任务概述
首先,描述了本文中使用的本地化叙事数据集和使用它的新任务。
本地化叙述数据集是通过同时记录注释者描述图像内容时的声音和鼠标痕迹来收集的。该数据集将由三种模式组成:图像、标题和追踪。
虽然关于这个数据集的原始论文只处理了一个任务**–从图像和痕迹中生成标题**–但本文提出了两个额外的、具有挑战性的新任务
- 以图像和标题作为输入,生成痕迹。
- 只用图像作为输入就能生成标题和痕迹。
这在下图中得到了体现。(表中第1行和第3行是新任务)
虽然这三项任务乍看之下是分开的,但本文提出了一个新颖的模型架构并提出了一个统一的框架对这三项任务进行联合建模。
MRL(Mirrored TransformeR)
本文没有为上述三个任务建立三个独立的模型,而是提出了一个模型,在一个统一的框架内有效地学习,并共享参数,由于其对称结构,本文将这个模型架构命名为Mirrored TransformeR(MITR)。该模型架构因其对称的结构而被命名为镜像传输(MITR)。(见下图)
特征值
模型的输入是一个图像特征、文本特征和痕迹特征的子集,每个特征都是
- 图像特征使用预先训练好的Faster R-CNNs来计算检测区域的视觉特征。
- 对于文本特征,与现有的研究一样,总和位置嵌入和词嵌入
- 在轨迹特征中,位置嵌入和输入轨迹对d个隐藏维度的投影被加在一起。
模型结构
该模型由三个模块组成:1)图像编码器,2)字幕编码-解码器和3)轨迹编码-解码器。(见下图)
让我们分别用xv、 xw和 xr来表示输入的图像特征、文本特征和痕迹特征。图像编码器hv定义如下。
这里,按照现有的研究,前馈网络(FFN)被定义为两个线性转换层,中间有一个ReLU激活函数,MultiHead定义如下。
标题编码器-解码器hw和跟踪编码器-解码器hr也定义如下。
这些模块被设计成具有镜像结构,在标题生成和跟踪生成这两项任务中,两种模式是对称的。
另外,通过执行现有研究中提出的屏蔽操作,即编码器指的是所有输入,而解码器只指部分过去的信息 ,上述两个模块的特点是能够在编码器和解码器的角色之间无缝切换。这两个模块可以在编码器和解码器的角色之间无缝切换。
总损失功能
最终的损失函数可以表述如下
其中,**L[trace]**是trace生成中预测的trace盒与地面真实trace盒之间的L1损失,L[caption]是caption生成中的cross-entropy损失,**Lr~→w→r是循环损失,而L[联合]**是联合字幕和追踪生成任务中的追踪损失和字幕损失之和。
实验
本文在四个数据集上进行了实验,COCO、Flickr 30k、ADE 20k和Open Images。
痕迹和标题的生成
使用本文提出的方法,跟踪生成(任务1)和标题生成(任务2)的结果如下图所示。结果显示在图2中。
如图所示,所提出的方法能够为这两项任务获得准确的生成结果。
联合字幕和痕迹生成
同时生成字幕和追踪的结果(任务3)如下图所示。
与只对字幕进行建模的基线相比,同时对痕迹和字幕进行建模,使字幕生成性能得到了显著提高。
然而,在没有人为痕迹注释生成标题的情况下,有时会观察到诸如同一对象或描述在一个标题中重复多次的缺陷,这表明需要采取一些措施,如保留所有参考对象的记录,以便在未来的发展中避免这种重复。有人建议,在未来的发展中,应采取诸如保留所有参考对象的记录的措施,以避免这种重复。
总结
提出了Mirrored TransformeR(MITR),这是一个新颖的转化器架构,它对图像、标题和追踪三种模式进行联合建模。
由于该模型有可能被用来解决各种社会问题,例如为社交媒体上的视障人士自动生成图片的本地化描述。未来的发展将受到密切关注。