【开放词汇检测】MM-Grounding-DINO论文翻译

摘要

Grounding-DINO 是一种先进的开放式检测模型，能够处理包括开放词汇检测（Open-Vocabulary Detection，OVD）、短语定位（Phrase Grounding，PG）和指代表达理解（Referring Expression Comprehension，REC）在内的多项视觉任务。其有效性使得它成为各种下游应用的主要架构得到了广泛应用。然而，尽管它很重要，原始的 Grounding-DINO 模型由于缺乏训练代码而缺乏全面的公共技术细节。为了弥补这一差距，我们提出了 MM-Grounding-DINO，这是一个开源的、全面的、用户友好的流程，它是用 MMDetection 工具箱构建的。它采用了丰富的视觉数据集进行预训练，以及各种检测和定位数据集进行微调。我们对每个报告的结果进行了全面的分析，并提供了详细的复现设置。在提到的基准测试上进行的广泛实验表明，我们的 MM-GroundingDINO-Tiny 性能超过了 Grounding-DINO-Tiny 基线。我们将我们所有的模型发布给研究社区。代码和训练好的模型在 https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino 上发布。
在这里插入图片描述

1、引言

目标检测任务通常涉及将图像输入到模型中以获得建议，然后通过多模态对齐与文本匹配，这使它成为大多数最先进的多模态理解架构的关键组成部分。目前，根据输入文本的类型，目标检测可以细分为三个子任务：开放词汇检测（Open-Vocabulary Detection，OVD）、短语定位（Phrase Grounding，PG）和指代表达理解（Referring Expression Comprehension，REC）。

在这里插入图片描述
遵循零样本设置，OVD 模型在基础类别上进行训练，但要求在大规模语言词汇表内预测基础和新颖类别[29]。短语定位任务不仅需要一个类别，还需要一个描述所有候选类别的短语作为输入，并输出相应的框[25]。REC 任务的主要目标是准确识别由给定文本描述指定的目标，并随后使用边界框标出其位置[9]。

近年来，为了解决上述任务，已经探索了许多视觉定位和检测模型。在这些定位模型中，Grounding-DINO [20] 作为一种具有优越性能的主流架构被采用。基于封闭集检测器 DINO [34]，Grounding-DINO-Large 在没有任何 COCO 训练数据的情况下，在 COCO [17] 上实现了最先进的零样本性能（mAP 52.5）。Grounding-DINO 在多个阶段执行视觉和语言模态的集成，包括特征增强器、查询选择模块和解码器。这种深度融合方法显著提高了开放式环境中对象的检测能力，基于 DETR 的结构使其成为一个没有任何硬编码模块的端到端网络。

鉴于 Grounding-DINO 在上述三个下游任务中展示了卓越的精度，然而它并不完全开源（只提供了测试和演示代码），我们利用 OpenMMLab 项目中的 MMDetection 工具箱[4]重建了 Grounding-DINO 模型，遵循 Grounding-DINO 的官方测试代码。模型的结构几乎保持不变，除了初始化期间的修改。基于 Grounding-DINO 框架，我们提议应用更多数据集进行预训练，包括 COCO、Objects365 [27]、GRIT [23]、V3Det [28]、RefCOCO [13]、RefCOCO+ [33]、RefCOCOg [22]、GQA [11]/ Flickr30k Entities [24]（组合也被称为 GoldenG 数据集 [12]），结果是一个更强大的基于 Grounding-DINO 的模型，我们称之为 MM-Grounding-DINO。由于 Grounding-DINO 使用的 Cap4M 数据集 [25] 并非开源，我们选择 GRIT 和 V3Det 数据集作为我们研究的替代品。
我们进一步扩展了所有可用于开放词汇检测（OVD）、短语定位（PG）和指代表达理解（REC）评估的基准测试，包括 COCO、LVIS [8]、RefCOCO/+/g、Flickr30k Entities、ODinW13/35 [15]、gRefCOCO [19] 和描述检测数据集 $D^3$ [30]。据我们所知，我们是第一个实现一个框架，该框架便于对如此广泛的数据集数组进行系统评估。所有评估指标都在 MMDetection 中随时可用。通过大量数据预训练，MM-Grounding-DINO-Tiny 在 COCO 上实现了零样本 50.6 mAP，在 LVIS mini 上实现了 41.4 mAP，并在 REC 任务中全面超越了 Grounding-DINO-Tiny，详细结果见第 3 节。我们希望我们的流程能成为进一步研究 OVD、PG 和 REC 任务的宝贵资源。

我们论文的贡献如下：

我们提出了 MM-Grounding-DINO，这是一个基于 Grounding-DINO 并用大量视觉数据集预训练的全面开源定位流程，全面解决了 OVD、PG 和 REC 任务。
我们率先扩展了所有可用的 OVD、PG 和 REC 评估基准测试，包括 COCO、LVIS、RefCOCO/+/g、Flickr30K Entities、ODinW13/35、gRefCOCO 和 $D^3$ 。所有评估指标都在 MMDetection 中随时可用。
我们通过微调我们的模型，通过多种外部特殊数据集，广泛评估了我们模型的迁移能力。

2、方法

在本节中，我们详细介绍了模型和数据集。除非另有说明，否则 MM-G 表示 MMGrounding-DINO。G-DINO 指 Grounding-DINO。O365 指 Objects365 V1，GoldG 在以下各节中指 GQA 和 Flickr30k Entities 的组合。

2.1、模型

正如我们在第 1 节中提到的，我们的模型基于 Grounding-DINO [20]，几乎保持不变。我们的框架如图 3 所示。给定具有形状 [Batchsize, 3, $H$ , $W$ ] 的图像和文本描述，我们的模型可以对描述与相应生成的边界框进行对齐。我们模型的组件包括用于提取文本特征的文本主干，用于提取图像特征的图像主干，用于深度融合图像和文本特征的特征增强器，用于查询初始化的语言引导查询选择模块，以及用于框细化的跨模态解码器。结构的更多细节见 [20]。
在这里插入图片描述

特征提取和融合。给定一对图像-文本，我们使用图像主干在多个尺度上提取图像特征，同时，文本主干用于提取文本特征。然后我们将这两种特征输入到特征增强器模块进行跨模态融合。在特征增强器模块中，文本特征和图像特征首先通过包含文本到图像交叉注意力和图像到文本交叉注意力层的 Bi-Attention Block 进行融合。然后，融合后的文本特征和图像特征分别通过普通的自注意力层和可变形自注意力层以及 FFN 层进一步增强，如算法 1 所示。
在这里插入图片描述

语言引导查询选择。为了优化文本在引导目标检测中的利用，GroundingDINO 设计了一个语言引导查询选择模块。语言引导查询选择模块根据与输入文本特征的余弦相似性选择 num_query 个提案作为解码器查询。参数 num_query 表示输入到解码器的查询数量，在实现中我们将其配置为 900，遵循 DINO [34]。解码器的输入查询由两部分组成：内容部分和位置部分。位置部分代表动态锚框，并根据语言引导查询选择模块的输出进行初始化，而内容部分初始化为全零可学习查询。

跨模态解码器。Grounding-DINO 中的跨模态解码器层旨在进一步融合文本和图像特征进行跨模态学习。在自注意力之后，架构包含了一个图像交叉注意力层，接着是一个文本交叉注意力层，并以 FFN 层结束。与 DINO 解码器层相比，每个解码器层都额外拥有一个文本交叉注意力层。这种增强是必要的，因为它需要将文本信息注入查询中，从而提高模型的性能。

训练损失。L1损失和GIOU [26]损失被实现用于框回归分支。遵循GLIP [16]，我们使用焦点损失 [18] 作为预测框和语言标记之间的对比损失进行分类。每个预测的框都会与所有语言标记相乘，以计算它们之间的相似性。框回归和分类损失被联合用于计算二分图匹配损失 [3]。与Grounding-DINO一致，我们还为每个解码器层以及编码器输出纳入了辅助损失。

差异。MM-G和GDINO之间的主要区别在于对比嵌入模块。受到CLIP [25]的启发，我们在初始化对比嵌入模块时添加了偏差。这可以显著降低初始损失值并加速我们模型的收敛。

实现代码如算法2所示。
在这里插入图片描述

2.2、数据集准备

我们的数据格式受到Open Grounding-DINO [35]格式的启发，并根据MMDetection的格式进行了修改。由于MM-Grounding-DINO旨在解决三种任务，并且使用不同类型的注释数据集，我们将使用的15个数据集分别分成三组。数据集的详细信息显示在表2中。值得注意的是，在训练过程中，GRIT的全部数据（超过1300万）并不是每个epoch都完全使用。相反，它被分割成每个epoch 500,000的段落。
在这里插入图片描述

OVD数据集。我们用于训练的数据集包括COCO [17]、Objects365V1 [27]、Objects365V2 [27]、V3Det [28]、Open-Images，评估数据集包含COCO、LVIS [8]、ODinW12/35 [15]。

PG数据集。训练数据集包括GQA [11]、GRIT [23]、Flickr30K Entities [24]，而Flickr30K Entities数据集也用于评估。

REC数据集。训练数据集包括RefCOCO [13]、RefCOCO+ [33]、RefCOCOg [22]。评估时，我们使用更广泛的数据集，包括RefCOCO、RefCOCO+、RefCOCOg、gRefCOCO [19] 和描述检测数据集 $D^3$ [30]。

2.3、训练设置

文本输入规则。对于OVD训练，我们将检测数据集中的所有类别连接成长字符串，如"People. Ball. Racket. Cat.“。对于PG和REC任务，遵循M-DETR [12]，在预训练阶段，我们注释文本中提到的每个对象，这导致模型在这项任务的应用上有轻微的修改。例如，在预训练期间，给定标题"The woman wearing a blue dress standing next to the rose bush.”，MM-Grounding-DINO将被训练以预测所有被提及的对象（如女性、蓝色连衣裙和玫瑰丛）的边界框。

模型变体。与Grounding-DINO类似，我们选择一个预训练良好的基于BERT的不区分大小写模型 [6] 作为我们的语言编码器，并将Swin Transformer [21] 作为图像主干。我们比较了MM-G-tiny和G-DINO-Tiny中不同数据集组合。训练数据集的选择取决于图像主干的规模，如表1所示。
在这里插入图片描述

数据增强。除了随机调整大小、随机裁剪和随机翻转外，我们还在数据增强中引入了随机负样本。我们将类别或文本描述与作为负例的从其他图像随机抽样的描述连接起来，与作为正例的真值描述一起。这可以有效地抑制模型生成的幻觉现象，从而使模型不会预测图像中不存在的对象。

计算资源。我们在32个NVIDIA 3090 GPU上训练了我们的MM-G-Tiny，总批量大小为128，训练了30个周期。由于MM-G-Large的计算成本极高，MM-G-Large模型仍在训练中。

3、主要结果

3.1、零样本迁移

在零样本设置中，MM-G模型最初在基础数据集上进行训练，随后在新颖数据集上进行评估。此外，我们还展示了一组通过微调得出的结果，以便全面比较我们的模型与Grounding-DINO的性能。这种方法确保了对模型性能的稳健评估及其在该领域的相对地位。
在这里插入图片描述

COCO基准测试。我们对预训练在O365数据集和其他PG/REC数据集上的MMGrounding-DINO进行了评估。遵循Grounding-DINO，使用COCO数据集建立零样本学习基线。我们在表3中比较了MM-Grounding-DINO-Tiny与Grounding-DINO-Tiny。结果显示，即使MM-G(a)仅用O365训练（mAP 48.5），也能胜过用O365、Gold-G和Cap 4M训练的G-DINO©（mAP 48.4），这证明了我们模型的效率。用Objects365、Gold-G和GRIT训练的MMG-T©展示了 $\mathbf{50.5}$ mAP的性能，比G-DINO©在COCO基准上提高了2.1 AP。这是在模型在训练期间未接触到任何COCO图像的情况下实现的，我们使用的GRIT数据甚至少于Cap 4M(4M)。对此有两个可能的解释：

我们的训练策略，特别是在初始化期间增加的额外偏差，有助于模型的收敛。
O365数据集包含了COCO数据集的类别。因此，我们的模型已经在O365数据集上进行了广泛的训练，并自然在COCO数据集上表现出更高的准确性。这一断言通过模型在其他数据集上评估时观察到的相对较低的性能间接得到验证。
还观察到，纳入V3Det数据集对COCO零样本评估没有积极贡献，甚至可能产生负面影响。

LVIS基准测试。LVIS数据集构成了一个长尾检测数据集，包含1000多个独特类别进行评估。遵循GroundingDINO，LVIS也用于零样本OVD评估。我们在表4中比较了MM-Grounding-DINO-Tiny与GroundingDINO-Tiny。我们观察到，尽管MM-G(a)在没有Cap 4M的情况下仅用O365和GoldG训练，它仍然能够在LVIS MiniVal和Val上超过G-DINO© 6.9 AP。在添加V3Det后，MM-G(c3)在MiniVal上实现了近5 AP的大幅提升，达到MiniVal上的 $\mathbf{41.4}$ mAP和Val上的31.9 mAP，分别超过G-DINO©显著的 $\mathbf{12.6}$ AP和 $\mathbf{11.8}$ AP！可能的原因可以归为两个方面：

模型对LVIS类别词汇进行了更全面的培训。
V3Det包含超过13k个类别，可能涵盖了LVIS的大部分类别，[31]中也得出了类似的结论。

ODinW基准测试。ODinW（野外目标检测）基准测试代表了一项更为严格的基准测试，旨在评估模型在现实世界环境中的性能。它由35个目标检测数据集组成，每个数据集都增加了外部知识。我们使用ODinW13/35来评估我们模型的迁移能力，总结结果如表6所示。我们的MM-G-T(c3)展示了比G-DINO-T©更优越的性能，并在ODinW13和ODinW35上分别取得了 $\mathbf{53.3}$ mAP和 $\mathbf{28.4}$ mAP的分数，这证明了我们模型的稳健迁移能力。显然，广泛的词汇对于ODinW数据集具有重要意义。纳入V3Det后，模型的性能得到了显著提升。这一改进的主要原因是V3Det包含了ODinW中更广泛的类别范围。每个子数据集的详细结果如附录A.3所示。
在这里插入图片描述

RefCOCO/+/g和gRefCOCO基准测试。我们还在REC任务上评估了MM-G的零样本能力。RefCOCO、RefCOCO+和RefCOCOg建立用于REC评估，结果如表5所示。与RefCOCO相比，gRefCOCO扩大了其范围，包括多目标表达，这意味着通过单一表达指定多个目标对象。此外，gRefCOCO还容纳了不指向图像中任何对象的无目标表达。这种增加引入了显著提高的输入表达的多样性，从而增强了REC在现实世界应用中的实用性和稳健性。我们还在gRefCOCO基准上进行了评估，以评估REC的零样本能力，结果如表7所示。我们的模型能够在所有零样本评估指标上超越基线，并在gRefCOCO上要么超越要么与G-DINO大致相等。从结果中可以推断出，V3Det数据集无法为REC任务提供任何好处。
在这里插入图片描述

描述检测数据集 $D^3$ 基准测试。 $D^3$ 的特点是其灵活的语言表达，从简洁的类别名称到广泛的描述，并确保全面注释所有图像中描述的所有对象，没有遗漏。 $D^3$ 中的句子略长于普通单词，因此，它不需要模型具有高水平的理解能力。实际上，它更倾向于开放词汇检测（OVD）任务。此外， $D^3$ 中有24,282个正对象-文本对和7,788,626个负对，这对模型区分负对象的能力提出了严格的要求。我们在表8中报告了我们的结果。从结果中，我们观察到使用GRIT训练的MM-G-T(c1)和使用Cap4M训练的G-DINO-T©表现出了可比的性能。特别是，MM-G-T(c1)在长句子上表现出进步，而G-DINO-T©在处理短句子时显示出进步。这将在第3.2节中详细说明。在纳入包含大量精确注释的V3Det后，MM-G-T(c3)在短句子上的性能超过了G-DINO-T©，而长句子的性能变差。这主要是因为V3Det中的大多数文本注释是短句子。

3.2、GRIT分析

GRIT[23]是一个大型数据集，被我们用作GLIP[16]中创建的Cap 4M的替代品，因为后者不是开源的。然而，正如上述结果所示，GRIT的性能并未达到我们的预期。对于OVD任务，使用GRIT的MM-G-T(c1)在表3的COCO上仅比没有使用GRIT的MM-G-T(b)提高了+0.1 AP，在表4的LVIS上提高了+0.1 AP（Val）。对于REC任务，GRIT在表5和7的RefCOCO和gRefCOCO上带来的提升相对较低。我们观察GRIT中的图像和注释，主要原因如下：

GRIT的文本注释来自从COYO700 M和LAION-2B中的标题中通过spaCy[10]提取的短语或句子，包括大量抽象短语，如人名、事件、设施和地缘政治实体，这可能会导致模型的误导。
在GRIT数据集中，大多数图像都附有单一注释。单一注释包括一个长句子，实际上是图像的整个标题，以及一个大致覆盖整个图像的嘈杂框。

然而，值得注意的是，GRIT的大规模数据仍然有其用途。使用GRIT的MM-G-T(c1)在表6的ODinW13/35上超过了MM-G-T(b) 5.8/2.6 AP，与使用Cap 4M预训练的G-DINO-T©相当。因此，我们从表8观察到，使用GRIT的MM-G-T(c1)和使用Cap 4M的G-DINO-T©在 $D^3$ 上表现出了可比的性能。幸运的是，GRIT的单一长文本注释有助于提升MMG-T(c1)在长句子上的性能。
在这里插入图片描述

3.3、通过微调验证

本报告中的默认微调基于预训练的MM-G-T(c3)模型。

3.3.1、在COCO/LVIS上微调

在COCO上微调。我们实现了三种主流的微调方法，以全面评估MM-Grounding-DINO的能力：封闭集微调、开放集继续预训练微调和开放词汇微调。后两种微调方法旨在在提升COCO数据集上的性能的同时保持模型的泛化能力。

在封闭集微调中，我们使用封闭集算法对模型进行了微调，专门针对COCO数据集进行优化。微调后，文本输入被限制在COCO类别内。
在开放集继续预训练微调中，我们基于预训练阶段相同的训练策略，提出了两种不同的方法。第一种是降低学习率并冻结某些模块，然后继续在COCO数据集上训练。第二种方法是将COCO数据集与其他预训练数据集结合，继续训练。
对于开放词汇微调，我们将数据集分为基础和新颖类别。在微调期间，只使用基础类别。随后，我们评估了模型在基础和新颖类别上的性能。

如表10所示，MM-G-T通过封闭集微调和开放集继续预训练微调显著提高了在COCO数据集上的性能。值得注意的是，经过12个周期的封闭集微调后，MM-G-T的mAP提高了7.8，达到了58.2 mAP。有关开放词汇微调的更多结果，请参见附录A.4的表15。

在LVIS上微调。LVIS数据集以其长尾分布为特点，包含1203个类别。鉴于这种广泛的分类，我们仅针对这个数据集采用了开放集继续预训练微调和开放词汇微调。

如表9所示，开放集继续预训练微调显著增强了MM-G-T的性能。值得注意的是，MM-G-T在Mini LVIS的Apr指标上实现了9.0 mAP的大幅增长。

3.3.2、在REC上微调

针对RefCOCO/+/g进行微调。我们进一步通过在表5中详细说明的REC任务上进行微调来评估我们的模型。遵循MDETR[12]，我们将微调阶段适应于短语定位，与预训练一致。
表5中的结果表明，在仅5个周期的微调后，REC任务的性能有了显著提升。这表明当前的RefCOCO/+/g数据集及其评估指标可能过于简单。即使使用短语定位进行微调，仍然可以显著提升性能。我们期待出现一个更健壮、更严格的评估指标，以进一步提高REC任务的熟练度。

3.3.3、在下游任务上的微调

为了全面展示MMGrounding-DINO的泛化能力，我们将评估扩展到各种下游任务。在微调设置中，模型最初在广泛的数据集上进行训练，然后使用各自下游任务的训练集进行特定训练。

雾中目标检测。我们的研究利用了真实世界任务驱动测试集（RTTS），包含4,322张真实世界的雾天图像，主要特点是交通和驾驶场景[14]。RTTS数据集涵盖了雾天条件下的多种常见类别，提供了一个适当的平台来访问我们的模型在多样化环境中的有效性和泛化能力。我们采用了基准测试中提出的相同的去雾和检测联合流程。令人印象深刻的是，经过12个周期的微调，MM-Grounding-DINO达到了69.1 AP，如表11所示，大大超过了先前的标准。
在这里插入图片描述

水下目标检测。在这项研究中，我们评估了MM-Grounding-DINO在真实世界水下目标检测数据集（RUOD）[7]上的性能。该数据集包含14,000张高分辨率图像，有74,903个标记实例。它的特点是类别多样，目标尺寸、图像尺寸、目标密度和类别密度各异，并引入了一系列水下挑战。这些包括类似雾的效应、色彩偏移、光干扰和复杂的海洋物体。这次评估利用RUOD数据集来确定我们的模型在不同图像领域中的能力，同时处理常见的对象子集。

表11显示，在零样本设置中，MMGrounding-DINO由于训练数据集（主要由陆地图像组成）和RUOD之间的分布不匹配，达到了29.8 mAP。然而，在经过12个周期的微调后，模型显示出35.7 mAP的改进，从而树立了新的基准。这一性能超过了之前最先进的8.1 mAP。

脑肿瘤目标检测。我们进一步将评估扩展到医疗领域，利用脑肿瘤数据集[2]。值得注意的是，这个数据集在其标记方法上是独特的，因为它只使用数字标识符而不提供描述性标签信息。如表11详细说明的，MM-Grounding-DINO的性能表现不佳Cascade-DINO[32]。我们假设，我们模型相对较差的结果可以归因于数据集依赖纯数字标签所带来的挑战，特别是在文本上下文完全未知的情况下。

城市景观目标检测。Cityscapes[5]是一个广泛的城市街道场景集合，包含3k张训练图像和500张验证图像。它以50个不同城市的街道上捕获的广泛和多样化的立体视频序列为特色，并伴随着高质量、像素级的注释。这个数据集评估了我们的模型在识别日常生活中遇到的常见物体方面的性能。值得注意的是，在表11中，我们可以观察到我们预训练的MM-Grounding-DINO已经与经过微调的模型表现一致，无需任何特定数据集的训练。经过50个周期的微调后，它提高了17.3 mAP，达到了新的最先进水平。

绘画中的人物目标检测。People in Paintings [1]最初由Raya AI创建，是RF100的一部分，旨在为模型泛化能力建立一个新的目标检测基准。这个数据集中的注释专门涉及绘画中描绘的人物。正如表11所示，我们的MM-GroundingDINO模型已经在零样本设置中超过了微调模型的性能。经过50个周期的微调后，它表现出显著的改进，实现了+15.8 AP的增长，树立了38.9 mAP的新基准。

4、结论

在本文中，我们提出了MM-Grounding-DINO，这是一个基于Grounding-DINO并用大量视觉数据集预训练的全面开源基准，全面解决了OVD、PG和REC任务。我们扩展了所有可用的OVD、PG和REC评估基准，所有评估指标都在MMDetection中随时可用。在提到的基准测试上进行的广泛实验表明，我们的MM-Grounding-DINO（或与之相当）优于Grounding-DINO基线。我们希望我们的流程能成为进一步研究定位和检测任务的宝贵资源。

A、更多结果

A.1、gRefCOCO上的详细结果

在我们的实验中，我们最初将默认阈值设置为0.7，遵循[19]。然后我们进行了一系列的测试，使用不同的阈值。这些不同阈值对我们结果的影响详细列在表12中。我们观察到阈值调整对输出有不同的影响。具体来说，0.8的阈值为验证集产生了最高的F1分数。相比之下，对于A和B两个测试集，较低的0.5阈值证明更有效。这导致了对这一数据集开发更健壮评估指标的期待。值得注意的是，在微调过程后（阈值设置为0.7），gRefCOCO的所有子集都显示出显著的改进。
在这里插入图片描述

A.2、Flickr30K Entities上的详细结果

如表13所示，与G-DINO-T相比，MM-G-T©在Flickr30K Entities上的表现较低。鉴于GoldG数据集包括了Flickr30K Entities的图像，重要的是要注意这些结果并不代表零样本场景。观察到的性能差异可能归因于训练策略和设置的变化。
在这里插入图片描述

A.3、ODinW数据集上的详细结果

我们在表14中提供了我们使用的35个数据集的详细信息。考虑到ODinW13/35数据集中类别的罕见性，GRIT和V3Det数据集带来的额外概念被证明是有益的。
在这里插入图片描述

A.4、COCO上的开放词汇微调

如第3.3.1节所述，表15中的结果显示，尽管仅在基础类别上进行微调，但在新颖类别上仍可观察到+1.5 mAP的提升。这一发现证明了开放词汇微调在保持模型泛化能力方面的有效性。
在这里插入图片描述

B、可视化

B.1、预训练数据集的可视化

在图4中，我们展示了预训练数据集的可视化。我们对这些数据集的分析揭示了几个可能破坏训练有效性的噪声元素。例如，一些标题包含没有实质性内容的功能词，如图左上角的"Who"和左下角图像中的专有名词，如人名。此外，使用GLIP生成伪标签的GRIT数据集可能存在注释不准确的情况。这在右下角的图像中很明显，框注释似乎被错误地分配了。GQA数据集中也有类似情况。在右上角的图像中，同一个短语"a woman"在标题中被分配到不同的框，这与短语定位设置相矛盾。
在这里插入图片描述

B.2、模型预测的可视化

对于图6和图5，真值注释显示在左侧，而我们的模型所做的预测显示在右侧。
在这里插入图片描述

评估的局限性。我们基于可视化的评估过程分析揭示了评估数据集真值注释的不准确性。这在图5中很明显，关于"girl"对象，我们模型的预测与现有注释相比似乎更精确。

模型的局限性。在预训练阶段，尽管模型可以访问整个标题，但它倾向于优先考虑对于短语定位设置至关重要的名词。例如，在图6a中描绘的标题"horseman without helmet"中，模型主要关注"horseman"和"helmet"，然而关键的关系词"without"被忽视了。这导致了无法区分"helmet"和"without helmet"。此外，模型在解释某些详细描述时也存在困难，如图6b中，模型错误地检测到"railings being crossed by horse"。在标题中的位置描述方面，模型只实现了次优性能，如图6c所示，它将左侧的对象与右侧的对象混淆了。在图5中，我们的模型还由于短语定位设置而预测了"frisbee"，这导致评估性能降低。
在这里插入图片描述