随着生成式人工智能技术的飞速发展,如何全面评估生成内容的质量和与输入提示的一致性成为了一个挑战。在图像-文本对齐领域,传统的评估方法如CLIPScore存在局限性,尤其是在处理涉及多个对象、属性和关系的复杂提示时。它们通常基于简单的词袋模型,无法理解文本中的上下文和复杂语义关系。这导致在评估涉及多个对象、属性和关系的复杂提示时,传统方法不能准确捕捉图像与文本之间的对应关系。而且仅依赖于图像和文本嵌入的相似性度量,无法全面反映内容的质量和一致性。
为了解决这一问题,本文提出了VQAScore。VQAScore的新颖之处在于它通过将文本提示转化为具体的问题,并利用视觉-问题回答(VQA)模型来评估图像与文本之间的对齐度。这种方法不仅简化了评估流程,还提高了评估的准确性和可靠性。VQAScore采用双向图像-问题编码器,允许图像内容和文本问题相互影响,更好地模拟人类理解图像和文本的方式。VQAScore在多个基准测试中超越了传统方法,显示出在评估复杂图像-文本对齐任务时的卓越性能。
VQAScore将文本提示转化为一个直接的问题,然后利用视觉-问题回答(VQA)模型来评估这个问题的肯定答案的概率,例如,给定一个图像和一段文本,VQAScore通过构造一个问题,例如将文本“月亮在牛的上方”转换为“这张图中展示了‘月亮在牛的上方’吗?请回答是或否。”然后,VQA模型接收这个格式化后的问题,并计算出“是”这一答案的生成概率。
Figure 1以图解形式详细介绍了VQAScore的计算过程和模型架构的关键特点。图(a)展示了如何将文本转换成一个简单的是非问题,并利用图像-问题编码器和答案解码器来计算图像与文本对齐得分。图(b)强调了采用双向编码器,如FlanT5,相较于单向自回归架构的优势,这种设计允许图像和问题互相影响,从而更准确地评估它们之间的关联性。这一架构选择使得基于CLIP-FlanT5的VQAScore在多个图像、视频和3D对齐基准测试中达到了新的最佳状态。
VQAScore的计算过程相对简单直接,但却非常有效。它避免了复杂的分解和征服策略,这些策略往往需要将文本提示分解为多个模块化组件,这不仅增加了计算的复杂性,还可能因为分解不当而丢失文本的原意。相反,VQAScore通过直接从VQA模型中获取答案概率,以一种端到端的方式评估图像和文本的一致性。
为了进一步提升VQAScore的性能,研究者们开发了CLIP-FlanT5模型。这个模型结合了预训练的CLIP视觉编码器和FlanT5语言模型,通过双向编码器-解码器架构来处理图像和文本。CLIP-FlanT5模型的创新之处在于,它允许图像嵌入依赖于所提问题,同时问题的理解也依赖于图像内容,这种双向交互使得模型能够更准确地捕捉图像和文本之间的复杂关系。
CLIP-FlanT5模型的训练遵循了文献中的一些最佳实践。例如,它采用了分割文本训练方法,这种方法将文本提示在随机位置分割为两部分,分别发送给编码器和解码器。此外,CLIP-FlanT5在公共VQA数据集上进行了微调,以提高其对复杂问答对的处理能力。通过这种方式,CLIP-FlanT5不仅在传统的VQA任务上表现出色,也在图像-文本对齐评估任务上取得了显著的成果。
在多个图像-文本对齐基准测试中,CLIP-FlanT5模型的VQAScore超越了使用专有GPT-4V模型的基线,显示出其强大的性能。这一成果不仅证明了VQAScore作为一种评估指标的有效性,也展示了CLIP-FlanT5模型在理解和处理视觉-语言任务上的先进性。通过这种结合了视觉和语言模型的双向编码器-解码器架构,VQAScore能够为图像和文本对齐提供一种更为精确和可靠的评估方式。
在深入探究VQAScore的有效性方面,实验结果揭示了其相较于现有基线方法的显著优势。这些基线方法包括广泛使用的CLIPScore、TIFA以及PickScore等。实验的核心环节在于评估VQAScore在处理复杂图像-文本匹配任务时的性能,尤其是在最具挑战性的Winoground和EqBen基准测试中的表现。
Winoground和EqBen基准测试的设计宗旨在于通过二元检索任务来严格评估图像与文本之间的匹配程度。这些任务要求模型不仅要理解图像内容,还要准确把握文本描述,进而判断两者是否一致。在这些测试中,VQAScore展现出了卓越的性能,其得分在各项评估指标上均达到了新的最佳状态。这一成就凸显了VQAScore在图像-文本对齐评估方面的先进性和可靠性。
这张表展示了VQAScore在两个最具挑战性的图像-文本匹配基准测试Winoground和EqBen上达到了最新水平的表现。与基线方法(例如CLIPScore和PickScore)相比,VQAScore的得分是它们的两倍到五倍。
为了验证VQAScore的评估结果是否与人类判断一致,作者开展了一系列测试。通过比较VQAScore的输出与人类对图像-文本对齐的主观评价,研究者发现两者之间存在高度的相关性。这表明VQAScore不仅在技术层面上表现出色,而且在实际应用中也能够作为一个值得信赖的评估工具,为图像-文本对齐提供准确的量化分析。
在对VQAScore的性能进行了充分验证之后,作者提出了GenAI-Bench这一新的评估基准。GenAI-Bench的创建旨在更全面地考验文本到视觉生成模型以及视觉-语言对齐度量的性能。该基准包含1600个精心设计的复合文本提示,覆盖了从基础的对象识别、场景解析到高级的比较、逻辑推理等多层次的视觉-语言组合推理技能。
GenAI-Bench的挑战性在于其对模型的全面性要求极高,不仅要求模型能够处理简单的视觉元素,还要求其能够理解和生成复杂的场景和关系。GenAI-Bench还收集了超过15000个人类评分,这些评分针对当前领先的图像和视频生成模型,如Stable Diffusion、DALL-E 3、Midjourney和Gen2等。这些评分为评估自动化度量提供了宝贵的参考,并有助于推动未来视觉-语言模型的发展。
Figure 2比较了基于CLIP-FlanT5模型的VQAScore和CLIPScore在GenAI-Bench基准测试样本上的表现。GenAI-Bench由1600个文本提示组成,涵盖多样的组合推理技能,挑战了像DALL-E 3和Stable Diffusion这样的领先模型。VQAScore与人类判断的一致性显著优于CLIPScore,使其成为自动文本到视觉评估的更可靠工具。
在视频-文本对齐的评估中,VQAScore通过在视频的多个帧上进行采样,并对这些帧上的VQAScore进行平均计算,从而得到整个视频与文本描述的对齐得分。这种方法考虑了视频内容随时间的动态变化,能够更全面地评估视频与文本之间的一致性。实验结果表明,即使是在仅使用少量帧进行采样的情况下,VQAScore也能取得接近最优的性能,这显示了其在视频评估中的高效性和有效性。
对于3D-文本对齐评估,VQAScore的处理方式与视频类似,通过对3D模型的不同视角渲染出的视图进行采样,并对这些视图上的VQAScore进行平均,以获得3D模型与文本描述的对齐得分。这种方法允许评估者从多个角度考察3D模型的特性,从而更准确地判断模型是否符合文本描述的要求。同样,VQAScore在3D-文本对齐基准测试中也展现出了超越现有方法的性能。
Figure 4 展示了 GenAI-Bench 基准测试的示例和挑战顶级生成模型的能力。Figure 4-a 展示了 GenAI-Bench 中的一些示例提示,这些提示设计用来挑战现有的图像和视频生成模型,需要模型进行更高阶的推理技能,如比较、区分、计数和逻辑。而 Figure 4-b 则展示了 GenAI-Bench 的性能排行榜,列出了多个文本到视觉生成模型在这些复杂提示上的平均 VQAScore,区分了基本和高级提示的性能。
通过这些扩展,VQAScore证明了其在多种视觉生成任务中的适用性和强大性能。它不仅能够处理传统的图像-文本对齐问题,还能够应对更加复杂和动态的视频-文本以及3D-文本对齐问题。这些实验结果进一步巩固了VQAScore作为评估工具的地位,也为未来的研究提供了新的方向和可能性。
值得注意的是,VQAScore在视频和3D模型评估中的成功应用,不仅展示了其灵活性和扩展性,还为评估标准提供了新的思路。这种基于问题回答的方法,通过将文本描述转化为具体问题,并计算得到肯定答案的概率,为视频和3D内容的评估提供了一种新颖且有效的途径。这不仅有助于提升评估的准确性,也为自动化评估工具的开发提供了有力的支持。随着视觉生成技术的不断进步,VQAScore有望在更多领域发挥重要作用,推动相关领域的研究和应用向更深层次发展。
论文链接:https://arxiv.org/abs/2404.01291
项目地址:https://linzhiqiu.github.io/papers/vqascore/