VQAScore开启文本到视觉生成评估新篇章

随着生成式人工智能技术的飞速发展,如何全面评估生成内容的质量和与输入提示的一致性成为了一个挑战。在图像-文本对齐领域,传统的评估方法如CLIPScore存在局限性,尤其是在处理涉及多个对象、属性和关系的复杂提示时。它们通常基于简单的词袋模型,无法理解文本中的上下文和复杂语义关系。这导致在评估涉及多个对象、属性和关系的复杂提示时,传统方法不能准确捕捉图像与文本之间的对应关系。而且仅依赖于图像和文本嵌入的相似性度量,无法全面反映内容的质量和一致性。

为了解决这一问题,本文提出了VQAScore。VQAScore的新颖之处在于它通过将文本提示转化为具体的问题,并利用视觉-问题回答(VQA)模型来评估图像与文本之间的对齐度。这种方法不仅简化了评估流程,还提高了评估的准确性和可靠性。VQAScore采用双向图像-问题编码器,允许图像内容和文本问题相互影响,更好地模拟人类理解图像和文本的方式。VQAScore在多个基准测试中超越了传统方法,显示出在评估复杂图像-文本对齐任务时的卓越性能。

VQAScore将文本提示转化为一个直接的问题,然后利用视觉-问题回答(VQA)模型来评估这个问题的肯定答案的概率,例如,给定一个图像和一段文本,VQAScore通过构造一个问题,例如将文本“月亮在牛的上方”转换为“这张图中展示了‘月亮在牛的上方’吗?请回答是或否。”然后,VQA模型接收这个格式化后的问题,并计算出“是”这一答案的生成概率。

Figure 1以图解形式详细介绍了VQAScore的计算过程和模型架构的关键特点。图(a)展示了如何将文本转换成一个简单的是非问题,并利用图像-问题编码器和答案解码器来计算图像与文本对齐得分。图(b)强调了采用双向编码器,如FlanT5,相较于单向自回归架构的优势,这种设计允许图像和问题互相影响,从而更准确地评估它们之间的关联性。这一架构选择使得基于CLIP-FlanT5的VQAScore在多个图像、视频和3D对齐基准测试中达到了新的最佳状态。

VQAScore的计算过程相对简单直接,但却非常有效。它避免了复杂的分解和征服策略,这些策略往往需要将文本提示分解为多个模块化组件,这不仅增加了计算的复杂性,还可能因为分解不当而丢失文本的原意。相反,VQAScore通过直接从VQA模型中获取答案概率,以一种端到端的方式评估图像和文本的一致性。

为了进一步提升VQAScore的性能,研究者们开发了CLIP-FlanT5模型。这个模型结合了预训练的CLIP视觉编码器和FlanT5语言模型,通过双向编码器-解码器架构来处理图像和文本。CLIP-FlanT5模型的创新之处在于,它允许图像嵌入依赖于所提问题,同时问题的理解也依赖于图像内容,这种双向交互使得模型能够更准确地捕捉图像和文本之间的复杂关系。

CLIP-FlanT5模型的训练遵循了文献中的一些最佳实践。例如,它采用了分割文本训练方法,这种方法将文本提示在随机位置分割为两部分,分别发送给编码器和解码器。此外,CLIP-FlanT5在公共VQA数据集上进行了微调,以提高其对复杂问答对的处理能力。通过这种方式,CLIP-FlanT5不仅在传统的VQA任务上表现出色,也在图像-文本对齐评估任务上取得了显著的成果。

在多个图像-文本对齐基准测试中,CLIP-FlanT5模型的VQAScore超越了使用专有GPT-4V模型的基线,显示出其强大的性能。这一成果不仅证明了VQAScore作为一种评估指标的有效性,也展示了CLIP-FlanT5模型在理解和处理视觉-语言任务上的先进性。通过这种结合了视觉和语言模型的双向编码器-解码器架构,VQAScore能够为图像和文本对齐提供一种更为精确和可靠的评估方式。

在深入探究VQAScore的有效性方面,实验结果揭示了其相较于现有基线方法的显著优势。这些基线方法包括广泛使用的CLIPScore、TIFA以及PickScore等。实验的核心环节在于评估VQAScore在处理复杂图像-文本匹配任务时的性能,尤其是在最具挑战性的Winoground和EqBen基准测试中的表现。

Winoground和EqBen基准测试的设计宗旨在于通过二元检索任务来严格评估图像与文本之间的匹配程度。这些任务要求模型不仅要理解图像内容,还要准确把握文本描述,进而判断两者是否一致。在这些测试中,VQAScore展现出了卓越的性能,其得分在各项评估指标上均达到了新的最佳状态。这一成就凸显了VQAScore在图像-文本对齐评估方面的先进性和可靠性。

这张表展示了VQAScore在两个最具挑战性的图像-文本匹配基准测试Winoground和EqBen上达到了最新水平的表现。与基线方法(例如CLIPScore和PickScore)相比,VQAScore的得分是它们的两倍到五倍。

为了验证VQAScore的评估结果是否与人类判断一致,作者开展了一系列测试。通过比较VQAScore的输出与人类对图像-文本对齐的主观评价,研究者发现两者之间存在高度的相关性。这表明VQAScore不仅在技术层面上表现出色,而且在实际应用中也能够作为一个值得信赖的评估工具,为图像-文本对齐提供准确的量化分析。

在对VQAScore的性能进行了充分验证之后,作者提出了GenAI-Bench这一新的评估基准。GenAI-Bench的创建旨在更全面地考验文本到视觉生成模型以及视觉-语言对齐度量的性能。该基准包含1600个精心设计的复合文本提示,覆盖了从基础的对象识别、场景解析到高级的比较、逻辑推理等多层次的视觉-语言组合推理技能。

GenAI-Bench的挑战性在于其对模型的全面性要求极高,不仅要求模型能够处理简单的视觉元素,还要求其能够理解和生成复杂的场景和关系。GenAI-Bench还收集了超过15000个人类评分,这些评分针对当前领先的图像和视频生成模型,如Stable Diffusion、DALL-E 3、Midjourney和Gen2等。这些评分为评估自动化度量提供了宝贵的参考,并有助于推动未来视觉-语言模型的发展。

Figure 2比较了基于CLIP-FlanT5模型的VQAScore和CLIPScore在GenAI-Bench基准测试样本上的表现。GenAI-Bench由1600个文本提示组成,涵盖多样的组合推理技能,挑战了像DALL-E 3和Stable Diffusion这样的领先模型。VQAScore与人类判断的一致性显著优于CLIPScore,使其成为自动文本到视觉评估的更可靠工具。

在视频-文本对齐的评估中,VQAScore通过在视频的多个帧上进行采样,并对这些帧上的VQAScore进行平均计算,从而得到整个视频与文本描述的对齐得分。这种方法考虑了视频内容随时间的动态变化,能够更全面地评估视频与文本之间的一致性。实验结果表明,即使是在仅使用少量帧进行采样的情况下,VQAScore也能取得接近最优的性能,这显示了其在视频评估中的高效性和有效性。

对于3D-文本对齐评估,VQAScore的处理方式与视频类似,通过对3D模型的不同视角渲染出的视图进行采样,并对这些视图上的VQAScore进行平均,以获得3D模型与文本描述的对齐得分。这种方法允许评估者从多个角度考察3D模型的特性,从而更准确地判断模型是否符合文本描述的要求。同样,VQAScore在3D-文本对齐基准测试中也展现出了超越现有方法的性能。

Figure 4 展示了 GenAI-Bench 基准测试的示例和挑战顶级生成模型的能力。Figure 4-a 展示了 GenAI-Bench 中的一些示例提示,这些提示设计用来挑战现有的图像和视频生成模型,需要模型进行更高阶的推理技能,如比较、区分、计数和逻辑。而 Figure 4-b 则展示了 GenAI-Bench 的性能排行榜,列出了多个文本到视觉生成模型在这些复杂提示上的平均 VQAScore,区分了基本和高级提示的性能。

通过这些扩展,VQAScore证明了其在多种视觉生成任务中的适用性和强大性能。它不仅能够处理传统的图像-文本对齐问题,还能够应对更加复杂和动态的视频-文本以及3D-文本对齐问题。这些实验结果进一步巩固了VQAScore作为评估工具的地位,也为未来的研究提供了新的方向和可能性。

值得注意的是,VQAScore在视频和3D模型评估中的成功应用,不仅展示了其灵活性和扩展性,还为评估标准提供了新的思路。这种基于问题回答的方法,通过将文本描述转化为具体问题,并计算得到肯定答案的概率,为视频和3D内容的评估提供了一种新颖且有效的途径。这不仅有助于提升评估的准确性,也为自动化评估工具的开发提供了有力的支持。随着视觉生成技术的不断进步,VQAScore有望在更多领域发挥重要作用,推动相关领域的研究和应用向更深层次发展。

论文链接:https://arxiv.org/abs/2404.01291

项目地址:https://linzhiqiu.github.io/papers/vqascore/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/667693.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux域名解析不了/网络不可达/虚拟机连接不了的问题

记录域名解析不了/网络不可达/虚拟机连接不了的问题问题 目录 文章目录 记录域名解析不了/网络不可达/虚拟机连接不了的问题问题1.首先确定已经连接上路由器(我的就是在这嗝屁了....)1.1 查看路由表1.2查看当前的网络连接状态,包括网关1.3查看网络接口的状态&…

机器学习笔记 - PyTorch 分布式训练概览

一、简述 对于大规模的数据集,只能进行分布式训练,分布式训练会尽可能的利用我们的算力,使模型训练更加高效。PyTorch提供了Data Parallel包,它可以实现单机、多GPU并行。 PyTorch 数据并行模块的内部工作原理 上面的图像说明了PyTorch 如何在单个系统中利用多个 G…

jmeter多用户登录并退出教程

有时候为了模拟更真实的场景,在项目中需要多用户登录并退出操作,大致参考如下 多用户登录前面已经实现:参考博文 多用户登录并退出jmx文件:百度网盘 提取码:0000 一、多用户退出操作 添加一个setUp线程组&#xff0…

pcdn如何规避运营商查封线路

在使用PCDN(Private Content Delivery Network)时,为了规避运营商查封线路,可以采取以下措施: 基于成本和宽带的调度:从CDN厂商的角度出发,考虑在不同业务量的地区进行调度,以减少在…

C#WPF数字大屏项目实战05--人员绩效展示

1、创建人员绩效实体类 2、定义视图模型中的属性 3、创建数据转换器 运行效果就是这样 4、绘制刻度 5、运行效果 6、小结 第1行StackPanel控件,里面放border和textblock 第2行ItemsControl控件,里面的ItemsSource绑定视图模型中的WorkerCompareList 第…

如何让数据标注

1.用Anacoda创建一个新的虚拟环境 2.进入虚拟环境 conda activate stu_data(就是刚才创建的虚拟变量的名称) 3.在此环境中安装labelimg pip install labelimg 4.进入labelimg 直接输入 labelimg 快捷键:D:下一个图片 A&#xff1a…

基于单片机的微型太阳能电站低功耗系统设计

摘 要 : 综合设计性实验是提高单片机类实验课程教学质量行之有效的手段 。 将实验课程内容结合社会热点问题而设计的实验教学案例,融合了单片机实验的所有知识点,提高了学生对实验课程的学习热情,激发了学生对实践教学的兴趣。 让学生通过对一…

java mybatis处理大数据量,开启和配置二级缓存,及注意事项,已解决

注意事项: 尽量避免使用下面方式写sql否则会降低服务器性能: mybatis二级缓存开启后,避免使用事务注解(加上事务注解后二级缓存数据会导致两次访问不一致问题): 3. 返回的对象实体类,要实现Se…

FreeRTOS基础(三):动态创建任务

上一篇博客,我们讲解了FreeRTOS中,我们讲解了创建任务和删除任务的API函数,那么这一讲,我们从实战出发,规范我们在FreeRTOS下的编码风格,掌握动态创建任务的编码风格,达到实战应用! …

用贪心算法进行10进制整数转化为2进制数

十进制整数转二进制数用什么方法?网上一搜,大部分答案都是用短除法,也就是除2反向取余法。这种方法是最基本最常用的,但是计算步骤多,还容易出错,那么还有没有其他更好的方法吗? 一、短除反向取…

一键分割视频并生成M3U8格式:高效管理视频内容,畅享流畅播放新体验

视频内容已成为我们日常生活和工作中的重要组成部分。无论是个人分享生活点滴,还是企业宣传产品与服务,视频都以其直观、生动的形式,吸引着我们的眼球。然而,随着视频内容的不断增多,如何高效、便捷地管理这些视频&…

Java——String类

1.String常用方法 1.1三种常用构造方法 1. String s1"hello";2. String s2new String("world");3. char []str{h,e,l,l,o, ,w,o,r,l,d};String s3new String(str); 1.2String对象的比较 比较 对于内置类型来说,“”比较…

在Unity中配置Android项目以允许HTTP流量,解决AVPro在Android平台中无法播放http视频

解决方法快速通道:拉到底,看倒数第二张图 好记性不如烂笔头 最近在使用AVpro插件播放http视频,在Editor中一切正常,然而打包在Android平台下就播放不了 AVPro在Unity中的警告: 感觉只是个警告,没引起注意…

嵌入式人工智能开发:基于TensorFlow Lite和OpenCV的实时姿态估计算法实现

文章目录 引言环境准备人工智能在嵌入式系统中的应用场景代码示例常见问题及解决方案结论 1. 引言 在嵌入式系统中集成人工智能(AI)技术已经成为一种重要的发展方向。实时姿态估计是AI在嵌入式领域的一个高级应用,能够在资源受限的环境中实…

关于12306技术相关说明以及暂定计划

12306 项目中包含了缓存、消息队列、分库分表、设计模式等代码,通过这些代码可以全面了解分布式系统的核心知识点。 在系统设计中,采用最新 JDK17 SpringBoot3&SpringCloud 微服务架构,构建高并发、大数据量下仍然能提供高效可靠的 1230…

【机器学习】集成语音与大型语音模型等安全边界探索

探索集成语音与大型语言模型(SLMs)的安全边界 一、引言二、SLMs的潜在安全风险三、对抗性攻击与越狱实验四、提高SLMs安全性的对策五、总结与展望 一、引言 近年来,随着人工智能技术的飞速发展,集成语音与大型语言模型&#xff08…

攻防实战 | 邮件高级威胁检测与自动化响应

历经三个月的时间,年度重磅直播节目Fortinet 2024年度“Demo季”近日终于迎来了备受瞩目的压轴大戏——Demo Day第三期,主题为《新邮件安全下的高级威胁检测与自动化响应》。继成功举办了前两期《企业网络中的多源威胁情报自动化整合与集成》和《应急响应…

QWidget成员函数功能和使用详细说明(二)(文字+用例+代码+效果图)

文章目录 1.测试工程配置2.成员函数2.1 void setFixedHeight(int h)2.2 void setFixedSize(const QSize &s)2.3 void setFixedSize(int w, int h)2.4 void setFixedWidth(int w)2.5 void setFocus(Qt::FocusReason reason)2.6 void setFocusPolicy(Qt::FocusPolicy policy)…

高级Web Lab2

高级Web Lab2 12 1 按照“Lab 2 基础学习文档”文档完成实验步骤 实验截图: 2 添加了Web3D场景选择按钮,可以选择目标课程或者学习房间。

【计算机毕业设计】谷物识别系统Python+人工智能深度学习+TensorFlow+卷积算法网络模型+图像识别

谷物识别系统,本系统使用Python作为主要编程语言,通过TensorFlow搭建ResNet50卷积神经算法网络模型,通过对11种谷物图片数据集(‘大米’, ‘小米’, ‘燕麦’, ‘玉米渣’, ‘红豆’, ‘绿豆’, ‘花生仁’, ‘荞麦’, ‘黄豆’, …