GPT-4o首次引入!全新图像自动评估基准发布!

目录

01 什么是DreamBench++?

02 与人类对齐的自动化评估

03 更全面的个性化数据集

04 实验结果


面对层出不穷的个性化图像生成技术,一个新问题摆在眼前:缺乏统一标准来衡量这些生成的图片是否符合人们的喜好。

对此,来自清华大学、西安交通大学、伊利诺伊大学厄巴纳-香槟分校、中科院和旷视的研究人员共同推出了一项新基准——DreamBench++。

通过收集不同的图像和提示,团队利用GPT-4o实现了符合人类偏好的自动评估。

简单来说,通过精心设计的提示词以及引入思维链提示,团队让GPT-4o在图像评估过程中学会了像人类一样思考,并展现其思考过程。

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

为了测试效果,团队以7名专业人类标注员的打分为基准,对7种不同的图像生成方法进行了评估。结果显示,DreamBench++与人类评价高度一致。

01 什么是DreamBench++?

DreamBench++是一个全新的评估工具,在个性化图像评估领域实现了两项关键技术突破:

  1. 引入支持多模态的GPT-4o,实现与人类偏好的深度对齐和自动化评估。
     
  2. 推出了一个更为全面和多元化的数据集。

02 与人类对齐的自动化评估

尽管GPT-4o支持多模态输入,但在评估图像中的细微差异时面临挑战。研究人员选择直接打分而非对比,以避免不同方法生成的图像顺序影响结果,并减少标注时间。

为了确保评估的准确性和一致性,研究人员设计了包含以下要素的提示词:

  • 任务描述:明确评估的目标和要求。
     
  • 评分标准解释:详细说明评估的依据。
     
  • 评分范围定义:设定评分的量化标准。
     
  • 格式规范:确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节(特别针对人和动物),以全面评估图像的个性化效果。

为了收集无偏的人类偏好数据,研究团队招募了7名经过专业培训的标注员。他们的标注结果被用作人类打分的基准,以确保评估结果的客观性和可靠性。

03 更全面的个性化数据集

为了确保评估过程的公正性和无歧视性,DreamBench++的研究人员构建了一个新的个性化数据集。构建过程包括以下步骤:

  • 获取主题关键词:团队挑选并生成了一系列可用于个性化生成的主体名称,如猫、钟表、男人等,共200个关键词,分为物体、活物和风格化图片三种类型。
     
  • 图片收集:收集来源包括Unsplash、Rawpixel和Google Image Search。挑选背景干净、主体占比大的图片,以确保图像的清晰度和识别度。
     
  • 提示词(prompt)生成:引导GPT-4o生成不同复杂程度的提示词。这些提示词的复杂性与生成任务的难度相对应。

04 实验结果

在DreamBench++平台上,研究团队对7种不同的图像生成方法进行了评估。这些方法涵盖了基于训练的、无需训练的,以及基于多模态大语言模型(MLLM)的多种方案。

评估结果显示:

  • 在图像相似性方面,DINO-I和CLIP-I(现有的图像自动评估指标)的评分往往高于人类的评价。
     
  • 在文本遵循方面,CLIP-T的评分则相对较低。
     
  • GPT-4o在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是,GPT-4o和人类评价者都会综合考虑多个视觉元素,如形状、轮廓、纹理,以及人或动物的面部细节等,最终给出一个综合性的评分。

这种评价方式更符合人类的直觉和偏好,因为它不仅关注单一方面,而是全面地评估图像的各个方面。

此外,团队还对不同图像生成方法在DreamBench++上的生成结果进行了可视化展示。

在评估图像生成结果的保持主体情况时,DreamBench++与人类评估者达到了79.64%的一致性。


在遵循文本指令生成图像的能力方面,DreamBench++的一致性高达93.18%。

从数据来看,DreamBench++的人类一致性比DINO score高出54.1%,比CLIP score高出50.7%。这也侧面说明,通过设计提示词,能够让GPT-4o较为准确地捕捉和反映人类的审美和偏好。

另外,DreamBench++的数据集多样性更高,与DreamBench相比,finetune-based方法在DreamBench++上的表现会下降。

团队推测这可能是因为他们在DreamBench上调整了参数,而DreamBench的种类并不全面。同时,Emu2在非自然或复杂图像上的表现也会下降。

这些都说明DreamBench++更全面的数据集暴露了已有的个性化方法中的新问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:

DeepSeek-Coder-v2击败GPT-4 Turbo,成为竞技场最强开源编码模型!


超越GPT-4o!新王Claude 3.5 Sonnet来啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/754985.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

心理辅导平台系统

摘 要 中文本论文基于Java Web技术设计与实现了一个心理辅导平台。通过对国内外心理辅导平台发展现状的调研,本文分析了心理辅导平台的背景与意义,并提出了论文研究内容与创新点。在相关技术介绍部分,对Java Web、SpringBoot、B/S架构、MVC模…

lvs+上一章的内容

书接上回这次加了个keepalived 一、集群与分布式 1.1 集群介绍 **集群(Cluster)**是将多台计算机组合成一个系统,以解决特定问题的计算机集合。集群系统可以分为以下三种类型: **LB(Load Balancing,负载…

Golang | Leetcode Golang题解之第203题移除链表元素

题目: 题解: func removeElements(head *ListNode, val int) *ListNode {dummyHead : &ListNode{Next: head}for tmp : dummyHead; tmp.Next ! nil; {if tmp.Next.Val val {tmp.Next tmp.Next.Next} else {tmp tmp.Next}}return dummyHead.Next …

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 数字排列游戏(200分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 &#x1f…

【论文复现】——基于LM优化的NDT点云配准算法

目录 一、算法原理1、论文概述2、参考文献二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接,爬虫自重。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT生成的文章。 一、算法原理 1、论文概述 传统的正态分布变换配准算法处理初始位姿变换相…

修改网络的结构用于预训练

目录 一、模型准备 二、修改结构 1、在网络中添加一层 2、在classifier结点添加一个线性层 3、修改网络中的某一层(features 结点举例) 4、替换网络中的某一层结构(与第3点类似) 5、提取全连接层的输入特征数和输出特征数 6、删除网络…

springboot + Vue前后端项目(第二十一记)

项目实战第二十一记 写在前面1. springboot文件默认传输限制2. 安装视频插件包命令3. 前台Video.vue4. 创建视频播放组件videoDetail.vue5. 路由6. 效果图总结写在最后 写在前面 本篇主要讲解系统集成视频播放插件 1. springboot文件默认传输限制 在application.yml文件中添…

《昇思25天学习打卡营第2天|快速入门》

文章目录 前言:今日所学:1. 数据集处理2. 网络的构建3. 模型训练4. 保存模型5. 加载模型 总体代码与运行结果:1. 总体代码2. 运行结果 前言: 今天是学习打卡的第2天,今天的内容是对MindSpore的一个快速入门&#xff0…

Selenium IDE 的使用指南

Selenium IDE 的使用指南 在自动化测试的领域中,Selenium 是一个广为人知且强大的工具集。而 Selenium IDE 作为其中的一个组件,为测试人员提供了一种便捷且直观的方式来创建和执行自动化测试脚本。 一、Selenium IDE 简介 Selenium IDE 是一个用于录…

第十三章 常用类

一、包装类 1. 包装类的分类 (1)针对八种基本数据类型相应的引用类型—包装类 (2)有了类的特点,就可以调用类中的方法。 2. 包装类和基本数据的转换 jdk5 前的手动装箱和拆箱方式,装箱:基本…

【Qt】信号和槽机制

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;c系列专栏&#xff1a;C/C零基础到精通 &#x1f525; 给大…

操作系统之《PV操作》【知识点+详细解题过程】

1、并发进程 &#xff1a; 并发的实质是一个处理器在几个进程之间的多路复用&#xff0c;并发是对有限的物理资源强制行使多用户共享&#xff0c;消除计算机部件之间的互等现象&#xff0c;以提高系统资源利用率。 &#xff08;1&#xff09;并发进程——互斥性&#xff1a; 进…

使用Jetpack Compose实现具有多选功能的图片网格

使用Jetpack Compose实现具有多选功能的图片网格 在现代应用中,多选功能是一项常见且重要的需求。例如,Google Photos允许用户轻松选择多个照片进行分享、添加到相册或删除。在本文中,我们将展示如何使用Jetpack Compose实现类似的多选行为,最终效果如下: 主要步骤 实现…

【redis】Redis AOF

1、AOF的基本概念 AOF持久化方式是通过保存Redis所执行的写命令来记录数据库状态的。AOF以日志的形式来记录每个写操作&#xff08;增量保存&#xff09;&#xff0c;将Redis执行过的所有写指令记录下来&#xff08;读操作不记录&#xff09;。AOF文件是一个只追加的文件&…

Redis 高级数据结构业务实践

0、前言 本文所有代码可见 > 【gitee code demo】 本文会涉及 hyperloglog 、GEO、bitmap、布隆过滤器的介绍和业务实践 1、HyperLogLog 1.1、功能 基数统计&#xff08;去重&#xff09; 1.2、redis api 命令作用案例PFADD key element [element ...]添加元素到keyPF…

PortSip测试

安装PBX 下载 免费下载 PortSIP PBX 安装PBX&#xff0c;安装后&#xff0c;运行 &#xff0c;默认用户是admin 密码是admin&#xff0c;然后配置IP 为192.168.0.189 设置域名为192.168.0.189 配置分机 添加分机&#xff0c;添加了10001、10002、9999 三个分机&#xff0c…

深度学习实验第T2周:彩色图片分类

>- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客** >- **&#x1f356; 原作者&#xff1a;[K同学啊](https://mtyjkh.blog.csdn.net/)** 目录 一、前言 目标 二、我的环境&#…

【Linux进程通信】进程间通信介绍、匿名管道原理分析

目录 进程通信是什么&#xff1f; 进程通信的目的 进程通信的本质 匿名管道&#xff1a;基于文件级别的通信方式 站在文件描述符角度-深度理解管道原理 进程通信是什么&#xff1f; 进程通信就是两个或多个进程之间进行数据层面的交互。 进程通信的目的 1.数据传输&#x…

已解决java.security.acl.LastOwnerException:无法移除最后一个所有者的正确解决方法,亲测有效!!!

已解决java.security.acl.LastOwnerException&#xff1a;无法移除最后一个所有者的正确解决方法&#xff0c;亲测有效&#xff01;&#xff01;&#xff01; 目录 问题分析 出现问题的场景 报错原因 解决思路 解决方法 1. 检查当前所有者数量 2. 添加新的所有者 3. 维…

mac Canon打印机连接教程

官网下载安装驱动&#xff1a; 选择打印机类型和mac系统型号下载即可 Mac PS 打印机驱动程序 双击安装 系统偏好设置 点击“”添加&#xff1a; OK可打印玩耍&#xff01;&#xff01; 备注&#xff1a; 若需扫描&#xff0c;下载扫描程序&#xff1a; 备注&#xff1a;…