DALL·E 3:Improving Image Generation with Better Captions

DALL·E 3:Improving Image Generation with Better Captions

article2025/1/10 12:21:18/文章来源:https://blog.csdn.net/qq_35759272/article/details/136306466

论文链接：https://cdn.openai.com/papers/dall-e-3.pdf
DALLE3 API：https://github.com/Agora-X/Dalle3
官网链接：添加链接描述

DALLE3讲解视频：B站视频
推荐DALLE2的讲解视频：B站：跟李沐学AI 之前精讲的DALLE2论文

北理&上海AI Lab&清华提出 Mini DALL·E 3：https://arxiv.org/pdf/2310.07653.pdf
code：https://github.com/Zeqiang-Lai/Mini-DALLE3

要点分析

文章主要在讲：通过更好的文本标注（Better Captions），提升图像生成质量

1. 摘要（Abstract）

解决问题：因为数据比较noise，很难按照prompt生成需要的图片
方法/贡献：提出image captioner（图片标注器），生成图像精准的标注，去训练模型

3. 文章主体

3.1. 数据生成方法

两种标注模式：
- 1.短标注：只描述主要物体，主体
- 详细标注：主体、环境、背景、文字、风格等
  - Clip scores高于短标注
生成标注+原始文本标注的比例【意思train的时候加入生成标签，test的时候不加入呗？】
- 混合原因：生成文本是基于数据的模式，用户的文本（原始标注）有自己的风格，原始标注相当于正则
- 95%> 90% > 80%，但是不是100%最好
用户的prompt简短，不能充分发挥模型能力
- 用GPT扩写用户的prompt

3.2. 评估方式

自动评估：
- Clip scores：用Ms COCO的caption生成图片，然后用Clip scores去评估图片文本之间的匹配程度
- Drawbench：Images提出的比较全的评测prompts，然后用GPT-V（多模态）来评估生成突破和Prompts的匹配度（生成模型评估生成模型hh）
- T2l-Compbench：与Drawbench类似，区别在于GPT-V换成VQA
人工评估：
- Prompt fllowing：Prompts和图像匹配程度
- style：图片质量，评估者是看不到Prompts，直接看两张图片哪个更好
- coherence：观察不合理的结构，虚幻的场景人工评估打低分，作者换成用MS COCO的Caption生成的图像去做评估

4. 实验效果

评估结果：DALL-E 3 > Midjourney 5.2 > Stable Diffusion XL > DALL-E 2

5. 总结

方法局限性：

位置关系不准确
文字的生成不行：因为T5 text encoder的局限性，它会把用户的prompts分隔开，整体把握小

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/411067.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

【Leetcode】235. 二叉搜索树的最近公共祖先

【Leetcode】235. 二叉搜索树的最近公共祖先

文章目录题目思路代码结果题目题目链接给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。百度百科中最近公共祖先的定义为：“对于有根树 T 的两个结点 p、q，最近公共祖先表示为一个结点 x，满足 x 是 p、q 的祖先且 x 的深度…

阅读更多...

Linux的文件操作，重拳出击（￣︶￣）

Linux的文件操作，重拳出击（￣︶￣）

Linux的文件操作学习Linux的文件操作，一般需要知道一个文件如果你想要操作他，必须知道你对这个文件有什么操作的权限或者修改你自己对文件操作的权限。必须要知道文件有三种权限 r：可读 w：可写 x：可执行在打开Linux…

阅读更多...

【cmu15445c++入门】(10)C++锁mutex

【cmu15445c++入门】(10)C++锁mutex

一、锁 lock和unlock 二、代码 // This program shows a small example of the usage of std::mutex. The // std::mutex class provides the mutex synchronization primitive. // std::mutex 类提供互斥同步原语。// Includes std::cout (printing) for demo purposes. #i…

阅读更多...

超详细的MyCat安装部署

超详细的MyCat安装部署

MyCat概述介绍 Mycat是开源的、活跃的、基于Java语言编写的MySQL数据库中间件。可以像使用mysql一样来使用 mycat，对于开发人员来说根本感觉不到mycat的存在。开发人员只需要连接MyCat即可，而具体底层用到几台数据库，每一台数据库服务器里…

阅读更多...

预测性维修系统的功能分析和建设建议

预测性维修系统的功能分析和建设建议

随着工业领域的不断发展，设备状态监测、健康管理和智能诊断变得愈发重要。预测性维修系统通过先进的技术和可靠性评估，帮助企业判断设备状态，识别故障早期征兆，并生成故障预判，从而提出检维修建议。在这一背景下&#…

阅读更多...

【前端素材】推荐优质后台管理系统Be admin平台模板（附源码）

【前端素材】推荐优质后台管理系统Be admin平台模板（附源码）

一、需求分析后台管理系统（或称作管理后台、管理系统、后台管理平台）是一种专门用于管理网站、应用程序或系统后台运营的软件系统。它通常由一系列功能模块组成，为管理员提供了管理、监控和控制网站或应用程序的各个方面的工具和界面。以下…

阅读更多...

前端面试篇-JS篇2

前端面试篇-JS篇2

37、事件模型（事件代理）(重要) 是指从事件发生开始，到所有处理函数执行完，所经历的过程。大概包括: 3个阶段 1）捕获阶段: 首先 Window 捕获事件,之后往目标传递,在到达目标节点之前的过程，就是捕获阶段（Capture Phase） 2）目标阶段: 真正触发点击的元素，事件会触发…

阅读更多...

天哪！还有这些逆天的fofa语句？（二）

天哪！还有这些逆天的fofa语句？（二）

接上文天哪！还有这些逆天的fofa语句？ 再分享几条，个人觉得比较有意思的fofa语句。情侣飞行器之前写过文章的，有兴趣的师傅可以试着翻翻以前的文章去破解密码 fofa语句："static/js/index.d2dcdf5b.js"…

阅读更多...

88. 合并两个有序数组——javascript实现

88. 合并两个有序数组——javascript实现

给你两个按非递减顺序排列的整数数组 nums1 和 nums2，另有两个整数 m 和 n ，分别表示 nums1 和 nums2 中的元素数目。请你合并 nums2 到 nums1 中，使合并后的数组同样按非递减顺序排列。注意：最终，合并后数组…

阅读更多...

Spring Bean 相关注解

Spring Bean 相关注解

目录 Autowired Component,Repository,Service, Controller RestController Scope Configuration Autowired 自动导入对象到类中，被注入进的类同样要被 Spring 容器管理比如：Service 类注入到 Controller 类中。 Service public class UserService …

阅读更多...

vite搭配vue2创建工程

vite搭配vue2创建工程

一、安装vite npm init vite2.8.0 vite默认支持的是vue3， 这里选择框架和版本vanilla， 方便以后自己安装vue2. 二、修改package.json 默认生成的pacakage.json文件 {"name": "vite-project","private": true,"v…

阅读更多...

lv20 QT入门与基础控件 1

lv20 QT入门与基础控件 1

1 QT简介 QT是挪威Trolltech开发的多平台C图形用户界面应用程序框架典型应用 2 工程搭建 2.1 新建ui工程不要写中文路径 2.1 不勾选UI（主讲） 3 QT信号与槽机制语法：Connect（A, SIGNLA(aaa()), B, SLOT(bbb())）…

阅读更多...

操作系统--零拷贝

操作系统--零拷贝

一、直接内存访问（DMA）技术什么是 DMA 技术？简单理解就是，在进行 I/O 设备和内存的数据传输的时候，数据搬运的工作全部交给 DMA 控制器，而 CPU 不再参与任何与数据搬运相关的事情，这样 CPU 就…

阅读更多...

【数据结构】栈OJ题《用栈实现队列》（题库+解析+代码）

【数据结构】栈OJ题《用栈实现队列》（题库+解析+代码）

1. 前言通过前面栈的实现和详解大家对队列应该有一定熟悉了，现在上强度开始做题吧栈详解：http://t.csdnimg.cn/9Fsbs 本体的做题思路也可以参考上一篇文章，就是有一点点不同。用队列实现栈：http://t.csdnimg.cn/V2qjW 2. …

阅读更多...

图形系统开发实战课程：进阶篇（上）——7.图形交互操作: 视点控制与动画

图形系统开发实战课程：进阶篇（上）——7.图形交互操作: 视点控制与动画

图形开发学院｜GraphAnyWhere 课程名称：图形系统开发实战课程：进阶篇(上)课程章节：“图形交互操作: 视点控制与动画”原文地址：https://www.graphanywhere.com/graph/advanced/2-7.html 第七章图形交互操作: 视点控制与…

阅读更多...

MAUI 需要先部署项目，然后才能进行调试。请在配置服务器中启动部署。

MAUI 需要先部署项目，然后才能进行调试。请在配置服务器中启动部署。

刚刚创建完MAUI项目，选中windows，运行的时候提示这个解决方案选择菜单【项目】-> 【概述】打开界面如下然后点击【发布】，再点击【添加发布配置文件】，再点【下一步】然后就可以运行了

阅读更多...

rabbitmq知识梳理

rabbitmq知识梳理

一.WorkQueues模型 Work queues，任务模型。简单来说就是让多个消费者绑定到一个队列，共同消费队列中的消息。当消息处理比较耗时的时候，可能生产消息的速度会远远大于消息的消费速度。长此以往，消息就会堆积越来越多&#xff0c…

阅读更多...

个人健康|个人健康管理小程序|基于微信小程序的个人健康管理系统设计与实现(源码+数据库+文档)

个人健康|个人健康管理小程序|基于微信小程序的个人健康管理系统设计与实现(源码+数据库+文档)

个人健康管理小程序目录目录基于微信小程序的个人健康管理系统设计与实现一、前言二、系统功能设计三、系统实现 1、微信小程序前台 2、管理员后台 （1）用户信息管理 （2）运动教程管理 （3）公告…

阅读更多...

10.vue学习笔记(组件数据传递-props回调函数子传父+透传Attributes+插槽slot)

10.vue学习笔记(组件数据传递-props回调函数子传父+透传Attributes+插槽slot)

文章目录 1.组件数据传递2.透传Attributes（了解）禁用Attributes继承 3.插槽slot3.1.插槽作用域3.2.默认内容3.3.具名插槽3.4.插槽中的数据传递3.5.具名插槽传递数据 1.组件数据传递我们之前讲解过了组件之间的数据传递，props 和自定义事件…

阅读更多...

排序（9.17）

排序（9.17）

1.排序的概念及其运用 1.1排序的概念排序 ：所谓排序，就是使一串记录，按照其中的某个或某些关键字的大小，递增或递减的排列起来的操作。稳定性 ：假定在待排序的记录序列中，存在多个具有相同的关键字的记…

阅读更多...

最新文章