(2023,提示扩展,图像反演,文本到文本生成)自适应文本到图像生成的提示扩展

Prompt Expansion for Adaptive Text-to-Image Generation

公众:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)

目录

0. 摘要

3. 提示扩展数据集

3.1 图像审美数据集

3.2 图像到文本反演

3.3 查询/提示提取

4. 提示扩展模型

4.1 基础模型

4.2 重新微调

5. 可控生成

5.1 用于受控提示扩展的前缀

5.2 通用 Prompt Expansion 的前缀丢弃

5.3 多步提示扩展

7. 结果和讨论

S. 总结

S.1 主要贡献

S.2 方法


0. 摘要

文本到图像生成模型功能强大但难以使用。用户制定具体提示以获得更好的图像,但图像可能会重复。本文提出了一个提示扩展框架,帮助用户以更少的努力生成高质量、多样化的图像。提示扩展(Prompt Expansion,PE)模型将文本查询作为输入,并输出一组经过优化的扩展文本提示,当传递给文本到图像模型时,可生成更多种类的吸引人图像。我们进行了人类评估研究,结果显示通过提示扩展生成的图像在审美和多样性方面优于基线方法生成的图像。总体而言,本文提出了一种改进文本到图像生成体验的新颖有效方法。

3. 提示扩展数据集

提示扩展(PE)框架需要一个模型,以用户的文本查询作为输入,并返回 N 个文本提示作为输出,使得通过文本到图像生成的 N 个文本提示将返回一组与查询对齐的 N 个多样化、美观的图像。为了训练 PE 模型,我们需要一个将查询映射到提示的数据集,我们以反演的方式构建它。首先,我们收集审美质量高的图像,包括模型生成的图像和自然图像(参见第 3.1 节)。其次,我们将图像反演为与之密切对应的提示,其中包括 alt-text 术语(我们称之为 flavors,参见第 3.2 节)。最后,我们将反演的文本映射到一系列与用户输入更密切对应的高级查询(参见第 3.3节)。这些查询与第二步的提示配对,形成 {查询:提示} 数据集。

3.1 图像审美数据集

我们策划了两个图像数据集。第一个是Webli-Align,由来自Webli(Chen等人,2023)和Align(Jia等人,2021)数据集的图像组成,经过过滤,仅保留具有高 MUSIQ(Ke等人,2021)审美分数的图像。第二个是 CrowdSourced,通过众包(crowd-sourcing)文本到图像模型的输出获得。我们提供了一个类似于 Gradio 的文本到图像生成界面,允许大型组织的用户输入生成图像的提示。用户还可以选择点赞他们喜欢的图像。我们使用这个信号仅保留最吸引人的图像。我们保留了 80k Webli-Align(自然)和 40k CrowdSourced(生成)图像。

3.2 图像到文本反演

第二步是将图像在图像审美数据集中反转为提示文本。虽然用户查询是用户提供的输入,但提示是生成特定图像的文本。我们使用 Interrogator(CLIP-Interrogator)方法进行图像到文本反转。计算得到的提示文本是通过连接一个标题和一组 ‘flavors’ 生成的。标题是对图像内容的描述(例如,谁、什么、在哪里、什么时候)。为了生成标题,我们使用为标题任务微调过的 COCA(Yu等人,2022a)。"flavor" 是指一个描述性词/短语,可以改变图像的风格,而不会添加/更改图像的内容,例如 "印象派" 或 "dslr"。我们从大量生成图像的收集的提示中生成 flavors 列表(详见第 J 节)。

3.3 查询/提示提取

数据集准备的最后一步是计算一系列适合映射到反演文本(提示)的潜在用户查询。我们使用FLAN-PaLMChilla 62B(Chung等人,2022)进行 few-shot 提示,以生成逐渐缩短的查询和更长的提示。该模型接收将长提示映射到短查询的 few-shot 提示集作为示例。few-shot 提示的格式为{提示:查询},这些配对的示例可以在图 6 和表 2 中看到。对于图像到文本反演的每个提示,few-shot 提示示例都被前置为上下文,然后由文本到文本模型生成相应的查询。

我们提取了一系列可以映射到扩展提示的不同查询,并使用 few-sho t提示生成抽象的、具体的、短、中、长长度的查询。附录 A 中详细说明了查询类型的生成方式(例如,基于事实的查询,引出具体性)。这导致一个包含 600k {查询:提示} 对的 Prompt Expansion 数据集。我们执行 70-20-10 的训练-验证-测试拆分,并将训练集拆分为基础和重新精调的的 50-50 比例。

 

4. 提示扩展模型

我们描述了训练 Prompt Expansion 模型的两个阶段:(i)我们在 Prompt Expansion 数据集上训练基础 Prompt Expansion 模型;然后(ii)我们针对下游文本到图像模型重新微调基础模型。

4.1 基础模型

我们的 Prompt Expansion 模型是一个文本生成模型,经过训练,可使用基于 PaLM 2 语言模型家族(Anil等人,2023年)的架构将查询文本映射到扩展的提示文本。PaLM 2 是一个仅解码器的基于 Transformer 的架构,采用 UL2 目标(Tay等人,2023年)进行训练。在评估不同的模型配置后,我们使用 Prompt-tuning(Lester等人,2021年),训练了一个包含 10 亿参数的 PaLM 2 模型,如表 7 所述。我们选择了这个相对较小的基础架构,因为它需要作为复杂的高延迟文本到图像模型(例如 Imagen(Saharia等人,2022a))的前端,因此需要低资源/延迟以使整个流水线可用。对于基础数据集,我们使用 Prompt Expansion 数据集的 50% 拆分,该数据集在第 3 节中有描述,包含 30 万个 {查询:提示} 示例。

4.2 重新微调

在训练基础模型后,我们观察到它可能生成无法使文本到图像模型生成良好图像的提示。造成这种情况的主要原因是基础 Prompt Expansion 模型生成的扩展提示是基于 COCA 图像到文本反演模型偏爱的文本和图像之间的对齐。因此,我们提出了一种通用的重新微调过程:给定模型的目标行为,重新微调以过滤基础模型生成的与目标行为相符的扩展提示。为了与文本到图像模型对齐,我们构建了一个数据集,其中扩展的提示更接近下游文本到图像模型的行为。

对于 Prompt Expansion 数据集剩余的 50% 拆分中的查询,我们从基础模型生成扩展的提示,然后将其输入到下游文本到图像模型(在我们的实验中是 Imagen(Saharia等人,2022a))。我们使用查询-图像嵌入距离和提示-图像嵌入距离的加权平均(有关详细信息,请参见附录D)对这些图像进行评分,并过滤出得分低于固定阈值的 {查询:提示} 对。然后,我们仅使用这些被过滤的 {查询:提示} 对从基础模型检查点继续重新微调,从而产生 PE:重新微调模型,它经过优化以返回使文本到图像模型能够生成高质量图像的查询和 flavors。

5. 可控生成

5.1 用于受控提示扩展的前缀

到目前为止,我们已经介绍了构建通用 Prompt Expansion 模型的方法。然而,通常情况下,用户或应用程序设计人员希望控制 Prompt Expansion 策略的方向,例如添加更多 flavor 或添加特定类型的多样化细节。为了支持这些用例,我们实现了我们的 Prompt Expansion 模型的可控版本,可以通过在查询前添加 8 个支持的前缀之一来指导生成特定类型的扩展。例如,我们可以使用 FLV 前缀指导模型仅生成 flavor,或者使用 MSTP 前缀在交互式多步提示扩展场景中迭代扩展原始查询。控制生成的几个示例显示在表 2 中,支持的所有 flavor 的完整列表在表 1 中。为了训练 PE: Multi-Prefix 模型,我们从第 3 节的 Prompt Expansion 数据集开始。每个 {查询:提示} 对都分配了一个适当的前缀。在 few-shot 提示期间,一些查询/提示被格式化为抽象或详细,因此这些前缀是已知的(例如,ABST,DTL)。一些前缀(例如,RFT,MSTP)也是已知的,因为它们的 {查询:提示} 对是合成的。需要对一些 {查询:提示} 对进行前缀分类,例如将 HAST 前缀分配给返回良好美学效果的提示。前缀分配导致了 Prompt Expansion 数据集的一个新版本,其中每个查询都以一个前缀开头;这用于微调和训练 PE: Multi-Prefix 模型。

5.2 通用 Prompt Expansion 的前缀丢弃

有了 Multi-Prefix 数据集,我们探索了使用可控生成提示来改善通用 Prompt Expansion 任务性能的可能性。其思想是使用可控生成初始化模型的训练,然后在训练过程中逐渐改变其行为,猜测给定查询的适当前缀并生成匹配的扩展。例如,对于高度抽象的查询,如 "Undying Love",模型的行为应该与 ABST 前缀相匹配(见表 2)。通过一种我们称之为前缀丢弃(Prefix Dropout)的新颖学习技术来实现这一点。我们从上述前缀注释的数据集开始,但在训练过程中,逐渐增加前缀在查询中被随机移除或丢弃的例子的百分比,从 0.4 的丢弃率逐渐增加到 1.0。这产生了 PE: Prefix Dropout 模型,可以与我们的基础和重新微调的模型进行比较,作为通用 Prompt Expansion 的候选模型。

5.3 多步提示扩展

探索可能是一个多步骤的过程。在用户的查询返回一组扩展提示之后,用户可以在提示中进行选择,并将此提示反馈到 Prompt Expansion 模型中。这使用户能够在不需要手动设计文本提示的情况下迭代扩展提示。使用 PE: Re-fine-tuned,我们在留出的查询上生成扩展提示,并在上一步的提示上迭代生成提示。这导致了从扩展提示到下一步扩展提示的多步训练数据。我们使用 MSTP 前缀在 Prompt Expansion 模型上对多步数据进行重新微调。

7. 结果和讨论

在美学、图文对齐和多样性方面,相比于基线,提示扩展(Prompt Expansion,PE) 表现良好。

在美学方面,基于 PE 生成的图像更符合人类的审美。在图文对齐方面,人们认为,PE 与基线性能相当。

S. 总结

S.1 主要贡献

用户制定具体提示以生成更好的图像,但图像可能会重复。本文提出提示扩展(Prompt Expansion,PE),将文本查询作为输入,并输出一组经过优化的扩展文本提示,当传递给文本到图像模型时,可生成更多种类的吸引人图像。

S.2 方法

提示扩展数据集的构建和模型的训练如图 6 所示。

提示扩展数据集的构建

  • 基于用户输入查询,收集审美质量高的图像,包括模型生成的图像和自然图像
  • 使用 Interrogator(CLIP-Interrogator)将图像反演为与之密切对应的提示
  • 将反演的文本映射到一系列与用户输入更密切对应的高级查询。这些高级查询与第二步的提示配对,形成 {查询:提示} 数据集。

提示扩展模型的训练包含两个阶段:

  • 在提示扩展数据集上训练基础提示扩展模型:使用基于 PaLM 2 语言模型的架构将查询文本映射到扩展的提示文本
  • 针对下游文本到图像模型重新微调基础模型:从基础模型生成扩展的提示,然后将其输入到下游文本到图像模型。
  • 然后,计算查询-图像嵌入距离和提示-图像嵌入距离的加权平均,并过滤结果低于固定阈值的 {查询:提示} 对。
  • 然后,仅使用这些被过滤的 {查询:提示} 对从基础模型检查点继续重新微调,从而产生 PE:重新微调模型,它经过优化以返回使文本到图像模型能够生成高质量图像的查询。

PE: Multi-Prefix 模型

  • 在查询前添加 8 个支持的前缀之一来指导生成特定类型的扩展。
  • 为训练 PE: Multi-Prefix 模型,从 Prompt Expansion 数据集开始,为每个 {查询:提示} 对都分配了一个适当的前缀。
  • 在 few-shot 提示期间,一些查询/提示被格式化为抽象(ABSTract)或详细(DeTaiLed),因此这些前缀是已知的(例如,ABST,DTL)。
  • 一些前缀(例如,RFT,MSTP)也是已知的,因为它们的 {查询:提示} 对是合成的(Re-Fine-Tuned,MultiSTeP)。
  • 需要对一些 {查询:提示} 对进行前缀分类,例如将 HAST 前缀分配给返回良好美学(HighAeSThetics)效果的提示。

PE: Prefix Dropout 模型:从 PE: Multi-Prefix 的前缀注释数据集开始,在训练过程中,逐渐增加前缀在查询中被随机移除或丢弃的例子的百分比,从 0.4 的丢弃率逐渐增加到 1.0。

PE: Re-fine-tuned 模型:在用户的查询返回一组扩展提示之后,用户可以在提示中进行选择,并将此提示反馈到 Prompt Expansion 模型中。这使用户能够在不需要手动设计文本提示的情况下迭代扩展提示。实验结果表明,该模型具有最突出的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/281438.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MYSQL存储过程和存储函数-数据库实验五

Mysql数据库实验及练习题相关 MySQL 数据库和表的管理-数据库实验一 MySQL连接查询、索引、视图-数据库实验二、实验三 MySQL约束、触发器-数据库实验四 MYSQL存储过程和存储函数-数据库实验五 MySQL批量随机生成name、TEL、idNumber MYSQL数据库的安全管理-数据库实验六 MYSQ…

Python入门学习篇(十)——函数定义函数传参方式

1 相关定义和概念 1.1 函数的理解 一段被封装的可以重复调用的代码。 1.2 函数定义语法结构 def 函数名(形参1,形参2):要封装的逻辑代码 # 注意:函数可以有返回值也可以没有返回值,没有返回值的结果是None1.3 函数调用的语法结构 函数名(形参1,形参2)1.4 简单实例 1.4.1 …

【Spring】spring的容器创建

目录 控制反转IOC 依赖注入DI 创建spring的容器方式: 思考: spring整合Junit4 控制反转IOC 把对象的创建和对象之间的调用过程,交给Spring管理,IOC是容器,是思想。!!! 依赖注入…

【每日一题】【12.29】 - 【12.31】年终收尾

🔥博客主页: A_SHOWY🎥系列专栏:力扣刷题总结录 数据结构 云计算 数字图像处理 力扣每日一题_ 这三天的题目难度相对较小,基本都为模拟题,但是第二三的题目年份贡献类型很有代表性。2023年最后三天年终收…

【数据结构与算法】第2章线性表-选择题、判断题、填空题(头歌习题)【合集】

第1关:选择题、填空题、判断题 任务描述 本关任务:学习完线性表后,应掌握线性表相关的基础知识。 线性表知识点归纳 (1)线性表是由n(n≥0)个数据元素组成的有限序列,所有元素的性质相同,元素之间呈现线性关系&…

深度学习 | 编码器-解码器网络、seq2seq模型、束搜索算法

我们知道传统RNN输入和输出数据是等长的,这显然极大限制了他的应用范围。 前面几节我们讲到的循环神经网络的各种变体基本上都在解决一个序列的问题。还有一大类问题涉及到的是两个序列间转换。它是自然语言处理中的一个重要领域,包括机器翻译、语音识别…

Resolume Arena(VJ音视频软件):创意无限,视听艺术的新境界

Resolume Arena是一款领先的VJ音视频软件,为创意人士提供了丰富的视觉效果和音频处理功能。无论是在舞台演出、音乐会还是派对活动中,Resolume Arena能够将音乐、视频和图像无缝地结合,创造出引人入胜的视听体验。 Resolume Arena具备强大的…

Servlet中常用的三大API

HttpServlet 我们写 Servlet 代码的时候,首先第一步就是先创建类,继承自 HttpServlet,并重写其中的某些方法。我们实际开发的时候主要重写 doXXX 方法,很少会重写 init / destory / service。 因为这一些方法的调用时机&#xf…

openmediavault(OMV) (24)在线网盘(2)kodcloud

简介 KodBox是可道云推出的企业级私有云存储解决方案,旨在为中小企业提供安全可控、可靠易用的一站式在线文件存储管理与协同办公平台。具体详细信息可以查看官网http://kodcloud.com/ 安装部署 kodcloud支持在多种平台进行部署,这里我使用docker镜像进行部署 hub.docker.…

Vscode —— 解决Vscode终端无法使用npm的命令的问题

在cmd中可以正常执行npm -v等指令,但是在vs code终端中,无法执行npm -v,node -v等指令 出现报错 解决办法👇 方法一:【右键单击Vscode】以【管理员身份运行】,【重启Vscode】 方法二:①【用户变量】的【path】添加npm所在路径的…

Tips:VS2022提示MSB8040 此项目需要缓解了 Spectre 漏洞的库解决方法。

1,打开Visual Studio Installer 2、点击【修改】 3、选中【单个组件】,输入Spectre,下拉到【编译 工具和运行时】进行选择(尽量寻找最新版本),然后点击【修改】进行安装(如果VS2022没有关闭&…

劫持 PE 文件:新建节表并插入指定 DLL 文件

PE格式简介 PE(Portable Executable)格式,是微软Win32环境可移植可执行文件(如exe、dll、vxd、sys和vdm等)的标准文件格式。PE格式衍生于早期建立在VAX(R)VMS(R)上的COFF(Common Object File Format)文件格式。 Portable 是指对于不同的Windows版本和不同的CPU类型上…

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取相机当前实时帧率(C#)

Baumer工业相机堡盟工业相机如何通过NEOAPI SDK获取相机当前实时帧率(C#) Baumer工业相机Baumer工业相机的帧率的技术背景Baumer工业相机的帧率获取方式CameraExplorer如何查看相机帧率信息在NEOAPI SDK里通过函数获取相机帧率 Baumer工业相机通过NEOAPI…

Radar System Pro - Plug Play Solution

Radar System Pro是一款功能多样且可定制的资源,旨在通过功能齐全且易于使用的雷达系统增强您的Unity项目。无论您是在开发第一人称射击游戏、策略游戏还是太空探索模拟器,我们的雷达系统都将为您提供所需的工具,以创建引人入胜且身临其境的体验。 雷达系统是一个模块化资产…

开源可观测性平台Signoz(四)【链路监控及数据库中间件监控篇】

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 前文链接: ​​开源可观测性平台Signoz系列(一)【开篇】​​ ​​开源可观测性平台Signoz&…

40道MyBatis面试题带答案(很全)

1. 什么是MyBatis (1)Mybatis是一个半ORM(对象关系映射)框架,它内部封装了JDBC,开发时只需要关注SQL语句本身,不需要花费精力去处理加载驱动、创建连接、创建statement等繁杂的过程。程序员直接…

前端vue uni-app使用Vue和ECharts构建交互式树形结构图

题目:使用Vue和ECharts构建交互式树形结构图 摘要:本文介绍了如何使用Vue.js和ECharts构建一个交互式的树形结构图。通过整合ECharts的强大可视化功能,我们创建了一个可拖拽移动、点击展开和收缩的树形结构图,并实现了无限添加子…

ROS学习记录:用C++实现对wpr_simulation软件包中机器人的运动控制

一、在工作空间下输入catkin_make进行编译 二、在工作空间中输入source ./devel/setup.bash后回车 三、机器人的运动控制在wpr_simulation中有一个例子程序,在工作空间中输入: roslaunch wpr_simulation wpb_simple.launch后回车 四、就会启动一个仿真环…

计算机毕业设计 基于HTML5+CSS3的在线英语阅读分级平台的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

【Maven】下载及配置

文章目录 1. 定义2. 下载3. 解压4. 配置环境变量5. 验证6. 特性 1. 定义 Maven 是一个跨平台的项目管理工具。作为 Apache 组织的一个颇为成功的开源项目,其主要服务于基于 Java 平台的项目创建,依赖管理和项目信息管理,是一个自动化构建工具…