Gen4Gen:多概念个性化图像生成的数据驱动革新

个性化文本到图像生成模型在用户控制生成过程方面取得了重要进展。这些模型能够通过少量训练样本学习并合成包含新颖个性化概念的图像,例如用户的宠物或特定物品。然而,现有技术在处理多概念个性化时存在局限性,尤其是在生成包含多个相似概念的复杂场景时。来自加州大学戴维斯分校的研究团队及其合作者提出了Gen4Gen,一个半自动化的数据集创建管道,它利用生成模型将个性化概念组合成具有复杂构成的真实场景,并配以详细的文本描述,形成了MyCanvas数据集。这一数据集在不修改模型架构或训练算法的情况下,显著提高了多概念个性化性能。

Gen4Gen 数据集创建管道如何将少量代表多个概念的源图像(每个概念后面带有星号*标记)组合成具有复杂构成的真实场景,并配以详细的文本描述,即 MyCanvas 数据集

方法

研究者首先提出了三个关键原则以确保MyCanvas数据集的质量和有效性:

  • 详细文本描述和图像配对:文本必须与相应图像良好对齐,为前景和背景对象提供信息。
  • 合理的对象布局和背景生成:确保对象在图像中的共存和位置在现实生活中是可能的,并且布局合理。
  • 高分辨率:确保数据集能够满足生成高质量多概念个性化图像的最终目标。

创建MyCanvas数据集主要分三个阶段。整个Gen4Gen管道的设计旨在通过自动化和半自动化的方法,高效地生成具有高度个性化和现实感的图像及其配套文本描述。

Gen4Gen创建MyCanvas数据集的流程

Figure 2 展示了 Gen4Gen 管道的概览,该管道是创建 MyCanvas 数据集的核心过程。这一过程分为三个主要阶段,利用了图像前景提取、大型语言模型(LLMs)、多模态大型语言模型(MLLMs)以及图像修复技术,以生成真实、个性化的图像及其配套的文本描述。

第一阶段:对象关联与前景分割 (1)

  • 在这一阶段,首先从包含多个概念的源图像中,使用类别无关的显著性对象检测器来分割前景对象。这里的“类别无关”意味着检测器不依赖于特定类别的先验知识,能够处理各种不同的对象。

  • 给定一组对象组合 O′,检测器将每个对象的前景分割出来,形成前景图像 D(X′) 及其对应的掩码 M(D(X′))。

第二阶段:LLM 引导的对象组合 (2)

  • 接下来,研究者利用大型语言模型(LLM)的零样本学习能力,请求模型提供给定对象集合O′ 的可能边界框组合。
  • 根据 LLM 提供的边界框,将分割出的前景对象放置在适当的位置,形成复合的前景图像  及其掩码
  • 同时,LLM 还被用来生成一组背景提示,描述O′ 可能存在的潜在场景,这有助于后续阶段的背景重绘。

第三阶段:背景重绘与图像重新描述 (3)

  • 在最后阶段,使用扩散修复模型将复合前景图像 嵌入从互联网上获取的背景图像 ​ 中,生成最终的图像 
  • 为了提高文本描述的多样性同时保持与图像的对齐,研究者使用多模态大型语言模型(MLLM,例如 LLaVA)为的一部分组合提供详细的描述。
  • 这一步骤不仅增加了描述的丰富性,而且通过限制单词数量(以适应 CLIP 的上下文限制)来确保文本与图像紧密对应。

MyCanvas 数据集收集了150个对象,并创建了41种可能的组合,生成了超过10K图像,并手动筛选至2684张最佳质量图像。

MyCanvas数据集的统计信息。a) 饼状图显示了MyCanvas中大约30%的图像与超过20个单词的文本描述配对。b) 词云展示了数据集中使用的各种对象类别。c) 和 d) 词云展示了训练和推理过程中频繁使用的描述,以确保比较的公平性

为了进一步提升模型在训练阶段的性能和图像生成的准确性,研究者采取了一系列创新的文本提示策略。他们引入了“全局组合标记”,这一策略使得模型能够更好地理解和描述复杂的场景布局,从而增强了对整体图像结构的把控能力。

为了确保图像中包含所有指定的概念,并且在生成过程中不遗漏任何细节,研究者实施了“重复概念标记提示”的方法,这有助于模型更加准确地捕捉和再现每个概念。最后通过“合并背景提示”,研究者优化了模型对前景对象和背景的区分能力,鼓励模型专注于学习对象的身份特征,同时避免对象特征与背景特征在特征空间中发生混淆,这些策略共同提升了模型对多概念个性化图像生成任务的泛化和特化能力。

MyCanvas数据集中的一些示例

为了全面评估多概念个性化图像生成任务的性能,研究者提出了两个创新的度量标准:CP-CLIP(Composition-Personalization-CLIP)分数和TI-CLIP(Text-Image alignment CLIP)分数。CP-CLIP分数专注于评估图像生成在组合和个性化方面的准确性,它通过检查文本中提及的每个个性化概念是否都能在生成的图像中得到准确反映,并且这些概念的视觉表现是否与其原始对象保持一致性。

这种度量方式确保了生成图像不仅在视觉上忠实于源数据,而且在概念层面上也与文本描述相匹配。而TI-CLIP分数则作为评估模型泛化能力的一种手段,通过比较生成图像与用于生成它的文本提示之间的一致性,来检测模型是否对训练数据出现过拟合。一个理想的个性化图像生成模型应该在提高CP-CLIP分数的同时,保持TI-CLIP分数的稳定,这表明模型在生成高质量图像的同时,还能够适应不同的文本描述,展现出良好的泛化能力。这两个度量标准的提出,为多概念个性化图像生成的研究提供了更为精确和全面的评价工具。

实验

基线:研究者首先使用Custom Diffusion模型作为基线,这是一个可复现的代码基础,用于与先前的方法进行广泛比较。

实现细节:对于每种组合,研究者训练了上述方法的模型(训练细节在附录中)。评估时,他们选择了每个组合的最佳检查点。使用与训练期间不同的、独特的提示,以更好地分析每个模型的泛化能力。

三种不同设置下使用我们的度量标准(CP-CLIP和TI-CLIP)测量的定量性能

表1所示,研究者通过量化的方法来评估Gen4Gen管道和MyCanvas数据集对于提升多概念个性化图像生成性能的具体影响。他们使用了一系列预定义的文本提示来生成图像,并通过比较不同实验设置下生成的246张图像的性能,来展示MyCanvas数据集的优越性。实验结果表明,与仅使用原始源图像的Custom Diffusion相比,结合MyCanvas数据集的方法在CP-CLIP分数上实现了显著提升,这表明了在图像生成中个性化概念的准确性和完整性得到了增强。同时,TI-CLIP分数的稳定性验证了性能提升并非由过拟合所致,从而证明了MyCanvas数据集在提高多概念个性化生成任务中的有效性和泛化能力。

多概念组合的定性结果。呈现了四组结果,按组合难度(更多的个性化概念)递增顺序排列

图5中,四组结果根据组合难度递增排序,每组展示了在不同训练策略下的图像生成效果。使用Custom Diffusion模型结合原始源图像的结果作为基线,展示了模型在没有额外数据集支持时的生成能力。当引入MyCanvas数据集后,模型在区分潜在空间中相似对象(如猫和狮子,两种拖拉机)方面表现出显著的改进。进一步应用提示策略后,模型在生成过程中对文本描述的遵循程度更高,确保了所有概念都被准确反映在图像中,即使在涉及多个概念的复杂场景中也是如此。这些定性结果突出了MyCanvas数据集和提示策略在提升图像生成质量和与文本描述一致性方面的重要作用。

为了深入理解Gen4Gen管道生成图像的质量,并探究训练数据规模与模型性能之间的关系,研究者开展了一系列消融实验:

MyCanvas生成质量评估:开发了一个过滤工具来评估Gen4Gen管道生成的800张图像的质量。基于包含个性化概念、它们的正确放置和排除视觉伪影的标准,对每个图像进行评分。

训练数据大小与概念数量:提供了一个分析,展示了使用1到100张图像进行训练时的性能。当训练涉及4个以上概念时,稳定表现需要10到50张图像。

得分分布:表2显示了质量评估的得分分布。只有被评为4/5的图像被添加到MyCanvas数据集中。

MyCanvas生成质量的质量评估

通过这些实验,研究者展示了Gen4Gen方法在创建数据集和提高多概念个性化图像生成质量方面的有效性。实验结果支持了他们的观点,即通过改进数据集的质量,可以在不修改模型架构或训练算法的情况下显著提高性能。

论文链接:https://arxiv.org/abs/2402.15504

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/787172.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

挂耳式耳机哪款比较好、挂耳式耳机推荐高性价比

近年来,开放式耳机行业蓬勃发展,受到了越来越多消费者的喜爱,然而,这里边也夹着不专业的产品,低质量的生产不仅不能带来舒适的体验,甚至可能对耳朵造成潜在的伤害。挂耳式耳机哪款比较好?为了帮…

初识STM32:寄存器编程 × 库函数编程 × 开发环境

STM32的编程模型 假如使用C语言的方式写了一段程序,这段程序首先会被烧录到芯片当中(Flash存储器中),Flash存储器中的程序会逐条的进入CPU里面去执行。 CPU相当于人的一个大脑,虽然能执行运算和执行指令,…

WPF依赖附加属性

依赖附加属性的定义 基本过程:声明、注册、包装 依赖附加属性必须在依赖对象,附加属性不一定,关注的是被附加的对象是否是依赖对象 快捷方式:propa tab 关键字:RegisterAttached // 方法封装 public static int …

Java客户端调用SOAP方式的WebService服务实现方式分析

简介 在多系统交互中,有时候需要以Java作为客户端来调用SOAP方式的WebService服务,本文通过分析不同的调用方式,以Demo的形式,帮助读者在生产实践中选择合适的调用方式。 本文JDK环境为JDK17。 结论 推荐使用Axis2或者Jaxws&#…

推出全新的无线通讯模块(1SJ型、2DT-158型、2GT-001型、1YN型、2AE型)助力物联网新发展

相关型号:LBAA0QB1SJ-296 LBAA0XV2DT-158 LBAA0XV2GT-001 LBEE5KL1YN-814 LBEE5PK2AE-564 全新的无线通讯模块(1SJ型、2DT-158型、2GT-001型、1YN型、2AE型)助力物联网新发展(明佳达) 1、1SJ型集成LoRaWAN调制解调器…

优劣分析:重启路由器 vs 使用IP代理

目前更换IP主要有两种常见方法,一种是重启路由器,另一种是使用代理IP,那么,这两种方法有什么优缺点呢?下面我们一起来探讨一下。 方法一:重启路由器变换IP 优点 1. 操作简单:只需断开路由器电…

『C + ⒈』‘\‘

&#x1f942;在反斜杠(\)有⒉种最常用的功能如下所示&#x1f44b; #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> int main(void) {int a 10;int b 20;int c 30;if (a 10 &&\b 20 &&\c 30){printf("Your print\n");}else{prin…

解锁AI大模型潜能:预训练、迁移学习与中间件编程的协同艺术

在人工智能的浩瀚星空中&#xff0c;大型预训练模型&#xff08;Large Language Models, LLMs&#xff09;犹如璀璨的星辰&#xff0c;引领着技术革新的浪潮。这些模型通过海量数据的滋养&#xff0c;学会了理解语言、生成文本乃至执行复杂任务的能力。然而&#xff0c;要让这些…

可以拖拽的富文本编辑器(VueDragResize,quill-editor)

该功能实现一个帮助文档的展示和编辑功能&#xff0c;默认进去只能查看帮助文档的内容&#xff0c;点击编辑可以进行富文本编辑器的编辑功能。 出现的问题1.如何隐藏富文本编辑的工具栏并且禁止编辑 //隐藏工具栏this.toolbar this.$refs.myTextEditor.quill.getModule(toolb…

LeetCode之无重复字符的最长子串

1.题目链接 3. 无重复字符的最长子串 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/longest-substring-without-repeating-characters/description/ 2.题目解析 题目主要思路其实是滑动窗口&#xff0c;使用两个指针维护一个动态区间&#xff0c;使…

价格疑云?格行WiFi创始人亲解谜团,性价比之王如何炼成?

随身wifi行业乱象频出&#xff0c;作为行业领跑品牌的格行随身wifi&#xff0c;关于价格问题一直备受质疑。关于设备上的“格行自有格行的骄傲”也被外界认定为是自大&#xff0c;甚至发展的线下一万多家门店也被同行不认可。近日&#xff0c;企业财经专访记者有幸采访了格行随…

实时消息推送系统,写得太好了!

websocket 协议是在 http 协议上的一种补充协议&#xff0c;是 html5 的新特性&#xff0c;是一种持久化的协议。其实 websocket 和 http 关系并不是很大&#xff0c;不过都是属于应用层的协议&#xff0c;接下来我们就开始实战。 websocket 定时推送 本教程基于 springboot …

华为od相关信息分享

2024年OD统一考试&#xff08;D卷&#xff09;完整题库&#xff1a;华为OD机试2024年最新题库&#xff08;Python、JAVA、C合集&#xff09; 问 1.什么是华为od&#xff1f; 答&#xff1a;OD全称是Outsourcing Dispacth&#xff0c;即外包派遣&#xff0c;是华为和外企德科…

HTML 标签简写及全称:表格内容将通过JavaScript动态生成

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>HTML 标签简写及全称</title><style>…

2025考研~数据结构试卷

作者主页&#xff1a;知孤云出岫 数据结构试题 [TOC](数据结构试题)数据结构试卷一、选择题&#xff08;每题2分&#xff0c;共20分&#xff09;二、填空题&#xff08;每题3分&#xff0c;共15分&#xff09;三、简答题&#xff08;每题10分&#xff0c;共40分&#xff09;四…

卷技术还是卷应用?李彦宏给出了明确答案

如何理解李彦宏说的“不要卷模型&#xff0c;要卷应用” 引言 7月4日&#xff0c;2024世界人工智能大会在上海世博中心召开。百度创始人兼CEO李彦宏在产业发展主论坛上呼吁&#xff1a;“大家不要卷模型&#xff0c;要卷应用&#xff01;”这句话引起了广泛讨论。李彦宏认为&a…

【python】PyQt5对象类型的判定,对象删除操作详细解读

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

2款一键word生成ppt的AI工具,让职场办公更为简单!

在当下主打异步沟通的职场办公环境中&#xff0c;我们与很多人的沟通&#xff0c;都是通过书面材料来达成的&#xff0c;这就让 Word 或文档编辑软件变得更为重要&#xff0c;与此同时&#xff0c;有时为了凸现书面材料中的重点&#xff0c;我们还要将 word 文档转换为 ppt 来进…

设计模式使用简例(简单工厂+策略模式+模板方法)

直接上代码&#xff0c;方便记忆。主要的要点&#xff0c;已经写到注释中。 一&#xff0c;代码展示 启动类 package com.rojer;import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication;SpringBootAppli…

代码随想录算法训练营第四十八天| 115.不同的子序列、583. 两个字符串的删除操作、 72. 编辑距离

115.不同的子序列 题目链接&#xff1a;115.不同的子序列 文档讲解&#xff1a;代码随想录 状态&#xff1a;不会 思路&#xff1a; dp[i][j] 表示在 s 的前 j 个字符中&#xff0c;t 的前 i 个字符作为子序列出现的次数。 匹配的情况&#xff1a; 1.当 s[j-1] 与 t[i-1] 匹配…