论文阅读 SeedEdit: Align Image Re-Generation to Image Editing

目录

 摘要

1 INTRODUCTION

2 SEEDEDIT

2.1 T2I MODEL FOR EDITING DATA GENERATION 

2.2 CAUSAL DIFFUSION MODEL WITH IMAGE INPUT 

 2.3 ITERATIVE ALIGNMENT

3 EXPERIMENTS

3.1 BENCHMARK AND METRICS

3.2 IMAGE EDITING COMPARISON

4 CONCLUSION


摘要

SeedEdit,这是一种扩散模型,它能够用任何文本提示修改给定图像。在我们看来,这项任务的关键是在保持原始图像(即图像重建)和生成新的图像(即图像再生)之间获得最佳平衡。为此,我们从一个弱生成器(文本到图像模型)开始,它在这两个方向之间创建不同的对,并逐渐将其对齐到一个强大的图像编辑器中,可以很好地平衡这两个任务。SeedEdit 可以在先前的图像编辑方法上实现更多样化和更稳定的编辑能力,从而能够对扩散模型生成的图像进行顺序修改。

1 INTRODUCTION

(1)今天的扩散模型只能从文本描述创建逼真和多样化的图像。然而,这些生成的图像通常相当不可控,在某种程度上,生成过程就像抛掷骰子,直到看到一个好的输出。为了获得对生成内容的更多可控性,所需的特征是教学图像编辑,即使用文本描述修改输入图像。这可以被视为图像生成和图像理解之间的交集,这两者今天都非常成熟。然而,到目前为止,图像编辑本身的技术仍然远远落后于生成和理解

(2)现有的扩散模型图像编辑大致可以分为两类。首先,training-free方法结合了特定的技术,如DDIM反演、测试时间微调、注意控制来重建输入图像,并使用新的文本引导生成新的图像。但是由于重建和再生过程都存在不稳定性,这两者的组合累积到编辑图像中的更多错误中,这可能与输入图像或目标描述不一致。

(3)第二种方法是数据驱动的方法,其中准备了一个大规模的成对编辑数据集来训练教学扩散模型。然而,这里的主要困难是准备多样化和高质量的编辑数据集。与可以从互联网大规模收集的图像数据集不同,图像编辑对非常罕见,几乎不可能收集涵盖所有类型的编辑对的高质量数据集。因此,现有的工作试图使用某些工具,例如 Prompt-to-Prompt 或 in-painting 来创建这样的数据集。但是因此,它们的性能受到这些数据创建工具的限制,这些工具本身不满足任何一个.

(4)为了克服上述困难,我们引入了一个新的框架,将图像生成扩散模型转换为编辑图像的模型。我们认识到图像编辑本质上是图像重建和再生之间的平衡,因此我们开发了一个管道,首先生成不同的成对数据,这些数据分散到这两个方向上,然后逐渐对齐图像条件扩散模型,以达到这两个任务之间的最佳平衡。总体而言,它导致了一个模型,该模型能够用指令或描述修改图像,我们称之为 SeedEdit,并且与之前的研究相比产生了卓越的性能。

2 SEEDEDIT

图像编辑问题的核心难点是成对图像数据的稀缺性。我们从对齐的角度解决了这个问题。特别是,我们将文本到图像 (T2I) 模型视为弱编辑模型,该模型通过生成具有新提示的新图像来实现“编辑”。然后,我们通过在提高图像一致性的同时最大限度地继承再生能力,将这种弱编辑模型提炼并对齐到强编辑模型中,如图 2 所示。

2.1 T2I MODEL FOR EDITING DATA GENERATION 

我们最初的编辑数据是使用预训练的 T2I 模型作为编辑模型生成的,其中可以使用相应的文本描述生成编辑前后的一对图像,类似于 IntructPix2Pix Brooks 等人。有了这些数据,我们可以将 T2I 模型提炼成一个图像条件编辑模型。然而,这种幼稚的再生可能会导致两幅图像之间的不一致。为了提高一致性,存在提示的各种promptto-prompt 和attention control (方法和注意力控制)。然而,这些技术可以生成非常有限的对数据类型,并且很难涵盖所有类型的图像编辑。因此,我们结合不同的再生技术和参数来创建更多样化的数据集。特别是,我们生成了一个具有更多随机性的大规模成对数据集,以确保多样性,然后应用过滤器选择好的示例进行模型训练和对齐。图 3 说明了我们的对齐模型比基于 CLIP 指标的朴素再生表现得更好。

2.2 CAUSAL DIFFUSION MODEL WITH IMAGE INPUT 

我们的图像条件扩散模型的模型架构如图4所示。与以往为图像条件添加额外的输入通道的研究不同(Brooks et al., 2023),为此重用自我注意,其中扩散模型的两个分支(共享参数)分别应用于输入和输出图像。这受到先前training-free方法的启发(Cao et al., 2023),我们凭经验发现这样的架构在几何变形任务上表现更好,并引入了更少的新参数。具体来说,引入了因果自注意力结构,使得两个网络可以基于中间特征构建通信。如果我们去掉输入分支,它会导致原始的 T2I 扩散模型,允许对编辑和 T2I 数据进行混合训练。 

 2.3 ITERATIVE ALIGNMENT

由于嘈杂的数据集,在一对示例上训练的初始编辑模型对于应用程序可能不够稳健。也就是说,与数据集本身一样,该模型能够涵盖不同的编辑任务,但成功率有限。为了进一步确保模型的鲁棒性,我们建议通过添加额外的微调轮次来逐步对齐编辑模型。特别是,由于我们已经在这个阶段有一个编辑模型,我们可以根据当前模型准备一组新的数据,遵循类似的数据生成管道。然后再次对结果进行标记和过滤,以微调编辑模型,如第2.2节所示。我们重复这个过程进行多轮,直到模型收敛,即对指标没有更多的改进。

3 EXPERIMENTS

3.1 BENCHMARK AND METRICS

我们的实验评估了两个基本模型,即 SDXL (Podell et al., 2023) 和基于 DiT 架构的内部 T2I 模型 (Peebles & Xie, 2023; Esser et al., 2024)。我们使用两个公共数据集来评估图像编辑性能。(Hui et al., 2024) 中提出的 HQ-Edit 数据集和来自 (Sheynin et al., 2024) 的 Emu Edit 数据集。前者由293张Dalle3生成的图像组成,后者由535张真实的野外图像输入组成。我们注意到我们的方法主要关注HQ-Edit基准中的应用场景,我们希望用任意指令修改T2I生成的图像。Emu Edit 与我们的训练数据有很大不同,后者主要包括对真实场景图像进行本地编辑。因此,我们将 Emu Edit 视为域外 (OOD) 测试,但主要依靠 HQ-Edit 来评估我们的方法的应用潜力。 我们采用两个指标来评估编辑性能。第一个是基于clip (Brooks et al., 2023),其中CLIP方向评分用于评估编辑提示的对齐,并使用CLIP图像相似度来衡量一致性。第二个是 LLM-as-evaluator,其中 GPT 用于替换 CLIP 方向分数来衡量编辑的成功。

3.2 IMAGE EDITING COMPARISON

我们将我们的方法与几种最先进的图像编辑方法进行比较,包括无训练方法Prompt-to-Prompt (Null-text Inversion) (Hertz et al., 2022; Mokady et al., 2023) 和数据驱动方法 Instruct-Pix2Pix (Brooks et al., 2023)、MagicBrush Zhang et al. (2024)、Emu Edit Sheynin et al. (2024) 和 UltraEdit Zhao et al. (2024)。由于 Emu Edit 不是开源的,我们只在自己的测试集上比较它们。对于其他方法,我们使用他们发布的带有默认参数的模型进行比较。表 1 显示了基线和我们的方法的定量结果。总体而言,我们的方法在两个基准上显示出比开源基线高得多的编辑分数。同时,我们还观察到HQ-Edit 数据集上的 CLIP 图像相似度更高,这表明可以更好地保存原始图像中的内容。

虽然我们主要关注修改 T2I 图像的应用场景,如 HQ-Edit 所示,但我们的方法在 Emu Edit 基准上也实现了下降定量分数,与原始 Emu Edit 方法相当/更好。然而,总的来说,我们观察到所有方法(包括我们的方法)生成的图像的质量在 Emu Edit 基准上都不太令人满意,这证明了我们认为 T2I 图像的修改可能是在编辑任意野外图像之前解决的第一步。

我们将我们的方法与几种最先进的图像编辑方法进行比较,包括无训练方法Prompt-to-Prompt (Null-text Inversion) (Hertz et al., 2022; Mokady et al., 2023) 和数据驱动方法 Instruct-Pix2Pix (Brooks et al., 2023)、MagicBrush Zhang et al. (2024)、Emu Edit Sheynin et al. (2024) 和 UltraEdit Zhao et al. (2024)。由于 Emu Edit 不是开源的,我们只在自己的测试集上比较它们。对于其他方法,我们使用他们发布的带有默认参数的模型进行比较。表 1 显示了基线和我们的方法的定量结果。总体而言,我们的方法在两个基准上显示出比开源基线高得多的编辑分数。同时,我们还观察到HQ-Edit 数据集上的 CLIP 图像相似度更高,这表明可以更好地保存原始图像中的内容。

虽然我们主要关注修改 T2I 图像的应用场景,如 HQ-Edit 所示,但我们的方法在 Emu Edit 基准上也实现了下降定量分数,与原始 Emu Edit 方法相当/更好。然而,总的来说,我们观察到所有方法(包括我们的方法)生成的图像的质量在 Emu Edit 基准上都不太令人满意,这证明了我们认为 T2I 图像的修改可能是在编辑任意野外图像之前解决的第一步。

图 5 显示了我们的方法在 HQ-Edit 基准上的一些定性示例和基线。我们的方法之间的主要区别在于我们的方法可以理解相当模棱两可的指令,并且在以更高的成功率执行细粒度编辑时。

最后,我们将 SeedEdit(内部 T2I 模型)与其他商业 SoTA 工具(例如 DALLE3 Edit1 和 Midjourney2)的图像编辑能力进行比较,这些工具允许编辑自生成的图像。图 7 显示了结果的定性比较。一般来说,DALLE3 和 Midjourney 都倾向于在指定的编辑提示之外引入更意想不到的内容更改。在这两者之间,Midjourney 产生了更美观的图像,而 DALLE3 表现出优于对提示指令的依从性。相比之下,如最后一列所示,SeedEdit 取得了更好的平衡,提供了更接近给定指令的更精确的编辑。此外,我们进行了一项内部用户研究,表明对我们的方法产生的结果有很强的偏好。

4 CONCLUSION

 在这项工作中,我们介绍了 SeedEdit,这是一种渐进式对齐框架,用于将预训练的 T2I 扩散模型适应图像编辑模型,该模型最大化提示对齐和图像一致性。提出了一种因果扩散模型,将图像和文本作为图像生成的条件。提出了一种迭代数据生成和微调框架,将扩散对准精确的图像编辑。实验结果表明,与现有方法相比,我们的方法产生了更好的结果。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/919918.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

昇思MindSpore第四课---GPT实现情感分类

1. GPT的概念 GPT 系列是 OpenAI 的一系列预训练模型,GPT 的全称是 Generative Pre-Trained Transformer,顾名思义,GPT 的目标是通过Transformer,使用预训练技术得到通用的语言模型。和BERT类似,GPT-1同样采取pre-trai…

Nacos实现IP动态黑白名单过滤

一些恶意用户(可能是黑客、爬虫、DDoS 攻击者)可能频繁请求服务器资源,导致资源占用过高。因此我们需要一定的手段实时阻止可疑或恶意的用户,减少攻击风险。 本次练习使用到的是Nacos配合布隆过滤器实现动态IP黑白名单过滤 文章…

STM32芯片EXIT外部中断的配置与原理以及模板代码(标准库)

配置EXIT外部中断其实就是把GPIO刀NVIC的各个外设配置好 第一步:配置RCC,把我们涉及到的外设的时钟都打开 (此处EXTI是默认打开的,而NVIC是内核外设无需配置) 第二步:配置GPIO,选择端口为输入模式 第三…

大数据实验4-HBase

一、实验目的 阐述HBase在Hadoop体系结构中的角色;能够掌握HBase的安装和配置方法熟练使用HBase操作常用的Shell命令; 二、实验要求 学习HBase的安装步骤,并掌握HBase的基本操作命令的使用; 三、实验平台 操作系统&#xff1…

商用密码产品认证名录说明

《商用密码产品认证目录》是为贯彻落实《中华人民共和国密码法》,进一步健全完善商用密码产品认证体系,更好满足商用密码产业发展需要,根据《国家密码管理局 市场监管总局关于调整商用密码产品管理方式的公告》《市场监管总局 国家密码管理局…

uniapp微信小程序接入airkiss插件进行WIFI配网

本文可参考uniapp小程序插件 一.申请插件 微信公众平台设置页链接:微信公众平台 登录您的小程序微信公众平台,进入设置页,在第三方设置->插件管理->添加插件中申请AiThinkerAirkissforWXMini插件,申请的插件appId为【wx6…

突破自动驾驶瓶颈!KoMA:多智能体与大模型的完美融合

0.简介 本推文主要介绍了由来自北京航空航天大学的姜克谋、蔡轩和崔智勇教授等共同提出的一种名为KoMA的知识驱动的多智能体框架。论文《KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models》提出了KoMA框架,通过结…

企业项目级IDEA编辑器设置类注释、方法注释模板(仅增加@author和@date)

文章目录 前言一 设置类注释1.1 添加模板1.2 复制配置 二 设置方法注释2.1 添加模版2.2 设置模版2.3 设置参数变量2.4 配置对应快捷键2.5 配置对应作用域2.6 使用方式 说明 前言 公司代码规范中,需要在标准JavaDoc注释的基础上加上作者和日期。网上虽然有很多现成的…

【HOT100第五天】搜索二维矩阵 II,相交链表,反转链表,回文链表

240.搜索二维矩阵 II 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 先动手写写最简单方法,二重循环。 class Solution { public:bool searchMa…

OLED透明屏在零售行业有哪些优势

OLED透明屏在零售行业具有诸多优势,这些优势使得它成为零售行业中一种创新且高效的展示工具。以下是对OLED透明屏在零售行业优势的详细分析: 1. 视觉吸引力与沉浸感 高透明度:OLED透明屏能够实现40%以上的透明度,使得屏幕后的物体…

kali搭建pikachu靶场

前言: 总所周知搭个网站需要有apachemysqlphp,Apache是一个开源的Web服务器软件, MySQL是一种关系型数据库管理系统(数据库),PHP是一种在服务器上执行的脚本语言 文章内容来自:【黑帽编程与攻…

学习threejs,对模型多个动画切换展示

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.AnimationMixer 动画…

【再谈设计模式】适配器模式 ~接口兼容的桥梁

一、引言 在软件开发的复杂世界里,不同的组件、类或者系统往往有着各自独立的设计和接口定义。当需要将这些原本不兼容的部分整合在一起协同工作时,就像尝试将方形的榫头插入圆形的卯眼一样困难。适配器设计模式就如同一位神奇的工匠,能够巧妙…

光猫、路由器、交换机之连接使用(Connection and Usage of Optical Cats, Routers, and Switches)

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 本人主要分享计算机核心技…

《深入理解 Spring MVC 工作流程》

一、Spring MVC 架构概述 Spring MVC 是一个基于 Java 的轻量级 Web 应用框架,它遵循了经典的 MVC(Model-View-Controller)设计模式,将请求、响应和业务逻辑分离,从而构建出灵活可维护的 Web 应用程序。 在 Spring MV…

【Python小技巧】高效实现文件批量重命名

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

ES分词环境实战

文章目录 安装下载1.1 下载镜像1.2 单节点启动 防火墙设置异常处理【1】iptable链路中断 参考文档 参加完2024年11月软考,对ES的分词进行考查,前期有【 Docker 环境下安装部署 Elasticsearch 和 kibana】和【 Docker 环境下为 Elasticsearch 安装IK 分…

华为云stack网络服务流量走向

1.同VPC同子网同主机内ECS间互访流量走向 一句话通过主机内部br-int通信 2.同VPC同子网跨主机ECS间互访流量走向 3.同VPC不同子网同主机ECS间互访流量走向 去往本机的mac地址都记录在br-tun流表里 4.同VPC不同子网跨主机ECS间互访流量走向 5.对等连接流量走向(跨V…

计算机网络:运输层 —— TCP 的拥塞控制

文章目录 TCP的拥塞控制拥塞控制的基本方法流量控制与拥塞控制的区别拥塞控制分类闭环拥塞控制算法 TCP的四种拥塞控制方法(算法)窗口慢开始门限慢开始算法拥塞避免算法快重传算法快恢复算法 TCP拥塞控制的流程TCP拥塞控制与网际层拥塞控制的关系 TCP的拥…

利用uniapp开发鸿蒙:运行到鸿蒙模拟器—踩坑合集

从uniapp运行到鸿蒙模拟器上这一步,就有非常多的坑,一些常见的坑,官网都有介绍,就不再拿出来了,这里记录一下官网未记录的大坑 1.运行路径从hbuilderx启动鸿蒙模拟器 解决方法: Windows系统,官…