目录
摘要
1 INTRODUCTION
2 SEEDEDIT
2.1 T2I MODEL FOR EDITING DATA GENERATION
2.2 CAUSAL DIFFUSION MODEL WITH IMAGE INPUT
2.3 ITERATIVE ALIGNMENT
3 EXPERIMENTS
3.1 BENCHMARK AND METRICS
3.2 IMAGE EDITING COMPARISON
4 CONCLUSION
摘要
SeedEdit,这是一种扩散模型,它能够用任何文本提示修改给定图像。在我们看来,这项任务的关键是在保持原始图像(即图像重建)和生成新的图像(即图像再生)之间获得最佳平衡。为此,我们从一个弱生成器(文本到图像模型)开始,它在这两个方向之间创建不同的对,并逐渐将其对齐到一个强大的图像编辑器中,可以很好地平衡这两个任务。SeedEdit 可以在先前的图像编辑方法上实现更多样化和更稳定的编辑能力,从而能够对扩散模型生成的图像进行顺序修改。
1 INTRODUCTION
(1)今天的扩散模型只能从文本描述创建逼真和多样化的图像。然而,这些生成的图像通常相当不可控,在某种程度上,生成过程就像抛掷骰子,直到看到一个好的输出。为了获得对生成内容的更多可控性,所需的特征是教学图像编辑,即使用文本描述修改输入图像。这可以被视为图像生成和图像理解之间的交集,这两者今天都非常成熟。然而,到目前为止,图像编辑本身的技术仍然远远落后于生成和理解
(2)现有的扩散模型图像编辑大致可以分为两类。首先,training-free方法结合了特定的技术,如DDIM反演、测试时间微调、注意控制来重建输入图像,并使用新的文本引导生成新的图像。但是由于重建和再生过程都存在不稳定性,这两者的组合累积到编辑图像中的更多错误中,这可能与输入图像或目标描述不一致。
(3)第二种方法是数据驱动的方法,其中准备了一个大规模的成对编辑数据集来训练教学扩散模型。然而,这里的主要困难是准备多样化和高质量的编辑数据集。与可以从互联网大规模收集的图像数据集不同,图像编辑对非常罕见,几乎不可能收集涵盖所有类型的编辑对的高质量数据集。因此,现有的工作试图使用某些工具,例如 Prompt-to-Prompt 或 in-painting 来创建这样的数据集。但是因此,它们的性能受到这些数据创建工具的限制,这些工具本身不满足任何一个.
(4)为了克服上述困难,我们引入了一个新的框架,将图像生成扩散模型转换为编辑图像的模型。我们认识到图像编辑本质上是图像重建和再生之间的平衡,因此我们开发了一个管道,首先生成不同的成对数据,这些数据分散到这两个方向上,然后逐渐对齐图像条件扩散模型,以达到这两个任务之间的最佳平衡。总体而言,它导致了一个模型,该模型能够用指令或描述修改图像,我们称之为 SeedEdit,并且与之前的研究相比产生了卓越的性能。
2 SEEDEDIT
图像编辑问题的核心难点是成对图像数据的稀缺性。我们从对齐的角度解决了这个问题。特别是,我们将文本到图像 (T2I) 模型视为弱编辑模型,该模型通过生成具有新提示的新图像来实现“编辑”。然后,我们通过在提高图像一致性的同时最大限度地继承再生能力,将这种弱编辑模型提炼并对齐到强编辑模型中,如图 2 所示。
2.1 T2I MODEL FOR EDITING DATA GENERATION
我们最初的编辑数据是使用预训练的 T2I 模型作为编辑模型生成的,其中可以使用相应的文本描述生成编辑前后的一对图像,类似于 IntructPix2Pix Brooks 等人。有了这些数据,我们可以将 T2I 模型提炼成一个图像条件编辑模型。然而,这种幼稚的再生可能会导致两幅图像之间的不一致。为了提高一致性,存在提示的各种promptto-prompt 和attention control (方法和注意力控制)。然而,这些技术可以生成非常有限的对数据类型,并且很难涵盖所有类型的图像编辑。因此,我们结合不同的再生技术和参数来创建更多样化的数据集。特别是,我们生成了一个具有更多随机性的大规模成对数据集,以确保多样性,然后应用过滤器选择好的示例进行模型训练和对齐。图 3 说明了我们的对齐模型比基于 CLIP 指标的朴素再生表现得更好。
2.2 CAUSAL DIFFUSION MODEL WITH IMAGE INPUT
我们的图像条件扩散模型的模型架构如图4所示。与以往为图像条件添加额外的输入通道的研究不同(Brooks et al., 2023),为此重用自我注意,其中扩散模型的两个分支(共享参数)分别应用于输入和输出图像。这受到先前training-free方法的启发(Cao et al., 2023),我们凭经验发现这样的架构在几何变形任务上表现更好,并引入了更少的新参数。具体来说,引入了因果自注意力结构,使得两个网络可以基于中间特征构建通信。如果我们去掉输入分支,它会导致原始的 T2I 扩散模型,允许对编辑和 T2I 数据进行混合训练。
2.3 ITERATIVE ALIGNMENT
由于嘈杂的数据集,在一对示例上训练的初始编辑模型对于应用程序可能不够稳健。也就是说,与数据集本身一样,该模型能够涵盖不同的编辑任务,但成功率有限。为了进一步确保模型的鲁棒性,我们建议通过添加额外的微调轮次来逐步对齐编辑模型。特别是,由于我们已经在这个阶段有一个编辑模型,我们可以根据当前模型准备一组新的数据,遵循类似的数据生成管道。然后再次对结果进行标记和过滤,以微调编辑模型,如第2.2节所示。我们重复这个过程进行多轮,直到模型收敛,即对指标没有更多的改进。
3 EXPERIMENTS
3.1 BENCHMARK AND METRICS
我们的实验评估了两个基本模型,即 SDXL (Podell et al., 2023) 和基于 DiT 架构的内部 T2I 模型 (Peebles & Xie, 2023; Esser et al., 2024)。我们使用两个公共数据集来评估图像编辑性能。(Hui et al., 2024) 中提出的 HQ-Edit 数据集和来自 (Sheynin et al., 2024) 的 Emu Edit 数据集。前者由293张Dalle3生成的图像组成,后者由535张真实的野外图像输入组成。我们注意到我们的方法主要关注HQ-Edit基准中的应用场景,我们希望用任意指令修改T2I生成的图像。Emu Edit 与我们的训练数据有很大不同,后者主要包括对真实场景图像进行本地编辑。因此,我们将 Emu Edit 视为域外 (OOD) 测试,但主要依靠 HQ-Edit 来评估我们的方法的应用潜力。 我们采用两个指标来评估编辑性能。第一个是基于clip (Brooks et al., 2023),其中CLIP方向评分用于评估编辑提示的对齐,并使用CLIP图像相似度来衡量一致性。第二个是 LLM-as-evaluator,其中 GPT 用于替换 CLIP 方向分数来衡量编辑的成功。
3.2 IMAGE EDITING COMPARISON
我们将我们的方法与几种最先进的图像编辑方法进行比较,包括无训练方法Prompt-to-Prompt (Null-text Inversion) (Hertz et al., 2022; Mokady et al., 2023) 和数据驱动方法 Instruct-Pix2Pix (Brooks et al., 2023)、MagicBrush Zhang et al. (2024)、Emu Edit Sheynin et al. (2024) 和 UltraEdit Zhao et al. (2024)。由于 Emu Edit 不是开源的,我们只在自己的测试集上比较它们。对于其他方法,我们使用他们发布的带有默认参数的模型进行比较。表 1 显示了基线和我们的方法的定量结果。总体而言,我们的方法在两个基准上显示出比开源基线高得多的编辑分数。同时,我们还观察到HQ-Edit 数据集上的 CLIP 图像相似度更高,这表明可以更好地保存原始图像中的内容。
虽然我们主要关注修改 T2I 图像的应用场景,如 HQ-Edit 所示,但我们的方法在 Emu Edit 基准上也实现了下降定量分数,与原始 Emu Edit 方法相当/更好。然而,总的来说,我们观察到所有方法(包括我们的方法)生成的图像的质量在 Emu Edit 基准上都不太令人满意,这证明了我们认为 T2I 图像的修改可能是在编辑任意野外图像之前解决的第一步。
我们将我们的方法与几种最先进的图像编辑方法进行比较,包括无训练方法Prompt-to-Prompt (Null-text Inversion) (Hertz et al., 2022; Mokady et al., 2023) 和数据驱动方法 Instruct-Pix2Pix (Brooks et al., 2023)、MagicBrush Zhang et al. (2024)、Emu Edit Sheynin et al. (2024) 和 UltraEdit Zhao et al. (2024)。由于 Emu Edit 不是开源的,我们只在自己的测试集上比较它们。对于其他方法,我们使用他们发布的带有默认参数的模型进行比较。表 1 显示了基线和我们的方法的定量结果。总体而言,我们的方法在两个基准上显示出比开源基线高得多的编辑分数。同时,我们还观察到HQ-Edit 数据集上的 CLIP 图像相似度更高,这表明可以更好地保存原始图像中的内容。
虽然我们主要关注修改 T2I 图像的应用场景,如 HQ-Edit 所示,但我们的方法在 Emu Edit 基准上也实现了下降定量分数,与原始 Emu Edit 方法相当/更好。然而,总的来说,我们观察到所有方法(包括我们的方法)生成的图像的质量在 Emu Edit 基准上都不太令人满意,这证明了我们认为 T2I 图像的修改可能是在编辑任意野外图像之前解决的第一步。
图 5 显示了我们的方法在 HQ-Edit 基准上的一些定性示例和基线。我们的方法之间的主要区别在于我们的方法可以理解相当模棱两可的指令,并且在以更高的成功率执行细粒度编辑时。
最后,我们将 SeedEdit(内部 T2I 模型)与其他商业 SoTA 工具(例如 DALLE3 Edit1 和 Midjourney2)的图像编辑能力进行比较,这些工具允许编辑自生成的图像。图 7 显示了结果的定性比较。一般来说,DALLE3 和 Midjourney 都倾向于在指定的编辑提示之外引入更意想不到的内容更改。在这两者之间,Midjourney 产生了更美观的图像,而 DALLE3 表现出优于对提示指令的依从性。相比之下,如最后一列所示,SeedEdit 取得了更好的平衡,提供了更接近给定指令的更精确的编辑。此外,我们进行了一项内部用户研究,表明对我们的方法产生的结果有很强的偏好。
4 CONCLUSION
在这项工作中,我们介绍了 SeedEdit,这是一种渐进式对齐框架,用于将预训练的 T2I 扩散模型适应图像编辑模型,该模型最大化提示对齐和图像一致性。提出了一种因果扩散模型,将图像和文本作为图像生成的条件。提出了一种迭代数据生成和微调框架,将扩散对准精确的图像编辑。实验结果表明,与现有方法相比,我们的方法产生了更好的结果。