即插即用，无缝集成各种模型，港科大蚂蚁等发布Edicho：图像编辑一致性最新成果！

文章链接：https://arxiv.org/pdf/2412.21079
项目链接：https://ezioby.github.io/edicho/

亮点直击

显式对应性引导一致性编辑：通过将显式图像对应性融入扩散模型的去噪过程，改进自注意力机制与分类器自由引导（CFG），在保持高质量的同时显著提升编辑一致性。

融合无条件嵌入特征：受 NULL-text Inversion 技术启发，提出融合无条件嵌入特征的方法，进一步增强一致性效果，实现更精细的编辑控制。

广泛适用性与优越性能：方法具有训练无关和即插即用特性，适配多种扩散模型与任务场景。通过实验验证，展现出在定量指标与定性评估上的卓越性能。

总结速览

解决的问题
跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战，尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而，现有方法在处理多图像一致性时常表现出不稳定性或失真，难以满足实际需求。

提出的方案
本文提出了一种基于扩散模型的训练无关解决方案 Edicho。其核心设计理念是通过显式图像对应性引导编辑过程，避免传统隐式对应性方法的局限性。包括：

注意力操作模块：增强注意力机制，通过图像之间的对应性引导特征传递。
优化的分类器自由引导（CFG）去噪策略：结合预计算的对应性，在编辑过程中保持高质量和一致性。

应用的技术

利用扩散模型的中间特征与生成图像空间的对齐特性，通过显式对应性指导编辑。
在注意力机制中对查询特征进行变换，从源图像借用相关特征，确保编辑一致性。
修改分类器自由引导的计算方式，融合无条件嵌入特征，提升一致性和图像质量。
特别设计处理真实世界场景图像的能力，保证方法对光照、背景、视角和遮挡变化的鲁棒性。

达到的效果

一致性提升：实现了多图像间的一致性编辑，编辑结果在各种场景下保持高度协调。
通用性：作为推理时的算法，可与大多数基于扩散的编辑方法（如 ControlNet 和 BrushNet）无缝兼容。
实用性：适用于个性化内容创作、3D重建以及一致性纹理应用，扩展了编辑工具的适用范围。
高效性：无需训练数据，具备即插即用特性，能够直接应用于实际任务，代码公开以支持进一步研究。

方法

本文专注于一致性图像编辑任务，即同时对多张图像进行操作以实现一致且统一的视觉效果。首先利用现有的视觉理解方法提取图像对之间的显式语义对应性。再借助构建于 Stable Diffusion 之上的预训练编辑模型，通过这些预计算的显式对应性指导去噪过程，从而确保编辑的一致性。

本节首先回顾扩散模型的一些基本概念，随后讨论显式对应性指导的去噪过程，该过程包括两个层次：注意力特征层和噪声隐空间变量层。需要注意的是，这些特征操作仅应用于部分去噪步骤和层级，以保留预训练模型的强生成先验。

预备知识

扩散模型是一类概率生成模型，通过逐步添加和去除噪声的过程进行训练。前向过程将噪声添加到图像中，具体如下：

在此，，表示噪声调度函数。一个神经网络被训练用于在反向去噪过程中预测添加的噪声，最终从高斯噪声中完成采样。在隐空间变量扩散模型（LDMs）的公式中，一对预训练的变分编码器和解码器用于感知压缩，并允许在该隐空间变量空间中对噪声隐空间变量进行去噪。

无分类器引导（CFG）
无分类器引导（CFG）是一种创新技术，旨在通过扩散模型在不依赖额外分类器的情况下提高生成图像的质量和多样性。具体而言，CFG 引入了一个混合系数，用于融合去噪模型生成的条件预测和无条件预测。无条件预测通常通过将条件设置为空或默认值来获得。

编辑的参考网络
最近的编辑方法 [25, 60] 通过在预训练的大型扩散模型上学习一个额外的参考网络来实现编辑，同时保持预训练骨干网络固定。这种网络拓扑结构保持的设计成功地将控制信号与预训练的生成先验分离开。

对应性比较与预测

对应性比较
为了实现一致性编辑的目标，首先从显式和隐式对应性之间的比较开始匹配。显式提取器通过单次前向过程从输入图像中预测对应性，并将此预测应用于所有目标网络层和去噪步骤。而隐式提取器则通过计算每一层和去噪步骤中注意力查询与键的相似性来预测对应性。如同之前的无训练编辑方法，这些对应性随后被应用于当前层和步骤以进行编辑。

下图2展示了使用显式和隐式方法的对应性预测结果。对于显式预测，在案例 (a) 和 (b) 中，采用了 DIFT，在案例 (c) 中使用了 Dust3R。对于隐式方法，遵循 Cross-Image-Attention 的方法，通过查询匹配图像的注意力键，基于注意力相似性计算对应性，公式为，并将具有最大相似性的对应位置进行可视化，其中和表示图像索引。

此外，对于案例 (a)、(b) 和 (c)，选择了不同的网络层和去噪步骤 (1, 10)、(2, 15)、(4, 25) 进行提取，以实现更全面的探索，其中表示扩散模型的解码器层编号和去噪步骤编号。上面图 2 中的可视化结果表明，通过显式预测获得的对应性明显比隐式方法更准确。而且，隐式方法的预测结果随着网络层和去噪步骤的变化往往变得不稳定。这些结果与之前的研究 [50, 59] 一致，表明只有生成模型的特定层或步骤适合有效的视觉理解，例如点匹配。

不准确的对应性匹配会在执行跨图像注意力时引入不准确的特征，这阻碍了仅基于隐式注意力的编辑方法的编辑一致性。这进一步强化了本文引入更稳健的显式对应性来指导去噪过程的动机。

对应性预测
为了实现图像和的一致性编辑，本文的方法的第一步是使用预训练的对应性提取器（如 [50, 55]）从输入图像中提取稳健的对应性：

其中，和分别表示提取器和对应性。实践中，提取器实例化为 DIFT 的形式。为了进一步优化效率，实施了一种策略，以避免重复计算对应性，特别是在相同的图像或图像组被多次处理的情况下。通过使用 MD5 哈希函数对每个图像组进行编码，创建一个唯一标识符。然后将标识符（键）和对应性（值）存储在一个小型数据库中，输入图像组在编辑之前首先检索该数据以加速处理。

使用对应性的注意力操作

回顾一下，在自注意力模块中，中间特征首先通过学习的投影矩阵、和投影为查询、键和值。然后，根据 [53] 的方法，通过自主计算和评估这些特征表示的相关性，可以计算注意力特征。

受显式和隐式对应性比较的启发，本文提出用显式对应性来引导自注意力，以实现一致性编辑，这种方法称为 Corr-Attention。对于输入图像中的一对，我们基于显式对应性从查询矩阵借用特征到，以形成一个新的查询矩阵：

其中，Warp 函数表示通过根据对应位置将对应的标记变换到源位置来借用特征的过程。考虑到（1）的token是从借用的，（2）为了进一步提高一致性，在编辑时查询的是而不是：

其中，表示和的维度，表示的注意力输出。通过从源头转移注意力特征，我们有效地在去噪过程中实现了编辑一致性。

无分类器引导与对应关系

为了在编辑后的图像中保持更精细的一致性，从注意力特征控制进一步着手，聚焦于无分类器引导（CFG）中的噪声隐空间变量。本文扩展了传统的 CFG 框架，通过利用显式的对应关系促进多个图像的同步编辑，并提出了 Corr-CFG。NULL-text 反演证明了优化无条件词嵌入可以实现精确的图像反演和语义编辑。受到该方法的启发，我们的主要目标是在一致性编辑过程中保留预训练模型强大的生成先验的完整性。为了实现这一点，我们提出仅在对应关系的引导下操控 CFG 框架中的无条件分支。

在 CFG 中，去噪过程被分为条件分支和无条件分支，噪声通过神经网络进行估计：

其中，表示条件（文本提示），表示空文本。具体来说，我们修改了的无条件噪声部分，并在去噪过程中将中的信息合并到其中，从而确保一致的编辑。

其中，表示融合函数，用于对齐无条件噪声，表示时间步长。

这里的和是可调参数。函数表示在的部分范围内随机选择的隐空间变量，并将其注入到中。最后，像先前的范式一样应用引导，并融合条件和无条件预测。

其中表示引导尺度。最终生成的隐空间变量将发送到VAE解码器，以解码为图像。

实验

实验设置

设置：使用Stable Diffusion 作为基础模型，并采用BrushNet 和ControlNet 作为编辑的参考网络。采用DDIM调度器，并进行50步的去噪。默认情况下，提出的基于对应关系的去噪策略应用于第4步到第40步，并从第8个注意力层开始应用，以确保一致性并保持强大的生成先验。需要注意的是，在使用不同基础模型时，这些选择的最优设置可能有所不同。测试样本部分来自互联网，其他样本来自DreamBooth和Custom Diffusion的数据集。

评估指标：遵循Custom Diffusion的方法，采用流行的多模态模型CLIP来评估各种方法在文本对齐（TA）和编辑一致性（EC）方面的表现。具体来说，一方面，通过计算目标提示和模型输出的特征相似度来判断文本对齐；另一方面，通过计算编辑图像的特征相似度来评估编辑一致性。此外，还纳入了用户研究（US）来进一步评估实际应用性和用户满意度。

基准：包含了局部和全局编辑任务，并且与众多先前的图像编辑方法进行了全面对比。具体来说，对于局部编辑任务，包括了Adobe Firefly 、Anydoor和Paint-by-Example等先前的工作进行比较。

在上述方法中，Firefly是Adobe开发的最先进的商业图像修复工具，可以根据给定的文本提示重新绘制输入图像的局部区域。为了实现一致的编辑任务，该组图像将根据相同的详细提示进行修复。Anydoor和Paint-by-example都是支持根据给定参考图像重新绘制目标区域的隐空间变量扩散模型（LDM）。因此，我们将修复后的图像发送给这些模型作为参考，期望得到一致的编辑结果。

对于全局编辑，将本文的方案与MasaCtrl、StyleAlign和Cross-image attention进行比较。上述方法通过操作和融合来自不同源的注意力特征来实现编辑。与本文的方法不同，它们通过计算注意力权重中的隐式对应关系来确保编辑结果的一致性。

评估

定性结果：本文展示了对一致性编辑方法的定性评估，重点关注局部编辑（图像修复）和全局编辑（图像转换）。在下图4中的局部编辑比较中，本文的方法、Adobe Firefly (AF)、Anydoor (AD)和Paint-by-Example (PBE)的结果进行了展示。结果表明，本文的方法通过引入显式的对应关系，始终保持了输入图像在不同修改下的完整性，包括衣物纹理、面罩和领口外观，甚至鞋子的孔眼数量。

全局编辑的基准主要包括仅由隐式注意力预测的方案——MasaCtrl (MC)、StyleAligned (SA)和Cross-Image-Attention (CIA)。如下图5所示，本文的方法也在编辑过程中取得了更好的一致性和主题一致性，如猫的裙子。与之相比，隐式方法（如MasaCtrl）在汽车车顶、精灵的高领以及机器人的孔洞数量方面未能实现一致的编辑。

定量结果：对本文提出的方法进行了全面的定量评估，重点关注文本对齐（TA）和编辑一致性（EC）指标。正如下表1所示，在局部编辑任务中，本文的方法在TA和EC得分上均取得了最佳成绩，展示了相较于其他方法的显著改进。在全局编辑任务中，本文的方法继续超越其他对比方法，达到了0.3228的TA得分和0.9355的EC得分。这些结果清楚地证明了本文的方法在实现局部和全局编辑场景中的高文本对齐和编辑一致性方面的有效性。

消融实验

为了验证所提出的基于对应关系的注意力操作（Corr-Attention）和基于对应关系的CFG（Corr-CFG）的有效性，我们通过分别禁用其中一个方法，并在一致性编辑任务上进行测试来进行消融实验。当禁用所提出的基于对应关系的注意力操作（Corr-Attention）时，扩散模型依赖于隐式注意力对应关系来保持一致性，类似于之前的方法[1,7]。如下图6(a)所示，生成模型会产生错误数量的花朵，并且位置不当。花朵的数量和纹理的不一致证明了引入显式对应关系到注意力操作中的有效性。

基于对应关系的CFG（Corr-CFG）旨在通过在LDM的潜空间中进行更精细的一致性控制，这一点在图6(b)中得到了验证，Corr-CFG生成了更一致的花朵纹理和碗底的条纹。

额外的应用和结果

基于一致性编辑的定制化：为了进一步展示所提方法的实际应用，我们展示了一个集成DreamBooth和低秩适应（LoRA）技术的定制化图像生成应用示例。利用我们方法生成的编辑输出，我们采用DreamBooth对生成模型进行500步的微调，以进行概念注入。同时，我们还整合了LoRA技术，通过引入低秩矩阵作为适应参数，进一步提高了这一过程的效率。如下图7所示，微调后的生成模型能够生成与编辑对应的理想图像。因此，新的概念生成和概念编辑可以通过这种方式实现，成为一致性编辑的应用示例。

基于一致性编辑的3D重建：一致性编辑还能够促进编辑内容的3D重建。我们通过神经回归器实现了3D重建，该回归器能够根据一致的图像对预测准确的3D场景表示。以编辑后的图像为输入，学习到的神经回归器能够预测3D点云模型和2D匹配点，而不需要其他输入，如相机参数。重建和匹配结果如下图8所示，结果也进一步表明了我们方法的编辑一致性。该回归器分别为两组编辑获取了11,515对和13,800对匹配点，且仅展示了其中的一部分以便清晰理解。