即插即用,无缝集成各种模型,港科大蚂蚁等发布Edicho:图像编辑一致性最新成果!

文章链接:https://arxiv.org/pdf/2412.21079
项目链接:https://ezioby.github.io/edicho/

亮点直击

  • 显式对应性引导一致性编辑:通过将显式图像对应性融入扩散模型的去噪过程,改进自注意力机制与分类器自由引导(CFG),在保持高质量的同时显著提升编辑一致性。

  • 融合无条件嵌入特征:受 NULL-text Inversion 技术启发,提出融合无条件嵌入特征的方法,进一步增强一致性效果,实现更精细的编辑控制。

  • 广泛适用性与优越性能:方法具有训练无关和即插即用特性,适配多种扩散模型与任务场景。通过实验验证,展现出在定量指标与定性评估上的卓越性能。

总结速览

解决的问题
跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战,尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而,现有方法在处理多图像一致性时常表现出不稳定性或失真,难以满足实际需求。

提出的方案
本文提出了一种基于扩散模型的训练无关解决方案 Edicho。其核心设计理念是通过显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。包括:

  • 注意力操作模块:增强注意力机制,通过图像之间的对应性引导特征传递。

  • 优化的分类器自由引导(CFG)去噪策略:结合预计算的对应性,在编辑过程中保持高质量和一致性。

应用的技术

  • 利用扩散模型的中间特征与生成图像空间的对齐特性,通过显式对应性指导编辑。

  • 在注意力机制中对查询特征进行变换,从源图像借用相关特征,确保编辑一致性。

  • 修改分类器自由引导的计算方式,融合无条件嵌入特征,提升一致性和图像质量。

  • 特别设计处理真实世界场景图像的能力,保证方法对光照、背景、视角和遮挡变化的鲁棒性。

达到的效果

  • 一致性提升:实现了多图像间的一致性编辑,编辑结果在各种场景下保持高度协调。

  • 通用性:作为推理时的算法,可与大多数基于扩散的编辑方法(如 ControlNet 和 BrushNet)无缝兼容。

  • 实用性:适用于个性化内容创作、3D重建以及一致性纹理应用,扩展了编辑工具的适用范围。

  • 高效性:无需训练数据,具备即插即用特性,能够直接应用于实际任务,代码公开以支持进一步研究。

方法

本文专注于一致性图像编辑任务,即同时对多张图像进行操作以实现一致且统一的视觉效果。首先利用现有的视觉理解方法提取图像对之间的显式语义对应性。再借助构建于 Stable Diffusion 之上的预训练编辑模型,通过这些预计算的显式对应性指导去噪过程,从而确保编辑的一致性。

本节首先回顾扩散模型的一些基本概念,随后讨论显式对应性指导的去噪过程,该过程包括两个层次:注意力特征层和噪声隐空间变量层。需要注意的是,这些特征操作仅应用于部分去噪步骤和层级,以保留预训练模型的强生成先验。

预备知识

扩散模型是一类概率生成模型,通过逐步添加和去除噪声的过程进行训练。前向过程将噪声添加到图像中,具体如下:

在此,, 表示噪声调度函数。一个神经网络 被训练用于在反向去噪过程中预测添加的噪声 ,最终从高斯噪声 中完成采样。在隐空间变量扩散模型(LDMs)的公式中,一对预训练的变分编码器 和解码器 用于感知压缩,并允许在该隐空间变量空间中对噪声隐空间变量 进行去噪。

无分类器引导(CFG)
无分类器引导(CFG)是一种创新技术,旨在通过扩散模型在不依赖额外分类器的情况下提高生成图像的质量和多样性。具体而言,CFG 引入了一个混合系数,用于融合去噪模型生成的条件预测和无条件预测。无条件预测通常通过将条件设置为空或默认值来获得。

编辑的参考网络
最近的编辑方法 [25, 60] 通过在预训练的大型扩散模型上学习一个额外的参考网络来实现编辑,同时保持预训练骨干网络固定。这种网络拓扑结构保持的设计成功地将控制信号与预训练的生成先验分离开。

对应性比较与预测

对应性比较
为了实现一致性编辑的目标,首先从显式和隐式对应性之间的比较开始匹配。显式提取器通过单次前向过程从输入图像中预测对应性,并将此预测应用于所有目标网络层和去噪步骤。而隐式提取器则通过计算每一层和去噪步骤中注意力查询与键的相似性来预测对应性。如同之前的无训练编辑方法,这些对应性随后被应用于当前层和步骤以进行编辑。

下图2展示了使用显式和隐式方法的对应性预测结果。对于显式预测,在案例 (a) 和 (b) 中,采用了 DIFT,在案例 (c) 中使用了 Dust3R。对于隐式方法,遵循 Cross-Image-Attention 的方法,通过查询匹配图像的注意力键,基于注意力相似性计算对应性,公式为 ,并将具有最大相似性的对应位置进行可视化,其中 和 表示图像索引。

此外,对于案例 (a)、(b) 和 (c),选择了不同的网络层和去噪步骤 (1, 10)、(2, 15)、(4, 25) 进行提取,以实现更全面的探索,其中 表示扩散模型的解码器层编号和去噪步骤编号。上面图 2 中的可视化结果表明,通过显式预测获得的对应性明显比隐式方法更准确。而且,隐式方法的预测结果随着网络层和去噪步骤的变化往往变得不稳定。这些结果与之前的研究 [50, 59] 一致,表明只有生成模型的特定层或步骤适合有效的视觉理解,例如点匹配。

不准确的对应性匹配会在执行跨图像注意力时引入不准确的特征,这阻碍了仅基于隐式注意力的编辑方法的编辑一致性。这进一步强化了本文引入更稳健的显式对应性来指导去噪过程的动机。

对应性预测
为了实现图像 和 的一致性编辑,本文的方法的第一步是使用预训练的对应性提取器(如 [50, 55])从输入图像中提取稳健的对应性:

其中, 和 分别表示提取器和对应性。实践中,提取器实例化为 DIFT 的形式。为了进一步优化效率,实施了一种策略,以避免重复计算对应性,特别是在相同的图像或图像组被多次处理的情况下。通过使用 MD5 哈希函数对每个图像组进行编码,创建一个唯一标识符。然后将标识符(键)和对应性(值)存储在一个小型数据库中,输入图像组在编辑之前首先检索该数据以加速处理。

使用对应性的注意力操作

回顾一下,在自注意力模块中,中间特征 首先通过学习的投影矩阵 、 和 投影为查询 、键 和值 。然后,根据 [53] 的方法,通过自主计算和评估这些特征表示的相关性,可以计算注意力特征 。

受显式和隐式对应性比较的启发,本文提出用显式对应性来引导自注意力,以实现一致性编辑,这种方法称为 Corr-Attention。对于输入图像中的一对 ,我们基于显式对应性从查询矩阵 借用特征到 ,以形成一个新的查询矩阵 :

其中,Warp 函数表示通过根据对应位置将对应的标记变换到源位置来借用特征的过程。考虑到(1) 的token是从 借用的,(2)为了进一步提高一致性,在编辑 时查询的是 而不是 :

其中, 表示 和 的维度, 表示 的注意力输出。通过从源头转移注意力特征,我们有效地在去噪过程中实现了编辑一致性。

无分类器引导与对应关系

为了在编辑后的图像中保持更精细的一致性,从注意力特征控制进一步着手,聚焦于无分类器引导(CFG) 中的噪声隐空间变量。本文扩展了传统的 CFG 框架,通过利用显式的对应关系促进多个图像的同步编辑,并提出了 Corr-CFG。NULL-text 反演 证明了优化无条件词嵌入可以实现精确的图像反演和语义编辑。受到该方法的启发,我们的主要目标是在一致性编辑过程中保留预训练模型强大的生成先验的完整性。为了实现这一点,我们提出仅在对应关系的引导下操控 CFG 框架中的无条件分支 。

在 CFG 中,去噪过程被分为条件分支和无条件分支,噪声通过神经网络 进行估计:

其中, 表示条件(文本提示), 表示空文本。具体来说,我们修改了 的无条件噪声部分,并在去噪过程中将 中的信息合并到其中,从而确保一致的编辑。

其中, 表示融合函数,用于对齐无条件噪声, 表示时间步长。

这里的和是可调参数。函数表示在的部分范围内随机选择的隐空间变量,并将其注入到中。最后,像先前的范式一样应用引导,并融合条件和无条件预测。

其中表示引导尺度。最终生成的隐空间变量将发送到VAE解码器,以解码为图像。

实验

实验设置

设置:使用Stable Diffusion 作为基础模型,并采用BrushNet 和ControlNet 作为编辑的参考网络。采用DDIM调度器,并进行50步的去噪。默认情况下,提出的基于对应关系的去噪策略应用于第4步到第40步,并从第8个注意力层开始应用,以确保一致性并保持强大的生成先验。需要注意的是,在使用不同基础模型时,这些选择的最优设置可能有所不同。测试样本部分来自互联网,其他样本来自DreamBooth和Custom Diffusion的数据集。

评估指标:遵循Custom Diffusion的方法,采用流行的多模态模型CLIP来评估各种方法在文本对齐(TA)和编辑一致性(EC)方面的表现。具体来说,一方面,通过计算目标提示和模型输出的特征相似度来判断文本对齐;另一方面,通过计算编辑图像的特征相似度来评估编辑一致性。此外,还纳入了用户研究(US)来进一步评估实际应用性和用户满意度。

基准:包含了局部和全局编辑任务,并且与众多先前的图像编辑方法进行了全面对比。具体来说,对于局部编辑任务,包括了Adobe Firefly 、Anydoor和Paint-by-Example等先前的工作进行比较。

在上述方法中,Firefly是Adobe开发的最先进的商业图像修复工具,可以根据给定的文本提示重新绘制输入图像的局部区域。为了实现一致的编辑任务,该组图像将根据相同的详细提示进行修复。Anydoor和Paint-by-example都是支持根据给定参考图像重新绘制目标区域的隐空间变量扩散模型(LDM)。因此,我们将修复后的图像发送给这些模型作为参考,期望得到一致的编辑结果。

对于全局编辑,将本文的方案与MasaCtrl、StyleAlign和Cross-image attention进行比较。上述方法通过操作和融合来自不同源的注意力特征来实现编辑。与本文的方法不同,它们通过计算注意力权重中的隐式对应关系来确保编辑结果的一致性。

评估

定性结果:本文展示了对一致性编辑方法的定性评估,重点关注局部编辑(图像修复)和全局编辑(图像转换)。在下图4中的局部编辑比较中,本文的方法、Adobe Firefly (AF)、Anydoor (AD)和Paint-by-Example (PBE)的结果进行了展示。结果表明,本文的方法通过引入显式的对应关系,始终保持了输入图像在不同修改下的完整性,包括衣物纹理、面罩和领口外观,甚至鞋子的孔眼数量。

全局编辑的基准主要包括仅由隐式注意力预测的方案——MasaCtrl (MC)、StyleAligned (SA)和Cross-Image-Attention (CIA)。如下图5所示,本文的方法也在编辑过程中取得了更好的一致性和主题一致性,如猫的裙子。与之相比,隐式方法(如MasaCtrl)在汽车车顶、精灵的高领以及机器人的孔洞数量方面未能实现一致的编辑。

定量结果:对本文提出的方法进行了全面的定量评估,重点关注文本对齐(TA)和编辑一致性(EC)指标。正如下表1所示,在局部编辑任务中,本文的方法在TA和EC得分上均取得了最佳成绩,展示了相较于其他方法的显著改进。在全局编辑任务中,本文的方法继续超越其他对比方法,达到了0.3228的TA得分和0.9355的EC得分。这些结果清楚地证明了本文的方法在实现局部和全局编辑场景中的高文本对齐和编辑一致性方面的有效性。

消融实验

为了验证所提出的基于对应关系的注意力操作(Corr-Attention)和基于对应关系的CFG(Corr-CFG)的有效性,我们通过分别禁用其中一个方法,并在一致性编辑任务上进行测试来进行消融实验。当禁用所提出的基于对应关系的注意力操作(Corr-Attention)时,扩散模型依赖于隐式注意力对应关系来保持一致性,类似于之前的方法[1,7]。如下图6(a)所示,生成模型会产生错误数量的花朵,并且位置不当。花朵的数量和纹理的不一致证明了引入显式对应关系到注意力操作中的有效性。

基于对应关系的CFG(Corr-CFG)旨在通过在LDM的潜空间中进行更精细的一致性控制,这一点在图6(b)中得到了验证,Corr-CFG生成了更一致的花朵纹理和碗底的条纹。

额外的应用和结果

基于一致性编辑的定制化:为了进一步展示所提方法的实际应用,我们展示了一个集成DreamBooth和低秩适应(LoRA)技术的定制化图像生成应用示例。利用我们方法生成的编辑输出,我们采用DreamBooth对生成模型进行500步的微调,以进行概念注入。同时,我们还整合了LoRA技术,通过引入低秩矩阵作为适应参数,进一步提高了这一过程的效率。如下图7所示,微调后的生成模型能够生成与编辑对应的理想图像。因此,新的概念生成和概念编辑可以通过这种方式实现,成为一致性编辑的应用示例。

基于一致性编辑的3D重建:一致性编辑还能够促进编辑内容的3D重建。我们通过神经回归器实现了3D重建,该回归器能够根据一致的图像对预测准确的3D场景表示。以编辑后的图像为输入,学习到的神经回归器能够预测3D点云模型和2D匹配点,而不需要其他输入,如相机参数。重建和匹配结果如下图8所示,结果也进一步表明了我们方法的编辑一致性。该回归器分别为两组编辑获取了11,515对和13,800对匹配点,且仅展示了其中的一部分以便清晰理解。

额外结果:我们提供了通过所提方法实现的多图像修复和转换的多样结果,如下图9(a)和(b)所示。图9(c)展示了包含三张图像的图像集的编辑结果。

结论

本文提出了Edicho,一种新颖的免训练的方法,通过利用不同图像之间的显式对应关系,实现一致性的图像编辑。本文的方法通过将对应关系信息整合到去噪过程中,增强了自注意力机制和无分类器引导计算,从而确保了编辑的一致性。方法的即插即用特性使其能够无缝集成到各种模型中,且适用于广泛的任务。

在局限性方面,有时由于对应关系的错位,生成的纹理可能不一致,预计随着更好的对应关系提取器的出现,这一问题能够得到改进。并且,由于继承了预训练的编辑模型,偶尔会生成失真纹理。

参考文献

[1] Edicho: Consistent Image Editing in the Wild

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/951303.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

福建双色荷花提取颜色

提取指定颜色 HSV双色荷花代码验证 参照《OpenCV图像处理技术》 HSV 要用HSV的色调、饱和度和亮度来提取指定颜色。 双色荷花 农林大学金山校区观音湖 代码 import cv2 import numpy as npimgcv2.imread("./sucai6/hua.jpg") cv2.imshow("SRC",img) h…

关于重构一点简单想法

关于重构一点简单想法 当前工作的组内,由于业务开启的时间正好处于集团php-》go技术栈全面迁移的时间点,组内语言技术栈存在:php、go两套。 因此需求开发过程中通常要考虑两套技术栈的逻辑,一些基础的逻辑也没有办法复用。 在这…

【操作系统】课程 7设备管理 同步测练 章节测验

7.1知识点导图 它详细地展示了I/O系统的层次结构、I/O硬件和软件的组成以及它们的功能。下面是对图中内容的文字整理: I/O设备分类 按使用特性分类 输入设备:键盘、鼠标等输出设备:打印机、绘图仪等交互式设备:显示器等 按传输速率…

用 Python 绘制可爱的招财猫

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​​​ ​​​​​​​​​ ​​​​ 招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常…

【Vue.js 组件化】高效组件管理与自动化实践指南

文章目录 摘要引言组件命名规范与组织结构命名规范目录组织 依赖管理工具自动化组件文档生成构建自动引入和文档生成的组件化体系代码结构自动引入组件配置使用 Storybook 展示组件文档自动生成 代码详解QA 环节总结参考资料 摘要 在现代前端开发中,组件化管理是 V…

4.5 在C++节点中使用参数

本节沿用之前4.3 节小海龟控制例子。 4.5.1 参数声明与设置 打开src/demo_cpp_service/src/turtle_control.cpp文件 添加测试代码 this->declare_parameter("k",1.0);this->declare_parameter("max_speed",1.0);this->get_parameter("k&q…

Java agent

‌ Java Agent是一种特殊的Java程序,它可以在JVM启动时或运行时动态加载,用于监控和修改其他Java应用程序的行为‌。通过Java Agent,开发者可以在不修改目标应用程序源码的情况下,动态地插入功能,如性能分析、日志记录…

Cannot run program “docker“: CreateProcess error=2,系统找不到指定的文件

今天被这个问题坑了, 网上教程全是直接装插件就行 ,结果我连接可以成功 但是执行docker compose 就会出错, 检测配置 报错com.intellil,execution,process.ProcessNotCreatedException: Cannot run program “docker”: CreateProcess error2,系统找不到指定的文件 gpt 要我去…

二、模型训练与优化(4):模型优化-实操

下面我将以 MNIST 手写数字识别模型为例,从 剪枝 (Pruning) 和 量化 (Quantization) 两个常用方法出发,提供一套可实际动手操作的模型优化流程。此示例基于 TensorFlow/Keras 环境,示范如何先训练一个基础模型,然后对其进行剪枝和…

免费图片批量压缩工具-支持批量修改分辨率

工作需求,需要支持修改分辨率上限的同时进行图片压缩,设计此工具。 1.支持批量文件夹、子文件 2.支持最大分辨率上限(高于设定分辨率的图片,强制修改为指定分辨率,解决大图的关键) 3.自定义压缩质量&#x…

Github上传项目

写在前面: 本次博客仅仅是个人学习记录,不具备教学作用。内容整理来自网络,太多了,所以就不放来源了。 在github页面的准备: 输入标题。 往下滑,创建 创建后会跳出下面的页面 进入home就可以看到我们刚…

并发编程 之 Java内存模型(详解)

Java 内存模型(JMM,Java Memory Model)可以说是并发编程的基础,跟众所周知的Java内存区域(堆、栈、程序计数器等)并不是一个层次的划分; JMM用来屏蔽各种硬件和操作系统的内存访问差异,以实现让Java程序在各…

[QCustomPlot] 交互示例 Interaction Example

本文是官方例子的分析: Interaction Example 推荐笔记: qcustomplot使用教程–基本绘图 推荐笔记: 4.QCustomPlot使用-坐标轴常用属性 官方例子需要用到很多槽函数, 这里先一次性列举, 自行加入到qt的.h中.下面开始从简单的开始一个个分析. void qcustomplot_main_init(void); …

WPF控件Grid的布局和C1FlexGrid的多选应用

使用 Grid.Column和Grid.Row布局,将多个C1FlexGrid布局其中,使用各种事件来达到所需效果,点击复选框可以加载数据到列表,移除列表的数据,自动取消复选框等 移除复选框的要注意!!!&am…

04、Redis深入数据结构

一、简单动态字符串SDS 无论是Redis中的key还是value,其基础数据类型都是字符串。如,Hash型value的field与value的类型,List型,Set型,ZSet型value的元素的类型等都是字符串。redis没有使用传统C中的字符串而是自定义了…

生物医学信号处理--随机信号的数字特征

前言 概率密度函数完整地表现了随机变量和随机过程的统计性质。但是信号经处理后再求其概率密度函数往往较难,而且往往也并不需要完整地了解随机变量或过程的全部统计性质只要了解其某些特定方面即可。这时就可以引用几个数值来表示该变量或过程在这几方面的特征。…

LabVIEW数据库管理系统

LabVIEW数据库管理系统(DBMS)是一种集成了数据库技术与数据采集、控制系统的解决方案。通过LabVIEW的强大图形化编程环境,结合数据库的高效数据存储与管理能力,开发人员可以实现高效的数据交互、存储、查询、更新和报告生成。LabV…

合并模型带来的更好性能

研究背景与问题提出 在人工智能领域,当需要处理多个不同任务时,有多种方式来运用模型资源。其中,合并多个微调模型是一种成本效益相对较高的做法,相较于托管多个专门针对不同任务设计的模型,能节省一定成本。然而&…

Virgo:增强慢思考推理能力的多模态大语言模型

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

本地缓存:Guava Cache

这里写目录标题 一、范例二、应用场景三、加载1、CacheLoader2、Callable3、显式插入 四、过期策略1、基于容量的过期策略2、基于时间的过期策略3、基于引用的过期策略 五、显示清除六、移除监听器六、清理什么时候发生七、刷新八、支持更新锁定能力 一、范例 LoadingCache<…