图像编辑技术的新篇章:基于扩散模型的综述

在人工智能的浪潮中,图像编辑技术正经历着前所未有的变革。随着数字媒体、广告、娱乐和科学研究等领域对高质量图像编辑需求的不断增长,传统的图像编辑方法已逐渐无法满足日益复杂的视觉内容创作需求。尤其是在AI生成内容(AIGC)的背景下,如何利用人工智能技术对图像进行高效、精准的编辑,已成为当前研究的热点问题。尽管基于学习算法的图像编辑技术取得了显著进展,但仍存在诸多挑战,例如模型的泛化能力、编辑的自然性、以及用户意图的准确捕捉等。此外,现有的图像编辑方法往往需要大量的训练数据和计算资源,这在实际应用中可能并不总是可行。为了克服这些问题,本文将重点探讨一种新兴的图像编辑技术——基于扩散模型的图像编辑方法。

基于扩散模型的图像编辑研究出版物的统计概览,分为三个部分:学习策略(Top)、输入条件(Middle)、编辑任务(Bottom)

什么是扩散模型?

扩散模型,作为生成人工智能领域的一项突破性技术,其灵感来源于非平衡热力学的原理。这些模型通过逐步向数据样本中添加噪声,将它们从原始分布转换为预定义的、通常更简单的分布,如高斯分布,然后通过迭代过程逆转这一过程,以生成与原始数据分布相匹配的数据。与传统的生成模型相比,扩散模型的特点是它们在迭代时间步骤中动态执行,涵盖前向和后向的时间运动。

这种模型的前向扩散过程将数据分布转换为高斯分布,而反向扩散过程的目标是学习前向过程的逆过程,以生成与原始未修改数据样本紧密对齐的分布。优化策略涉及最小化前向和后向序列的联合分布之间的Kullback-Leibler散度,这为模型提供了一个变分界限,用于指导学习过程中的参数更新。扩散模型还能够通过特定的反转方案将真实图像反转到相应的噪声潜在空间,为图像编辑提供了强大的基础。

图像编辑的分类

图像编辑任务可以根据编辑的性质被分为语义编辑、风格编辑和结构编辑三大类。图像编辑任务的分类反映了编辑目标的不同层面,指导了模型的设计和应用策略。

语义编辑关注于图像内容和叙述的实质性改变。这类任务包括在图像中添加或移除对象、替换现有元素、更改背景以及调整图像中的情感表达。例如,用户可能希望在风景照片中添加一只飞鸟,或者从集体照片中移除某个人物。这些编辑直接影响到图像所讲述的故事和传达的情境。

风格编辑着重于图像的视觉风格和审美特征的调整。这种编辑不改变图像的基本内容,而是改变其艺术表现形式,如色彩、纹理或整体风格。用户可能想要将一幅风景画转换为梵高风格的画作,或者改变一张照片的色调以匹配特定的情绪氛围。

结构编辑涉及对图像中元素的空间排列、位置、视点和特性的改动。这类编辑强调场景中对象的组织和展示方式,如移动对象位置、改变对象的大小和形状、调整对象的姿态或视角。例如,用户可能希望在室内场景中重新布置家具,或者改变建筑物的视角以展现不同的外观。

这种多维度的分类不仅帮助我们理解图像编辑的不同需求,也为扩散模型的应用提供了一个清晰的框架。通过深入分析这些类别,我们可以更准确地评估和设计扩散模型的性能,确保它们能够满足不同编辑任务的特定需求。

基于扩散模型的图像编辑方法的全面分类,从多个角度(如训练、测试时微调、无需训练和微调)对方法进行了颜色编码,并列出输入条件和任务能力

基于训练的方法

基于训练的方法在扩散模型的图像编辑中占据显著地位,这些方法通过稳定训练扩散模型和有效建模数据分布,为多种编辑任务提供可靠性能。具体可以分为几类:弱监督下的领域特定编辑、自监督的参考和属性引导、全监督的指令性编辑以及弱监督的伪目标检索。

基于训练的图像编辑方法的分类

弱监督下的领域特定编辑策略针对特定领域的小规模数据集进行训练,以解决大规模数据集训练资源消耗大的问题。例如,在处理人脸或特定动物图像的数据集时,研究者们通过弱监督的方式,即不需要精确的标签信息,而是利用数据集中的固有结构,来训练模型识别和编辑图像。这种方法使得模型能够在资源有限的情况下学习到有效的编辑策略。

两种代表性的CLIP引导方法DiffusionCLIP和Asyrp的训练流程的对比

通过自监督的参考和属性引导方法,研究者们开发了一种无需外部标注信息的机制,直接从图像本身提取参考和属性信息作为训练条件。例如,通过使用图像中的某个区域作为参考,模型学习如何根据这个参考合成或编辑图像的其他部分。这种方法充分利用了图像内部的结构信息,提高了模型的自适应性和灵活性。

全监督下的教学式编辑策略采用了一种更接近人类交流方式的指令来引导编辑过程。与传统的基于描述的编辑不同,这种策略使用直接的指令,如“去除帽子”或“改变天空颜色”,来告诉模型需要执行的具体操作。这种方式使得用户可以更自然、直观地与模型交互,提高了编辑过程的准确性和可控性。

指令式图像编辑方法的通用框架,说明了不同组件如何协同工作以根据指令编辑图像

弱监督下的伪目标检索方法面对的挑战是如何在缺乏精确编辑结果的情况下训练模型。这类方法通过检索最符合指令描述的图像作为伪目标,或者使用CLIP模型的评分作为优化目标,来指导模型的学习过程。这种方法允许模型在没有明确编辑结果的情况下,通过学习如何更好地接近目标描述来进行优化。

这些基于训练的方法展示了扩散模型在图像编辑任务上的多样性和适应性,它们通过不同的监督策略,实现了从简单到复杂的各种编辑任务,极大地扩展了图像编辑的可能性和应用范围。随着这些方法的不断发展和完善,未来的图像编辑技术将更加精准、高效,并能更好地满足用户的个性化需求。

测试时微调方法

在图像编辑的领域,测试时微调方法提供了一种在模型部署后进一步提升性能的策略。这些方法在模型的推理阶段对模型进行微调,以适应特定的编辑任务和用户需求。

测试时微调框架及其不同的微调组件,说明了在图像编辑中如何应用这些组件

去噪模型微调是最直接的一种测试时微调方法。通过在特定的图像或图像集合上微调整个去噪网络,可以使模型更好地学习图像的特征,并更准确地响应文本提示或编辑指令。例如,UniTune和Custom-Edit等方法通过在单个基础图像上微调扩散模型,鼓励模型生成与基础图像相似的图像,同时在采样阶段使用修改过的采样过程,以平衡对基础图像的忠实度和对编辑指令的对齐。

嵌入微调则专注于优化文本或空文本嵌入,以更好地整合嵌入与生成过程,实现更精确的编辑结果。空文本嵌入微调的目标是解决DDIM反转中的重建失败问题,通过在采样过程中微调空文本嵌入,减少采样轨迹与反转轨迹之间的距离,从而提高重建性能。而文本嵌入微调则通过优化从输入文本派生的嵌入,使编辑后的图像更符合条件特征。

超网络引导的方法通过引入一个自定义网络,来更好地符合特定的编辑意图。例如,StyleDiffusion和InST等方法使用映射网络或多层交叉注意力机制,将输入图像的特征映射到与文本提示嵌入空间对齐的嵌入空间,从而实现文本-图像交互。

潜在变量优化是另一种微调技术,它直接优化图像的潜在变量,而不是优化生成器的参数或嵌入的条件参数。这种方法通过引入特定的损失函数和中间层的特征,使用预训练的扩散模型执行图像翻译,而无需成对的训练数据。

混合微调结合了上述各种微调方法,可以是顺序的,也可以是同时进行的集成工作流程。这种复合微调方法可以实现针对性和有效的图像编辑。例如,Imagic和LayerDiffusion等方法通过结合文本嵌入优化和去噪模型微调,提高了模型在图像重建和编辑方面的性能。

测试时微调方法的分类

测试时微调方法为扩散模型提供了一种灵活的改进途径,可以根据具体的应用场景和用户需求,快速调整模型的行为,实现更加精细和个性化的图像编辑效果。随着这些技术的不断发展,未来的图像编辑工具将更加智能和适应性强。

无需训练和微调的方法

在图像编辑技术的发展中,无需训练和微调的方法代表了一种快速且成本效益高的范式,因为它们避免了在编辑过程中对模型进行时间和资源密集型的训练或微调。这些方法直接利用预训练模型的潜力,通过不同的策略实现对图像的精确编辑。

无需训练和微调的图像编辑方法的分类

输入文本优化标志着在图像编辑领域中,文本到图像翻译机制的重要进步。这种方法通过改善文本嵌入和简化用户输入,确保图像的修改既准确又符合上下文。它允许概念性的修改和直观的用户指令,消除了对复杂模型修改的需求。例如,通过利用扩散先验模型来执行CLIP图像嵌入空间中的概念编辑,可以实现更细腻和上下文感知的图像编辑。

反转/采样修改是无需训练和微调方法中常用的技术。这些方法通过修改反转和采样公式来改善重建能力。例如,直接反转方法通过改变源提示到目标提示来编辑真实图像,展示了处理多样化任务的能力。尽管如此,它仍然面临重建失败的问题,因此出现了多种方法来改进反转和采样公式,以提高重建性能。

注意力修改方法通过增强注意力层中的操作来增强图像编辑。这些方法通过识别并利用注意力层中的固有原理,然后通过修改注意力操作来进行编辑。例如,P2P方法通过识别交叉注意力层在控制图像布局和提示词空间关系中的关键作用,提供了一个仅依赖于文本输入的直观提示到提示编辑框架。

掩码引导在基于扩散的图像编辑中代表了一种增强图像编辑的技术。这些方法使用掩码来增强去噪效率,通过选择性处理图像区域来有效减少计算需求并提高整体效率。掩码增强的去噪效率方法通过利用掩码在交叉注意力层中引导特定区域的编辑,从而提高编辑的精度和速度。

多噪声重定向是预测不同方向的多个噪声,然后将它们重定向到单个噪声的过程。这种方法的优势在于能够使单个噪声统一多个不同的编辑方向,从而更有效地满足用户的编辑需求。例如,通过语义引导的噪声重定向方法,可以在采样过程中更精细地控制图像内容。

无需训练和微调方法的通用框架,说明了不同修改如何应用于扩散模型以实现图像编辑

这些无需训练和微调的方法,以其灵活性和高效性,在图像编辑领域中展现出巨大的潜力。它们为用户提供了一种快速实现个性化图像编辑的途径,同时为研究人员提供了探索新的可能性和创新应用的空间。

图像修复和扩展

图像修复和扩展是图像编辑中的两个重要子领域,它们专注于填补图像中的缺失部分或扩展图像的边界,以创造出无缝的视觉效果。

视觉上比较了传统的基于上下文的修复(顶部)和多模态条件修复(底部),展示了两种方法的样本

传统基于上下文的修复:基于监督训练的修复方法和零样本学习方法。在监督训练中,模型通过成对的损坏和完整图像进行学习,以掌握如何根据图像的上下文信息填补缺失区域。例如,Palette模型通过条件扩散模型来处理图像到图像的转换任务,它使用低质量参考图像与去噪结果的直接连接作为噪声预测的条件。而在零样本学习中,模型尝试从未损坏的图像部分提取结构和纹理,以补充缺失区域的内容,保持全局内容的一致性。这种方法不需要成对的训练数据,而是依赖于模型对图像内容的内在理解。

多模态条件修复 :即使用随机掩码训练和精确控制条件的方法。这些方法通过引入用户指定的多模态条件,如文本描述、分割图或参考图像,来指导修复过程。例如,GLIDE和Stable Diffusion等模型通过随机生成的掩码以及掩码图像和完整图像的描述进行训练,使模型能够利用未掩码区域的信息。为了提供更精确的控制,一些方法如SmartBrush和Imagen Editor通过引入精度因子或使用对象检测器生成的掩码,来实现对修复内容的精确控制。

多模态条件修复的另一个重要方向是利用预训练的扩散模型,通过整合各种技术来处理特定的修复任务。例如,Blended Diffusion和Inpaint Anything等模型通过结合CLIP计算和预训练的扩散模型,实现了在用户界面友好性和灵活性方面的显著提升。

评估

在任务选择方面,研究者们根据现有方法的能力精心挑选了一系列编辑任务。这些任务覆盖了从简单的对象编辑到复杂的场景变化,旨在全面考察不同图像编辑方法的性能。

在数据集构建上,研究团队精选了一系列高质量的图像。为每张图像配备了详尽的源文本描述、目标描述以及编辑指令,这样做的目的是为了确保评估过程中的多样性和适用性,让评估结果更具有代表性和广泛性。

在度量设计和选择上,研究者们认识到传统的评估方法可能无法充分捕捉编辑结果的质量。为了解决这一问题,他们提出了LMM Score,这是一种创新的量化评估指标。LMM Score利用了大型多模态模型(LMMs)的先进视觉-语言理解能力,以评估不同任务上的编辑性能。这种新指标的引入,旨在更准确地反映图像编辑结果与用户指令之间的一致性,为图像编辑领域的研究提供了一个更为精确的评估工具。

研究者选择了几种不同的基于扩散模型的图像编辑方法,并在EditEval基准上对它们进行了测试。在性能比较环节,研究者们细致地计算了每种方法在七个编辑任务上的平均得分和标准差。结果显示,并没有单一的方法能够在所有任务上都取得最佳性能,这反映出图像编辑方法的多样性以及它们在特定应用场景下的适用性。

为了进一步验证LMM Score这一评估指标的有效性,研究者们将其得分与用户研究的结果进行了细致的比较。通过计算LMM Score与用户评分之间的皮尔逊相关系数,研究者们发现两者之间存在显著的正相关性。这一发现表明,LMM Score不仅能够作为一项客观的评估工具,而且能够很好地反映用户的主观偏好和评价,从而为图像编辑方法的评估提供了一个可靠的量化指标。

LMM分数与用户研究之间的皮尔逊相关系数
7个选定的编辑类型上进行了视觉上的比较

通过这些评估得出结论,基于扩散模型的图像编辑技术虽然取得了显著进展,但仍存在样本依赖性和性能波动等问题。LMM Score作为一种新的评估指标,已被证明是可靠和有效的,能够为图像编辑领域提供更加精确的性能评估。

随着技术的不断发展,未来的基准构建和评估方法需要进一步考虑如何更好地模拟真实世界的应用场景,以及如何更全面地衡量编辑结果的质量和实用性。这将有助于推动图像编辑技术向更高水平发展,并为研究人员和开发者提供宝贵的反馈和指导。

论文链接:https://arxiv.org/abs/2402.17525

GitHub 地址:https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/737335.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

YIA主题侧边栏如何添加3D旋转标签云?

WordPress站点侧边栏默认的标签云排版很一般,而3D旋转标签云就比较酷炫了。下面boke112百科就以YIA主题为例,跟大家说一说如何将默认的标签云修改成3D旋转标签云,具体步骤如下: 1、点此下载3d标签云文件(密码&#xf…

开源项目推荐-vue2+element+axios 个人财务管理系统

文章目录 financialmanagement项目简介项目特色项目预览卫星的实现方式:首次进入卫星效果的实现方式:卫星跟随鼠标滑动的随机效果实现方式:环境准备项目启动项目部署项目地址 financialmanagement 项目简介 vue2elementaxios 个人财务管理系…

java学习--集合(大写二.2)

看尚硅谷视频做的笔记 2.collection接口及方法 jdk8里有一些默认的方法,更多的是体现的是一种规范,规范更多关注的是一些抽象方法。 看接口里面的抽象方法,选一个具体的实现类。 测试collection的方法,存储一个一个数据都有哪些…

记录:[android] SSLHandshakeException: Handshake failed 问题;已解决!

1、问题描述:在使用Retrofit2 时在安卓老设备上(安卓6.0)网络无法请求、安卓 10 、 11 未出现此问题?what? 原因:服务端 TLS 版本过高 2、废话不多说、解决方案A 、添加依赖:implementation org.conscrypt…

安徽理工大学2计算机考研情况,招收计算机专业的学院和联培都不少!

安徽理工大学(Anhui University of Science and Technology),位于淮南市,是安徽省和应急管理部共建高校,安徽省高等教育振兴计划“地方特色高水平大学”建设高校,安徽省高峰学科建设计划特别支持高校&#…

Java面试八股之myBatis与myBatis plus的对比

myBatis与myBatis plus的对比 基础与增强: MyBatis 是一个成熟的Java持久层框架,它允许开发者通过XML文件或注解来配置SQL语句和数据库映射,提供了一个灵活的方式来操作数据库,但需要手动编写所有的SQL语句和结果集映射。 MyBa…

oracle 外连接(+)和left join用法

案例1: select count(1) FROM TFUNDINFO A, TFUNDTYPE B WHERE A.VC_FUNDCODEB.VC_FUNDCODE() select count(1) FROM TFUNDINFO A, TFUNDTYPE B WHERE A.VC_FUNDCODEB.VC_FUNDCODE SELECT count(1): 这表示查询将返回一个计数,count(1)是一种常见的计数…

适用于 AI/ML 工作负载的有状态 KES

在此概念验证 (POC) 中,我们将探讨在 Kubernetes (k8s) 生态系统中安装和管理有状态密钥加密服务 (KES)。本指南促进了加密操作的无缝衔接,而不会将敏感的密钥材料暴露给使用型应用程…

Window和linux杀死进程的方式(命令行版)

在本文中,我们将探讨如何在Windows和Linux操作系统下高效地终止指定的进程,涵盖基本命令与高级技巧,确保您能灵活应对各种管理需求。 linux杀死进程 在终端中,我们通过下面命令找到端口运行的程序 lsof -i:72812. 然后输入下面…

见证数据的视觉奇迹——DataV Atlas

引言 前段时间一直沉迷于AI方向,几乎很久没碰大数据开发的相关内容了,今天突然看到阿里活动又推出DataV的体验了,我直接“啪”的一下就点进来了,很快啊!本来之前开发数字孪生的时候就接触过基础的DataV操作了&#x…

北京BJ90升级新款迈巴赫大连屏四座头等舱行政四座马鞍

北京BJ90升级奔驰迈巴赫头等舱行政四座大联屏的内饰效果会非常出色,将为车辆带来更豪华、高端的内饰氛围。以下是升级后可能的效果: • 科技感提升:奔驰的中控系统一直以来都以其先进的科技和用户友好的界面而闻名。升级后,北京B…

Retrieval-Augmented Generation for Large Language Models A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 文章目录 Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 Abstract背景介绍 RAG概述原始RAG先进RAG预检索过程后检索过程 模块化RAGModules部分Patterns部分 RAG…

TEMU自养号测评系统如何搭建,有哪些要求

TEMU全托管目前优点是全程不用去运营,只要做好选品,质检就可以了。缺点是无法自由决定产品的营销策略,这也是使得卖家会去通过自养号测评方式来为产品链接打造权重。 TEMU自养号测评的搭建是一个涉及多个步骤和细节的过程。以下是一个清晰的…

智能优化算法改进策略之局部搜索算子(六)--进化梯度搜索

1、原理介绍 进化梯度搜索(Evolutionary Gradient Search, EGS)[1]是兼顾进化计算与梯度搜索的一种混合算法,具有较强的局部搜索能力。在每次迭代过程中,EGS方法首先用受进化启发的形式估计梯度方向,然后以最陡下降的方式执行实际的迭代步骤&…

QListView、QTableView或QTreeView截取滚动区域(截长图)

本文以QTreeView为例,理论上继承自QAbstractScrollArea的类都支持本文所述的方法。 一.效果 一共5个文件夹,每个文件文件夹下有5个文件,先把文件夹展开,然后截图。将滚动条拖到居中位置,是为了证明截图对滚动条无影响 下面是截的图 二.原理 将滚动区域的viewport设置为…

lvgl_micropython development for esp32

​​​​​​上一篇博客已经编译源码生成了ESP32C3的固件lvgl_micropy_ESP32_GENERIC_C3-4.bin,这篇博客开发一个界面。 一、开发环境 1、安装开发工具 Windows安装Thonny工具,官网链接:Thonny, Python IDE for beginners。 参考博客:用M…

已解决javax.management.BadBinaryOpValueExpException异常的正确解决方法,亲测有效!!!

已解决javax.management.BadBinaryOpValueExpException异常的正确解决方法,亲测有效!!! 目录 问题分析 出现问题的场景 报错原因 解决思路 解决方法 分析错误日志 检查操作数合法性 确认操作数类型匹配 优化代码逻辑 增…

如何发现Redis热Key,有哪些解决方案?

什么是 hotkey? 如果一个 key 的访问次数比较多且明显多于其他 key 的话,那这个 key 就可以看作是 hotkey(热 Key)。例如在 Redis 实例的每秒处理请求达到 5000 次,而其中某个 key 的每秒访问量就高达 2000 次&#x…

【HTTPS云证书部署】SpingBoot部署证书

这里以华为云证书为例。 1. 下载证书 2. 解压 3. 选择.top_Tomcat复制到SpringBoot的Resource/source下 4. 在.properties文件中进行配置 修改key-store和key-store-password

秋招突击——第八弹——Redis是怎么运作的

文章目录 引言正文Redis在内存中是怎么存储的面试重点 Redis是单线程还是多线程面试重点 内存满了怎么办?面试重点 持久化介绍面试重点 RDB持久化面试重点 AOF日志面试重点 总结 引言 差不多花了两天把redis给过了,早上也只背了一半,完成回去…