论文阅读:Diffusion Model-Based Image Editing: A Survey

Diffusion Model-Based Image Editing: A Survey

论文链接
GitHub仓库

摘要

这篇文章是一篇基于扩散模型(Diffusion Model)的图片编辑(image editing)方法综述。作者从多个方面对当前的方法进行分类和分析,包括学习策略、用户输入、和适用的任务等。为了进一步评估文本引导的图片编辑算法,作者提出了一个新的基准,EditEval,采用了一个创新的指标:LMM Score。最后,作者分析了当前方法的局限和未来可能的研究方向。

介绍

首先,什么是图片编辑?图片编辑是对输入的图片进行外观上、结构上或者内容上进行轻微乃至重大的修改的一类方法。
其次,什么是扩散模型?受平衡热力学启发,扩散模型逐渐向数据中添加噪声,然后学习从随机噪声开始反转这个过程,直至生成的数据符合源数据的分布。
扩散模型被广泛地应用于各个领域,包括图片生成、视频生成、图片修复和图片编辑。这篇文章对基于扩散模型的图片编辑方法做了综合的分析和总结。根据这些方法的学习策略、输入条件和一些列的编辑任务对它们进行分类。
从学习策略角度,分为三个主要的类别: 基于训练和的方法training-based approaches,测试-时间微调方法testing-time fine-tuning approaches,和无需训练微调方法training and finetuning free approaches。
从输入条件角度,分为10个不同的类别,包括文本text,掩码 mask,参考图片reference (Ref.) image, 类class,布局layout,姿态pose,草图 sketch,分割图segmentation (Seg.) map,音频 audio,和拖拽点dragging points。
从图片编辑任务方面,可以分为3个大类:语义编辑semantic editing, 风格编辑stylistic editing,和 结构编辑structural editing,覆盖了12个特定类别。

相关工作

Conditional Image Generation

不同于图片编辑,其修改现有的一张图片的部分,条件图片生成在特定条件的指引下,从头生成新的图片。早期的工作主要是class-conditioned image generation(条件为“类”的图片生成),后来的一些工作借助classifier-free guidance,可以支持更多的条件,比如文本条件。
Text-to-Image (T2I) Generation.
GLIDE是第一个条件图片生成扩散模型。类似的Imagen使用了级联框架在像素空间生成高分辨率图片。后续的工作LDM将像素空间替换为低维潜在空间,大大降低了计算开销,以此为基础的模型包括Stable Diffusion 1 & 2 & XL,DALL-E 2等。
Additional Conditions.
除了使用文本作为条件,还有一些工作使用其它输入条件,比如候选框grounding boxes,分割掩码segmentation masks,depth maps,normal maps, canny edges(边缘边), pose(姿态), 和sketches(草图)等。
Customized Image Generation.(定制化图片生成)
定制化图片生成和图片编辑的任务比较接近,其生成具有特定性质的图片,通常以具有相同主题的一些图片作为指引条件,代表工作有Textual Inversion [106] ,DreamBooth [107],和 DreamBooth [107]。

Image Restoration and Enhancement 图片修复与增强

Image restoration (IR)图片修复的目的是提高各种被污染退化的图片的质量。下面介绍一些基于扩散模型的图片修复工作。
Input Image as a Condition. 以输入图片作为条件的:super-resolution (SR) 和 deblurring [12], [13], [29], [118], [119]
**Restoration in Non-Spatial Spaces. ** 一些工作聚焦于其它空间,比如Refusion [63][120],WaveDM [67]和WaveDM [67]等。(没看懂和前面image input的区别)
T2I Prior Usage. 向预训练的文生图模型添加一些针对图片修复的层或者编码器,然后进行微调后,这些文生图模型也同样可以用于图片修复Image Restoration (IR)。
**Projection-Based Methods.**这些方法通过提取图片中内在的结构和纹理(textures)来完善生成的图片以保证数据的一致性。
Decomposition-Based Methods. 基于分解的方法 这些方法把图片修复看做一个线性反转的过程,代表工作包括Denoising Diffusion Restoration Models (DDRM) [66],Diffusion Null-space Model (DDNM) [68]等。

分类

不同于图片生成(image generation)从零生成一个新的图片,和图片修复与增强(image restoration and enhancement)致力于修复和提高退化了的图片的质量,图片编辑(imge editing)在外观appearance,结构structure,内容content, 包括
增加物体adding objects, 替换背景replacing backgrounds, 和修改纹理altering textures等多个方面修改图片。
根据学习的策略,扩散模型上的图片编辑方法可以分为3类:基于训练和的方法training-based approaches,测试-时间微调方法testing-time fine-tuning approaches,和无需训练微调方法training and finetuning free approaches。
从输入条件的角度,可以分为10个不同的类别,包括文本text,掩码 mask,参考图片reference (Ref.) image, 类class,布局layout,姿态pose,草图 sketch,分割图segmentation (Seg.) map,音频 audio,和拖拽点dragging points。
从图片编辑的任务方面,可以分为12个特定的编辑类别,并可以被分为3个大类:语义编辑semantic editing, 风格编辑stylistic editing,和结构编辑structural editing:

  • 语义编辑Semantic Editing:该类任务修改图片的内容和叙述故事,影响图片描绘的故事场景、上下文和主题元素。其包括以下小类:物体增加object addition (Obj. Add.),物体移除object removal (Obj. Remo.),物体替换 object replacement (Obj.Repl.), 背景修改background change (Bg. Chg.) 和情绪表达修改emotional expression modification (Emo. Expr. Mod.)。
  • 风格编辑Stylistic Editing:该类任务注重增强或者转换图片的视觉风格和审美元素而不修改其叙述内容。其包括如下小类:颜色修改color change (Color Chg.),纹理修改texture change (Text. Chg.)和 整体风格修改overall style change (Style Chg.)。
  • Structural Editing:该类任务注重图片中的空间重安排spatial arrangement,布置positioning,角度viewpoints和元素特征characteristics of elements,强调场景中物体的组织和呈现。其包括如下的小类:物体移动object movement (Obj.
    Move.),物体尺寸和性状改变object size and shape change (Obj. Size. Chg.),物体动作和姿态改变object action and pose change (Obj. Act. Chg.),和角度改变perspective/viewpoint change (Persp./View. Chg.)。

基于训练的方法TRAINING-BASED APPROACHES

作者将基于训练的方法,根据他们的应用领域、训练所需的条件、监督的类型分为4个主要的类别,如图2所示。此外,在每个主要类中,进一步根据它们核心的编辑策略将它们分为不同类型的方法。Taxonomy of training-based approaches for image editing.

Domain-Specific Editing with Weak Supervision

基于扩散模型的一个挑战是其在大规模数据集上大量的计算开销。为了解决这个问题,一些早期的工作通过在小规模的专用数据集上的弱监督训练扩散模型。这些数据集高度专注于特定领域,比如用于人脸操纵的CelebA[236]和FFHQ [2],用于动物面部编辑和转换的AFHQ [237],用于物体修改的 LSUN [238]和用于风格转换的 WikiArt [239]。根据这些方法弱监督的类型,作者又将其分为4个类别。
CLIP Guidance. 一些方法使用CLIP引导使用文本作为条件的图片编辑。一个典型的代表是DiffusionCLIP [131],其允许在训练和新的数据上使用CLIP。具体来说,它首先将图片使用DDIM转化为latent noise,然后在反转扩散过程中微调预训练的扩散模型,以调整图片的属性,并使用一个源提示词和目的提示词之间的CIIP损失函数约束该过程。
循环正则化Cycling Regularization. 由于扩散模型能够进行域转换,因此循环框架也可以应用在扩散模型上。例如, UNIT-DDPM [136] 使用循环一致性来规范非配对图片-到-图像翻译的训练,在扩散模型中定义了一个双通道的马尔科夫链。
Projection and Interpolation. 该类方法将图片投影(projection),然后进行插值(interpolation)处理。例如,Diffusion Autoencoders[138]介绍了一个语义编码器来将输入图片匹配到一个语义嵌入,其作为扩散模型的条件用于重构。在训练语义编码器和条件生成模型之后,任何图片都可以被投影到这个语义空间用于插值。
Classifier Guidance. 一些方法引入了额外的预训练分类器来提高图片编辑的性能。比如, EGSDE [140]使用一个energy function 来引导真实的非配对图片-到-图片翻译的采样。

Reference and Attribute Guidance via Self-Supervision

该类方法通过自监督方式提取图片属性或者其他信息作为条件,用来训练基于扩散模型的图片编辑模型。这类方法可以被分为两个类别:reference-based image composition和attribute-controlled image editing。
Reference-Based Image Composition.
Attribute-Controlled Image Editing.

Instructional Editing via Full Supervision

Pseudo-Target Retrieval with Weak Supervision

测试-时间微调方法TESTING-TIME FINETUNING APPROACHES

根据微调的部位和方式,又可以将该大类分为5个小类,如图6所示。

Taxonomy of testing-time finetuning approaches for image editing.

无需训练和微调的方法TRAINING AND FINETUNING FREE APPROACHES

该类方法在编辑的过程中无需训练喝微调,因此更为高效和低成本。根据这些方法具体修改的地方,可以将它们分为5个小类,如图7所示。(着重关注)
Taxonomy of training and finetuning free approaches for image editing.

挑战和未来的研究方向CHALLENGES AND FUTURE DIRECTIONS

  • Fewer-step Model Inference.
  • Efficient Models.
  • Complex Object Structure Editing.
  • Complex Object Structure Editing.
  • Unrobustness of Image Editing.
  • Faithful Evaluation Metrics.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/444915.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

图像处理与图像分析—图像的读入(C语言)

学习将会依据教材图像处理与图像分析基础(C/C)版内容展开 什么是数字图像处理 一副图像可以定义为一个二维函数 f(x,y) ,其中 x 和 y 是空间(平面)坐标,任意一对空间坐标 (x,y) 处的幅度值 &am…

了解 HTTPS 中间人攻击:保护你的网络安全

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

二叉树进阶--二叉搜索树的进一步优化--AVL树 Self-balancing binary search tree

前言: 在上一次的文章中,我们详细介绍了二叉树的进阶树型,即BS树(二叉搜索树),但在文章的结尾,二叉搜索树虽可以缩短查找的效率,但如果数据有序或接近有序二叉搜索树将退化为单支树,查找元素相当于在顺序表…

golang实现正向代理和反向代理

文章目录 正向代理反向代理区别与联系:总结代理服务器实现正向代理反向代理正向代理 正向代理是客户端代理,它位于客户端和目标服务器之间。它的作用是保护客户端的隐私和安全。 如我们现在想要访问谷歌,但是由于某些原因,无法直接访问到谷歌,我们可以通过连接一台代理服务…

Redis缓存过期策略

文章目录 一、面试题二、redis内存1. Redis的内存大小怎么查看?2. 设置redis内存3. redis内存的OOM 三、redis内存淘汰策略1. redis的过期键删除策略2. redis缓存淘汰策略 一、面试题 1. 生产上你们redis内存设置多少? 2. 如何配置、修改redis内存大小…

YOLOV5 初体验:简单猫和老鼠数据集模型训练

1、前言 前两天,通过OpenCV 对猫和老鼠视频的抽取,提取了48张图片。这里不再介绍,可以参考之前的文章:利用OpenCV 抽取视频的图片,并制作目标检测数据集-CSDN博客 数据的目录如下: 项目的下载见文末 2、制…

基于Java的在线课程教学系统(Vue.js+SpringBoot)

目录 一、摘要1.1 系统介绍1.2 项目录屏 二、研究内容2.1 课程类型管理模块2.2 课程管理模块2.3 课时管理模块2.4 课程交互模块2.5 系统基础模块 三、系统设计3.1 用例设计3.2 数据库设计 四、系统展示4.1 管理后台4.2 用户网页 五、样例代码5.1 新增课程类型5.2 网站登录5.3 课…

第十一篇 - 应用于市场营销视频场景中的人工智能和机器学习技术 – Video --- 我为什么要翻译介绍美国人工智能科技巨头IAB公司(1)

IAB平台,使命和功能 IAB成立于1996年,总部位于纽约市。 作为美国的人工智能科技巨头社会媒体和营销专业平台公司,互动广告局(IAB- the Interactive Advertising Bureau)自1996年成立以来,先后为700多家媒体…

为什么选择 Flink 做实时处理

优质博文:IT-BLOG-CN 为什么选择 Flink 【1】流数据更真实地反映了我们的生活方式(实时聊天); 【2】传统的数据架构是基于有限数据集的(Spark 是基于微批次数据处理); 【3】我们的目标&#xf…

ROS——ROS环境搭建

Ubuntu 安装完毕后,就可以安装 ROS 操作系统了,大致步骤如下: 配置ubuntu的软件和更新; 设置安装源; 设置key; 安装; 配置环境变量。 1.配置ubuntu的软件和更新 配置ubuntu的软件和更新,…

系统编程--makefile项目管理

这里写目录标题 介绍语法结构总览基础规则简介最简单的makefile对于基础规则的理解和应用总结 makefile时尽量使用更独立的命令,减少文件之间的耦合度需求以及解决总结 补充(关于makefile中脚本命令的编写顺序) 一级目录二级目录二级目录二级…

数据科学中的Python:NumPy和Pandas入门指南【第121篇—NumPy和Pandas】

数据科学中的Python:NumPy和Pandas入门指南 数据科学是当今数字时代中的一个重要领域,而Python是数据科学家们最喜爱的编程语言之一。在这篇博客中,我们将介绍Python中两个强大的库——NumPy和Pandas,它们在数据处理和分析中发挥…

java算法第十八天 | ● 110.平衡二叉树 ● 257. 二叉树的所有路径 ● 404.左叶子之和

110.平衡二叉树 leetcode链接 思路: 使用后序遍历分别求左右子树的高度,若高度只差大于一,则返回-1,否则返回当前节点的最大高度。 /*** Definition for a binary tree node.* public class TreeNode {* int val;* Tree…

爬虫(五)

1. 前端JS相关 三元运算 v1 条件 ? 值A : 值B; # 如果条件成立v1值A,不成立v1等于值Bres 1 1 ? 99 : 88 # res99特殊的逻辑运算 v1 11 || 22 # Ture v2 9 || 14 # 9 v3 0 || 15 # 15 v3 0 || 15 || "zhangfei" # 15赋值和…

x86 Ubuntu上编译eudev给龙芯loongarch64架构主机使用

1、下载eudev库eudev-master.zip,链接:eudev库官方地址 2、下载龙芯的交叉编译工具:loongson-gnu-toolchain-8.3-x86_64-loongarch64-linux-gnu-rc1.2.tar.xz,链接:龙芯交叉编译官方地址 3、交叉编译器环境搭建 (1)、…

latex绘图中\begin{figure}[htbp]中的htbp什么意思

在LaTeX中,\begin{figure}[htbp] 用来开始一个图形环境,其中 [htbp] 是一个位置参数,用来指导LaTeX如何放置这个图形。 具体来说,[htbp] 中的每个字母代表一个放置选项: h:代表“here”,意味着…

【LeetCode: 299. 猜数字游戏 - 模拟 + 计数】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

springcloud第3季 consul服务发现注册,配置中心2

一 consul的作用 1.1 为何使用注册中心 为何要用注册中心? 1.A服务调用B服务,使用ip和端口,如果B服务的ip或者端口发生变化,服务A需要进行改动; 2.如果在分布式集群中,部署多个服务B,多个服…

Linux(Ubuntu)中安装vscode

①首先去vscode的官网下载.deb文件 网址:https://code.visualstudio.com/docs/?dvlinuxarm64_deb 注:如果linux端无法打开网页下载文件,可以在Windows端下载好用WinSCP传输到Linux。下载前注意下你的系统架构是arm还是amd,系统…

常用的加密算法

AES 高级加密标准(AES, Advanced Encryption Standard)是当今世界范围内应用最广泛的对称加密算法之一。在微信小程序加密传输等场景中,AES算法发挥着至关重要的作用。对称加密算法的特点在于加密和解密过程使用相同的密钥。具体来说&#x…