Diffusion:通过扩散和逆扩散过程生成图像的生成式模型

在当今人工智能大火的时代,AIGC 可以帮助用户完成各种任务。作为 AIGC 主流模型的 DDPM,也时常在各种论文中被提起。DDPM 本质就是一种扩散模型,可以用来生成图片或者为图片去噪。

扩散模型定义了一个扩散的马尔科夫过程,每一步逐渐将随机噪声添加到数据中,然后通过学习逆扩散过程恢复数据以实现从噪声中构建所需的数据样本。

在这里插入图片描述

本文不再按照论文解读的方式逐段记录,并且略过其中繁杂的数学证明,只专注于介绍 diffusion 模型本身,主要基于 DDPM。本文参考 What are Diffusion Models?、扩散模型(Diffusion Model)——由浅入深的理解,更多参考资料如下:

  • 模型图解:十分钟读懂Diffusion:图解Diffusion扩散模型;
  • 模型总结:由浅入深了解Diffusion Model、AIGC爆火的背后——扩散模型DDPM浅析;
  • 公式推导:Diffusion扩散模型大白话讲解,看完还不懂?不可能!;
  • 源码解读:【深度学习模型】扩散模型(Diffusion Model)基本原理及代码讲解;
  • 领域现状:读了14篇论文,终于会拿捏Diffusion了、扩散模型(Diffusion Model)首篇综述-Diffusion Models: A Comprehensive Survey of Methods and Applications、扩散模型(Diffusion Model)最新综述!;

目录

  • 一. 背景
  • 二. Diffusion 模型
    • 1. 扩散过程
    • 2. 逆扩散过程
    • 3. 训练方法
  • 三. 图片生成
  • 四. 实验
  • 五. 总结

一. 背景

随着人工智能生成能力的不断进步,内容生产已经从用户生成内容 (UGC) 到专业生成内容 (PGC) ,再到人工智能生成内容 (AIGC, AI generated content)。从 AI 作画到 AI 视频等各种 AI 生成任务层出不穷,预示着 AIGC 时代已然拉开帷幕。

在这里插入图片描述

AIGC 主要依赖一些生成式模型,如 GAN、VAE、Flow-based model 等,但这些模型都有一些自身的局限性,难以稳定且高质量地完成 AIGC 的任务。现在 AIGC 的主流模型使用的基本都是 DDPM,这是一种经典的 扩散模型 (diffusion model)。扩散模型定义了一个扩散的马尔科夫过程,每一步逐渐将随机噪声添加到数据中,然后通过学习逆扩散过程恢复数据以实现从噪声中构建所需的数据样本。与 VAE 和流模型不同,扩散模型是通过固定程序学习的,并且隐变量都具有与原始数据相同的维度。

马尔科夫过程:指具有马尔科夫性质的随机过程,即下一个状态的发生仅依赖于当前状态,而与过去状态的序列无关。这一性质也被称为 “无记忆性” 或 “马尔科夫性”。具体来说,考虑一个随机过程,其状态在不同时间点可以取不同的值。如果这个过程满足马尔科夫性,那么给定当前时刻的状态,未来的状态只与当前状态有关,而与过去状态的历史路径无关。这种性质可以表示为:
P ( X n + 1 = x ∣ X n = x n , X n − 1 = x n − 1 , … , X 0 = x 0 ) = P ( X n + 1 = x ∣ X n = x n ) P(X_{n+1} = x | X_n = x_n, X_{n-1} = x_{n-1}, \ldots, X_0 = x_0) = P(X_{n+1} = x | X_n = x_n) P(Xn+1=xXn=xn,Xn1=xn1,,X0=x0)=P(Xn+1=xXn=xn)

其实生成式建模的扩散思想早在 2015 年就在 diffusion probabilistic models 1 中被提出,但直到 2019 年斯坦福大学发布的 noise-conditioned score network 2 和 2020 年 Google Brain 发布的 denoising diffusion probabilistic models 3 改进了模型方法,才引发了 diffusion 模型的热潮。目前,包括 OpenAI 的 GLIDE 和 DALL-E 2,海德堡大学的 Latent Diffusion 和 Google Brain 的 ImageGen,都基于 diffusion 模型。

二. Diffusion 模型

Diffusion 模型的灵感来自非平衡热力学,通过定义一个扩散步骤的马尔科夫链:缓慢地将具有高斯分布的随机噪声添加到数据中,原始图片随着噪声的不断加入最后变为一个纯噪声图片;然后学习优化逆扩散过程,最终实现从噪声中构建所需的数据样本,反向过程可以用来生成图片。
在这里插入图片描述

如图所示,diffusion 模型包括前向和反向两个过程,无论是前向过程还是反向过程都是一个参数化的马尔科夫链 (Markov chain):

  • 前向过程 (forward process):又称为 扩散过程,图中 x 0 → x T x_0 \rightarrow x_T x0xT 的过程,表示 对图片逐渐加噪
  • 反向过程 (reverse process):又称为 逆扩散过程,图中 x T → x 0 x_T \rightarrow x_0 xTx0 的过程,表示 对图片去噪复原,可以用来生成图像;

1. 扩散过程

如上文所说,扩散过程 x 0 → x T x_0 \rightarrow x_T x0xT 对图片逐渐加噪。 x 0 x_0 x0 是从真实数据集中采样得到的一张图片,对 x 0 x_0 x0 逐渐添加具有高斯分布的噪声,图片逐会变得模糊,当 T T T 足够大时, x T x_T xT 为标准正态分布。由于每次添加的噪声是已知的,即 q ( x t + 1 ∣ x t ) q (x_{t+1} \mid x_t) q(xt+1xt) 是已知的,因此可以根据马尔科夫过程的性质,递归得到 q ( x T ∣ x t ) q (x_{T} \mid x_t) q(xTxt)
在这里插入图片描述

此处不再赘述公式推导的过程,详见 What are Diffusion Models?、扩散模型(Diffusion Model)——由浅入深的理解、由浅入深了解Diffusion Model、AIGC爆火的背后——扩散模型DDPM浅析、Diffusion扩散模型大白话讲解,看完还不懂?不可能! 等。

2. 逆扩散过程

如上文所说,逆扩散过程 x T → x 0 x_T \rightarrow x_0 xTx0 对图片去噪复原来生成图像。由于扩散过程的 T T T 取足够大时, x T x_T xT 为标准正态分布,因此 要想生成图片可以直接从标准正态分布的图像逆扩散回去就可以得到想要的图像。于是问题的关键就是学习逆扩散过程。

逆扩散不像前向过程每一步是固定的,逆扩散很难从后一张图像中去噪得到前一张图像,即 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt1xt) 是未知的。因此只能用 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt1xt) 来近似代替 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt1xt),于是 逆扩散的学习过程就成了训练 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt1xt) 网络,文中称为 U-Net。
在这里插入图片描述

虽然 q ( x t − 1 ∣ x t ) q (x_{t-1} \mid x_t) q(xt1xt) 是未知的,但 q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt1x0xt) 是可知的。因此我们可以用 q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt1x0xt) 来指导 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt1xt) 进行训练。此处不赘述公式推导的过程。

3. 训练方法

Diffusion 的损失函数进行了大量的数学推导,此处概述为一句话:对 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt1xt) 的监督就是最小化 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt1xt) q ( x t − 1 ∣ x 0 x t ) q (x_{t-1} \mid x_0x_t) q(xt1x0xt) 的 KL 散度。
在这里插入图片描述

三. 图片生成

训练完 p Θ ( x t − 1 ∣ x t ) p_\Theta (x_{t-1} \mid x_t) pΘ(xt1xt) 后,就可以通过逆扩散过程生成图像:
在这里插入图片描述

四. 实验

详见 https://arxiv.org/pdf/2006.11239.pdf 。

网上有很多 DDPM 的实现代码,包括论文中基于 tensorflow 的实现,还有基于 pytorch 的实现,感兴趣的可以自行复现。

五. 总结

Diffusion 其实就是一个扩散和逆扩散的过程:先给一张图片逐步加噪声直到变成纯粹的噪声,然后再对噪声进行去噪得到真实的图片。所谓的扩散模型就是让神经网络学习这个去除噪声的方法。Diffusion 和其他模型最大的区别是它的隐空间特征数和原图是同尺寸大小的,当然后面也有基于压缩的 latent diffusion model 4

现在大火的最 GLIDE5、DALLE26、Imagen7,以及一系列的 Image Editing 方法,也都是基于 diffusion。


  1. Sohl-Dickstein J, Weiss E, Maheswaranathan N, et al. Deep unsupervised learning using nonequilibrium thermodynamics[C]//International conference on machine learning. PMLR, 2015: 2256-2265. ↩︎

  2. Song Y, Ermon S. Generative modeling by estimating gradients of the data distribution[J]. Advances in neural information processing systems, 2019, 32. ↩︎

  3. Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851. ↩︎

  4. Rombach, Robin, et al. “High-Resolution Image Synthesis with Latent Diffusion Models.” arXiv preprint arXiv:2112.10752 (2021). ↩︎

  5. Nichol, Alex, et al. “Glide: Towards photorealistic image generation and editing with text-guided diffusion models.” arXiv preprint arXiv:2112.10741 (2021). ↩︎

  6. Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 (2022). ↩︎

  7. Saharia, Chitwan, et al. “Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding.” arXiv preprint arXiv:2205.11487 (2022). ↩︎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/205820.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++】了解模板

这里是目录 前言函数模板函数模板的实例化类模板 前言 如果我们要交换两个数字,那么我们就需要写一个Swap函数来进行交换,那如果我们要交换char类型的数据呢?那又要写一份Swap的函数重载,参数的两个类型是char,那我们…

Rocketmq架构

NameServer:作为注册中心,提供路由注册、路由踢出、路由发现功能,舍弃强一致,保证高可用,集群中各个节点不会实时通讯,其中一个节点下线之后,会提供另外一个节点保证路由功能。 Rocket mq name…

AI视觉识别有哪些工业应用

AI视觉识别,主要是利用人工智能算法对图像或视频数据进行分析和处理,以提取关键信息并执行筛选、判断、预警等任务。AI视觉识别涵盖多种应用,如人脸识别、目标检测和识别、图像分割、行为识别、视频分析等。本篇就简单介绍一下AI视觉识别的应…

传智杯第五届题解

B.莲子的机械动力学 分析&#xff1a;这题有个小坑&#xff0c;如果是00 0&#xff0c;结果记得要输出0。 得到的教训是&#xff0c;避免前导0出现时&#xff0c;要注意答案为0的情况。否则有可能会没有输出 #include<assert.h> #include<cstdio> #include<…

J签证、移民、绿卡都是怎么回事?

随着全球化的不断推进&#xff0c;越来越多的人开始关注国际间的移民与签证政策&#xff0c;其中包括J签证、移民以及绿卡的申请问题。本文将简要介绍J签证、移民绿卡的基本概念&#xff0c;并提供相关申请的一般步骤&#xff0c;以帮助读者更好地了解这些程序。 首先&#xff…

【raect.js + hooks】useRef 搭配 Houdini 创造 useRipple

水波纹点击特效 really cool&#xff0c;实现水波纹的方案也有很多&#xff0c;笔者经常使用 material 组件&#xff0c;非常喜欢 mui 中的 ripple&#xff0c;他家的 ripple 特效就是通过 css Houdini 实现的。 今天&#xff0c;我们将复刻一个 ripple&#xff0c;并封装成 ho…

vue3 router-view 使用keep-alive报错parentcomponent.ctx.deactivate is not a function

问题 如下图&#xff0c;在component组件上添加v-if判断&#xff0c;会报错: parentcomponent.ctx.deactivate is not a function 解决方法 去除v-if&#xff0c;将key直接添加上。由于有的公用页面&#xff0c;需要刷新&#xff0c;不希望缓存&#xff0c;所以需要添加key…

【23真题】快跑,考太偏了这所211!

今天分享的是23年湖南师范997的信号与系统试题及解析。 小马哥Tips&#xff1a; 本套试卷难度分析&#xff1a;22年湖南师范997考研真题&#xff0c;我也发布过&#xff0c;若有需要&#xff0c;戳这里自取&#xff01;本套试题难度中等&#xff0c;题量适中&#xff0c;但是…

升级python后sudo apt-get update报错

sudo apt-get update 报错&#xff1a; sh: /usr/lib/cnf-update-db: /usr/bin/python3.7.5: bad interpreter: No such file or directory Reading package lists... Done E: Problem executing scripts APT::Update::Post-Invoke-Success if /usr/bin/test -w /var/lib/c…

CANDENCE: PCB 如何高亮网络、器件

PCB 如何高亮网络、器件 开始前先学习一个单词&#xff1a;assign CANDECE 高亮网络 step1: 选择一个颜色&#xff1a;红色 step2: 筛选要高亮什么&#xff1a;网络 or 器件&#xff0c;这里选择网络。 step3&#xff1a;鼠标点击要高亮的网络&#xff1a; 这里是GND 这里…

罐装葡萄酒会成为主流吗?

许多人认为罐装葡萄酒可能是葡萄酒行业的下一个大事件&#xff0c;一个有待提出的问题&#xff0c;罐装葡萄酒会成为主流吗&#xff1f;来自云仓酒庄品牌雷盛红酒分享还是这种形式的基础永远会限制它的吸引力&#xff1f;在这里&#xff0c;我们一起来探讨支持和反对罐装葡萄酒…

力扣题:单词-11.20

力扣题-11.20 [力扣刷题攻略] Re&#xff1a;从零开始的力扣刷题生活 力扣题1&#xff1a;58. 最后一个单词的长度 解题思想&#xff1a;按空格划分&#xff0c;然后统计单词长度即可 class Solution(object):def lengthOfLastWord(self, s):""":type s: str…

Java——TreeSet用法

Java——TreeSet TreeSet 是 Java 中的一个有序集合类&#xff0c;它基于红黑树&#xff08;Red-Black Tree&#xff09;实现。 下面详细介绍 TreeSet 的用法和特点&#xff1a; 有序性&#xff1a;TreeSet 中的元素按照自然顺序或者通过自定义的比较器进行排序。它保证了元素…

网工内推 | 云计算运维,云相关认证优先,最高30K,带薪年假

01 安畅网络 招聘岗位&#xff1a;云计算运维工程师 职责描述&#xff1a; 1、负责对公有云平台的计算、存储、网络资源等IAAS/SAAS/PAAS层产品组件日常交付部署运维工作&#xff0c;包括调试、配置、维护、监控、优化等工作&#xff1b; 2、负责对操作系统及应用日常运行维护…

OSG编程指南<十七>:OSG光照与材质

1、OSG光照 OSG 全面支持 OpenGL 的光照特性&#xff0c;包括材质属性&#xff08;material property&#xff09;、光照属性&#xff08;light property&#xff09;和光照模型&#xff08;lighting model&#xff09;。与 OpenGL 相似&#xff0c;OSG 中的光源也是不可见的&a…

java拦截器,过滤器,监听器的区别

拦截器与过滤器 1&#xff1a;过滤器 过滤器主要作用在请求到达Servlet之前&#xff0c;对请求进行预处理&#xff0c;可以对HTTP请求进行过滤、修改。过滤器通常用于日志记录、字符编码转换、权限检查等任务。过滤器是基于回调函数实现的&#xff0c;重写doFilter()方法实现过…

AT89S52单片机智能寻迹小车自动红外避障趋光检测发声发光设计

wx供重浩&#xff1a;创享日记 对话框发送&#xff1a;寻迹 获取完整说明报告源程序数据 小车具有以下几个功能&#xff1a;自动避障功能&#xff1b;寻迹功能&#xff08;按路面的黑色轨道行驶&#xff09;&#xff1b;趋光功能&#xff08;寻找前方的点光源并行驶到位&…

MatchPyramid实现文本匹配

引言 今天利用MatchPyramid实现文本匹配。 原论文解析→点此←。 MatchPyramid 核心思想是计算两段文本间的匹配矩阵&#xff0c;把它当成一个图形利用多层卷积网络提取不同层级的交互模式。 匹配矩阵是通过计算两段输入文本基本单元(比如字或词)之间相似度得到的&#xf…

windows系统bat脚本命令总结之EnableDelayedExpansion

前言 做了一段时间的bat脚本开发&#xff0c;bat脚本中有各种各样的命令跟传统的编程逻辑完全不同&#xff0c;本专栏会讲解下各种各式的命令使用方法。 本篇文章讲解的是EnableDelayedExpansion的使用。 EnableDelayedExpansion简介 EnableDelayedExpansion是用于在批处理脚本…

Linux:理解文件重定向

文章目录 文件内核对象fd的分配问题重定向的现象dup2 重定向的使用标准输出和标准错误 前面对于文件有了基本的认知&#xff0c;那么基于前面的认知&#xff0c;本篇总结的是文件重定向的含义极其本质 文件内核对象 首先理解一下file内核对象是什么&#xff0c;回顾一下下面这…