DDIM,多样性与运行效率之间的trade off

DDPM的重大缺陷在于其在反向扩散的过程中需要逐步从 x t x_t xt倒推到 x 0 x_0 x0,因此其推理速度非常缓慢。相反,DDPM的训练过程是很快的,可以直接根据 x 0 x_0 x0 x t x_t xt添加的高斯噪声 ϵ \epsilon ϵ完成一次训练。

为了解决这个问题,就有了DDIM,且包括Stable Diffusion在内的现今广泛使用的Diffusion模型都在使用DDIM。

在DDPM中,我们利用 P ( x t − 1 ∣ x t ) P(x_{t-1}|x_{t}) P(xt1xt)来逐步倒推至最开始的 x 0 x_0 x0,这一过程是遵守马尔可夫过程的,即每个时刻的状态只跟上一个时刻的状态有关,因此只能一步步的倒退回去。而实际上,我们最初就是简化了加噪过程,从 x 0 x_0 x0 x t x_t xt直接一步到位,并没有使用 P ( x t ∣ x t − 1 ) P(x_t|x_{t-1}) P(xtxt1)这样按部就班的马尔可夫过程。那么,能不能在倒推的时候也采用类似的思路进行“跳步”,从而达到加快推理的目的呢?

假设我们现在想直接从 k k k时刻跳到 s s s时刻,且有 s < k − 1 s<k-1 s<k1,那么仿照DDPM我们可以写出下列式子
P ( x s ∣ x k , x 0 ) = P ( x k ∣ x s , x 0 ) P ( x s ∣ x 0 ) P ( x k ∣ x 0 ) P(x_s|x_k,x_0)=\frac{P(x_k|x_s,x_0)P(x_s|x_0)}{P(x_k|x_0)} P(xsxk,x0)=P(xkx0)P(xkxs,x0)P(xsx0)
其中 P ( x s ∣ x 0 ) P(x_s|x_0) P(xsx0) P ( x k ∣ x 0 ) P(x_k|x_0) P(xkx0)满足的分布都好说,可以从正向扩散公式中得出。不知道怎么表示的这一项 P ( x k ∣ x s , x 0 ) P(x_k|x_s,x_0) P(xkxs,x0)因为反正整个模型都没有用过,所以可以先不考虑。(这个解释确实很神奇,但是他有用啊)其实就是说DDIM打破了马尔可夫链从 0 0 0开始逐个往前扩散的模型,而是直接采用从 x 0 x_0 x0 x t x_t xt的直接公式作为整个模型的backbone,因此从 s s s k k k的正向过程可以“按需定义”,而不必采用DDPM里的公式,所以在这里就直接被忽略了。

言归正传,我们尝试求解一下上面的式子。参考DDPM,我们也可以假设 P ( x s ∣ x k , x 0 ) P(x_s|x_k,x_0) P(xsxk,x0)是满足正态分布的,其均值为 x k x_k xk x 0 x_0 x0的加权和,记为
P ( x s ∣ x k , x 0 ) ∼ N ( n x 0 + m x k , σ 2 ) P(x_s|x_k,x_0)\sim\mathcal{N}(nx_0+mx_k, \sigma^2) P(xsxk,x0)N(nx0+mxk,σ2)写出 x s x_s xs的表达式
x s = ( n x 0 + m x k ) + σ ϵ , ϵ ∈ N ( 0 , 1 ) x_s=(nx_0+mx_k)+\sigma\epsilon,\epsilon\in\mathcal{N}(0,1) xs=(nx0+mxk)+σϵ,ϵN(0,1) x k = α ‾ k x 0 + 1 − a ‾ k ϵ ′ x_k=\sqrt{\overline{\alpha}_k}x_0+\sqrt{1-\overline{a}_k}\epsilon' xk=αk x0+1ak ϵ代入,可得
x s = ( n x 0 + m x k ) + σ ϵ = ( n + m a ‾ k ) x 0 + ( m 1 − a ‾ k ϵ ′ + σ ϵ ) = ( n + m a ‾ k ) x 0 + m 2 ( 1 − a ‾ k ) + σ 2 ϵ ′ ′ \begin{aligned} x_s&=(nx_0+mx_k)+\sigma\epsilon\\ &=(n+m\sqrt{\overline{a}_k})x_0+(m\sqrt{1-\overline{a}_k}\epsilon'+\sigma\epsilon)\\ &=(n+m\sqrt{\overline{a}_k})x_0+\sqrt{m^2(1-\overline{a}_k)+\sigma^2}\epsilon'' \end{aligned} xs=(nx0+mxk)+σϵ=(n+mak )x0+(m1ak ϵ+σϵ)=(n+mak )x0+m2(1ak)+σ2 ϵ′′注意到这个的形式与从 x 0 x_0 x0直接到 x s x_s xs的公式很像,即 x s = α ‾ s x 0 + 1 − a ‾ s ϵ x_s=\sqrt{\overline{\alpha}_s}x_0+\sqrt{1-\overline{a}_s}\epsilon xs=αs x0+1as ϵ,所以我们可以将这两个系数对应起来求解,得
m = 1 − α ‾ s − σ 2 1 − α ‾ k , n = α ‾ s − 1 − α ‾ s − σ 2 1 − α ‾ k α ‾ k m=\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}},n=\sqrt{\overline{\alpha}_s}-\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}}\sqrt{\overline{\alpha}_k} m=1αk 1αsσ2 ,n=αs 1αk 1αsσ2 αk 将上面的结果带入 x s x_s xs的均值 n x 0 + m x k nx_0+mx_k nx0+mxk,可得
μ = α ‾ s x 0 + 1 − α ‾ s − σ 2 1 − α ‾ k ( x k − α ‾ k x 0 ) \begin{aligned} \mu=\sqrt{\overline{\alpha}_s}x_0+\frac{\sqrt{1-\overline{\alpha}_s-\sigma^2}}{\sqrt{1-\overline{\alpha}_k}}(x_k-\sqrt{\overline{\alpha}_k}x_0) \end{aligned} μ=αs x0+1αk 1αsσ2 (xkαk x0)这样我们就求得了 P ( x s ∣ x k , x 0 ) P(x_s|x_k,x_0) P(xsxk,x0)满足的正态分布 N ( μ , σ 2 ) \mathcal{N}(\mu,\sigma^2) N(μ,σ2),其中只剩 σ \sigma σ为变量, x 0 x_0 x0可以像DDPM一样反解为 x k x_k xk的表达式代入,通过预测加噪的噪声来得到一个确定的 μ \mu μ

至于方差 σ \sigma σ,一般有两种取值,取 0 0 0时方差为 0 0 0,这个反向扩散就成了一个确定过程,对应标题中所说的“多样性换运行效率”,此时 σ = 0 \sigma=0 σ=0的状态就是我们通常所说的DDIM。而 σ = 1 − a t 1 − a ‾ t − 1 1 − a ‾ t \sigma=\frac{\sqrt{1-a_t}\sqrt{1-\overline{a}_{t-1}}}{\sqrt{1-\overline{a}_t}} σ=1at 1at 1at1 ,即在DDPM中推出来的方差时,整个过程会退化为DDPM的倒推过程。

需要注意的是,这里的 σ \sigma σ可以自由取值是因为我们假设 P ( x s ∣ x k , x 0 ) P(x_s|x_k,x_0) P(xsxk,x0)是一个均值 μ \mu μ未知,方差为 σ 2 \sigma^2 σ2的高斯分布,通过求解 μ \mu μ得到了一个只有 σ \sigma σ为自由变量的 x s x_s xs的表达式。可以把 σ \sigma σ视作一个超参数,只是通过实验发现在 σ = 0 \sigma=0 σ=0时效果最好。而DDPM中的方差是通过三个已知的正态分布计算来的,本身就是靠计算得来的确定的方差,所以不能随便更改,如果在DDPM的过程中使 σ = 0 \sigma=0 σ=0,效果会非常差。

而从实验结果来看, σ = 0 \sigma=0 σ=0的时候还是效果最好的,FID最低。在 S S S 50 50 50 100 100 100,即加速 10 − 20 10-20 1020倍时保持相近的生成质量。
在这里插入图片描述
更妙的是,因为DDPM中的U-Net预测的是加在 x t x_t xt上的噪声 ϵ \epsilon ϵ,这个是基于正向扩散的公式来的。而DDIM并没有改变这一过程,因此一个训练好的DDPM中的U-Net也可以直接拿到DDIM里面,甚至不需要额外训练。DDIM只是更改了DDPM反向扩散的过程,通过跳步加速推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/523557.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot整合ShardingSphere分库分表并插入1kw条记录

目录 一&#xff0c;数据分片 二&#xff0c;水平分片 三&#xff0c;创建数据库表 四&#xff0c;springboot项目导入依赖 五&#xff0c;创建类 六&#xff0c;bug bug放到最后了。 一&#xff0c;数据分片 数据分片指按照某个维度将存放在单一数据库中的数据分散地存…

(学习日记)2024.04.06:UCOSIII第三十四节:互斥量函数接口讲解

写在前面&#xff1a; 由于时间的不足与学习的碎片化&#xff0c;写博客变得有些奢侈。 但是对于记录学习&#xff08;忘了以后能快速复习&#xff09;的渴望一天天变得强烈。 既然如此 不如以天为单位&#xff0c;以时间为顺序&#xff0c;仅仅将博客当做一个知识学习的目录&a…

【Hadoop技术框架-MapReduce和Yarn的详细描述和部署】

前言&#xff1a; &#x1f49e;&#x1f49e;大家好&#xff0c;我是书生♡&#xff0c;今天的内容主要是Hadoop的后两个组件&#xff1a;MapReduce和yarn的相关内容。同时还有Hadoop的完整流程。希望对大家有所帮助。感谢大家关注点赞。 &#x1f49e;&#x1f49e;前路漫漫&…

香港科技大学(广州)智能制造学域可持续能源与环境学域博士招生宣讲会——重庆大学专场(暨全额奖学金政策)

两个学域代表教授亲临现场&#xff0c;面对面答疑解惑助攻申请&#xff01;可带简历现场咨询和面试&#xff01; &#x1f4b0;一经录取&#xff0c;享全额奖学金1.5万/月&#xff01; 报名链接&#xff1a;https://www.wjx.top/vm/wmuN2ea.aspx# 地点&#xff1a;重庆大学A区…

观《你想活出怎样的人生》有感

《你想活出怎样的人生》 四月六号&#xff0c;和赵茜小美女观看了宫崎骏导演拍的《你想活出怎样的人生》&#xff0c;感受颇丰&#xff0c;特此写一篇文章以记之。 电影简介 《你想活出怎样的人生》是宫崎骏执导的动画电影&#xff0c;不仅是宫崎骏的复出之作&#xff0c;也…

ARP寻址过程

当知道目标的IP但是不知道目标的Mac地址的时候就需要借助ARP寻址获取目标的Mac地址&#xff0c;传输层借助四元组&#xff08;源IP源端口&#xff1a;目标IP目标端口&#xff09;匹配&#xff0c;网络层借助IP匹配&#xff0c;数据链路层则根据Mac地址匹配&#xff0c;数据传输…

77、WAF攻防——权限控制代码免杀异或运算变量覆盖混淆加密传参

文章目录 WAF规则webshell免杀变异 WAF规则 函数匹配 工具指纹 webshell免杀变异 php 传参带入 eval可以用assert来替换,assert也可以将字符串当作php代码执行漏洞 php 变量覆盖 php 加密 使用加密算法对php后门进行加密 php 异或运算 简化:无字符webshellP 无数字字母rc…

Open3D(C++) 鲁棒损失函数优化的ICP算法

目录 一、损失函数1、关于2、损失函数3、Open3D实现二、代码实现三、结果展示1、配准前1、配准后本文由CSDN点云侠原创,

11、子串-滑动窗口最大值

题解&#xff1a; 双端队列是一种特殊的队列&#xff0c;允许你在队列的两端进行插入和删除操作。在滑动窗口问题中&#xff0c;我们使用它来存储可能是当前窗口最大值的元素的索引。 维护队列的顺序&#xff1a; 当新元素进入窗口时&#xff0c;我们将它与队列尾部的元素进…

307k star, 免费的编程书籍 free-programming-books

307k star, 免费的编程书籍 free-programming-books 分类 开源分享 项目名: free-programming-books -- 各种编程语言免费学习资源 Github 开源地址&#xff1a; https://github.com/EbookFoundation/free-programming-books 查找页面&#xff08;英文&#xff09;&#xff…

在线代码生成器Mybaitis和Mybaitis Plus

功能 支持根据提供的数据信息自动找表和表字段可以单独生成某个文件可以按需生成多个文件(打包为 zip)常用的 vo 和 dto 支持字段自定义(支持多表字段合并)在非包的场景可以不输入 root 包支持批量多表生成支持 lombok 和 swaggerMybaitis和Mybaitis Plus 在页面样式上基本一样…

java流式计算Stream

java流式计算Stream 流(Stream)到底是什么呢? 是数据渠道&#xff0c;用于操作数据源&#xff08;集合、数组等&#xff09;所生成的元素序列。 “集合讲的是数据&#xff0c;流讲的是计算! ” 特点&#xff1a; Stream自己不会存储元素。 Stream不会改变源对象。相反&#x…

分享一份适合练手的软件测试实战项目

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

面试算法-152-螺旋矩阵

题目 给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&#xff1a;[1,2,3,6,9,8,7,4,5] 解 class Solution {public List<Integ…

串口和 蓝牙模块HC08

串口基本认知 串行接口简称串口&#xff0c;也称 串行通信 接口或 串行通讯接口 &#xff08;通常指 COM 接口 &#xff09;&#xff0c;是采用串行通信方 式的 扩展接口 。串行 接口&#xff08;Serial Interface &#xff09;是指数据一位一位地顺序传送。其特点是 通信线路…

vulhub打靶记录——Corrosion2

文章目录 主机发现端口扫描ssh—22search openssh EXP web服务—8080目录扫描登录tomcat后台 提权切换用户查看用户权限寻找SUID命令破解登录密文 总结 主机发现 使用nmap扫描局域网内存活的主机&#xff0c;命令如下&#xff1a; nmap -sP 192.168.151.0/24192.168.151.1&am…

【LeetCode】894. 所有可能的真二叉树

文章目录 [894. 所有可能的真二叉树](https://leetcode.cn/problems/all-possible-full-binary-trees/)思路一&#xff1a;分治代码&#xff1a;思路二&#xff1a;记忆化搜索代码&#xff1a; 894. 所有可能的真二叉树 思路一&#xff1a;分治 1.递归&#xff0c;n1 时&#…

数字图像处理——数字图像基础(持续更新)

视觉感知要素——亮度适应和鉴别&#xff1a; 人眼对不同亮度的适应和鉴别能力&#xff1a;亮 -> 暗 适应&#xff1b;暗 -> 亮 适应 图像取样和量化 1、概念&#xff1a; 数字化坐标值称为取样 数字化幅度值称为量化 2、 坐标的数字化称为采样&#xff0c;…

【强化学习的数学原理-赵世钰】课程笔记(二)贝尔曼公式

【强化学习的数学原理-赵世钰】课程笔记&#xff08;二&#xff09;贝尔曼公式 一. 内容概述 1. 第二章主要有两个内容 &#xff08;1&#xff09;一个核心概念&#xff1a;状态值&#xff08;state value&#xff09;&#xff1a;从一个状态出发&#xff0c;沿着一个策略我…

GIS水文分析填充伪洼地学习

1 基本操作 洼地是指流域内被较高高程所包围的局部区域&#xff1b; 分为自然洼地和伪洼地&#xff1b; 自然洼地是自然界实际存在的洼地&#xff1b; 在 DEM 数据中&#xff0c;由于数据处理的误差和不合适的插值方法所产生的洼地&#xff0c;称为伪洼地&#xff1b; DEM 数据…