基于Difussion图像、视频生成综述

2024年大年初七(02.16)OpenAI 发布视频生成模型 Sora 在各大平台转疯了,和2022年发布ChatGPT3.5时一样的疯狂。在开工第一天,我就去官网上看了 Sora 的技术报告,遗憾的是,在这份技术报告中只披露了一些模型思想和效果展示,对于算法细节介绍的不多。一些大佬对此做了一些解读,提到最多的是 DiT (Scalable Diffusion Models with Transformers)这篇论文。直接讲 DiT 没有相关的知识铺垫难免有点像论文解读,为此本篇博文从Diffusion说起,梳理近几年来图像、视频生成相关的进展。对于理解不准确或者有误的地方,还需要多多交流讨论。

一、开山鼻祖(Diffusion)

随着深度学习的发展,图像生成一直是AI相关领域的研究热点,例如 GAN、VAE 等模型。2020年Jonathan Ho等人提出 DDPM 算法(Denoising Diffusion Probabilistic Models),这是一种基于扩散模型的图像生成算法。所谓的扩散,可以简单的理解为物体从有序到无序,最后到稳定的过程,比如一滴墨水滴入到水中逐渐变成一个均匀分布的水溶液。
红墨水扩散图 https://www.zhihu.com/question/310398434/answer/582993535

红墨水扩散图 https://www.zhihu.com/question/310398434/answer/582993535

那么以此类比,一滴墨水扩散到均匀无序的状态就像是一个图像从清晰变成噪声的过程,就像下图中石原里美姐姐笑容逐渐消失的过程。

石原里美笑容消失

石原里美笑容消失

假设扩散过程就是马尔可夫过程(可以简单理解为: 未来的状态或分布只与当前的状态有关,与过去的状态无关),扩散过程的逆过程符合高斯分布。从石原里美小姐姐笑容消失这个例子中理解就是, 左起第三张图的状态只与第二张图有关,与第一张图有关
在DDPM这篇论文中,将扩散过程分成两个部分,一个是前向过程,一个是反向过程。 前向过程就是图像加噪的过程(下图中从右往左)反向过程就是去噪的过程(下图中从左到右)。
前向过程与反向过程

前向过程与反向过程

1.1 加噪过程

对于加噪过程的马尔可夫过程如公式(1)所示:
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) (1-1) q(x_t|x_{t-1})=N(x_t;\sqrt{1-β_t}x_{t-1},β_tI) \tag{1-1} q(xtxt1)=N(xt;1βt xt1,βtI)(1-1)
其中 1 − β t \sqrt{1-β_t} 1βt 表示 t 时刻下的样本权重, β t β_t βt表示噪声的权重(正态分布)。用 z z z表示噪声,服从正态分布,将 α t = 1 − β t α_t=1-β_t αt=1βt α t ˉ = ∏ i = 1 T α i \bar{α_t}=\prod_{i=1}^Tα_i αtˉ=i=1Tαi带入计算,可得:
x t = α t x t − 1 + 1 − α t z t − 1 = α t α t − 1 x t − 2 + 1 − α t α t − 1 z ˉ t − 2 = . . . = a ˉ t x 0 + 1 − α ˉ t z \begin{align} x_t &=\sqrt{α_t}x_{t-1}+\sqrt{1-α_t}z_{t-1} \tag{1-2} \\ &=\sqrt{α_tα_{t-1}}x_{t-2}+\sqrt{1-α_tα_{t-1}}\bar z_{t-2} \tag{1-3} \\ &=...=\sqrt{\bar a_t}x_0+\sqrt{1-\bar α_t}z \tag{1-4} \end{align} xt=αt xt1+1αt zt1=αtαt1 xt2+1αtαt1 zˉt2=...=aˉt x0+1αˉt z(1-2)(1-3)(1-4)
从这样的推理来看, x t x_t xt可以由 x 0 x_0 x0和噪声得到,即:
q ( x t ∣ x 0 ) = N ( x t ; a ˉ t x 0 , ( 1 − α ˉ t ) I ) (1-5) q(x_t|x_0)=N(x_t;\sqrt{\bar a_t}x_0,(1-\bar α_t)I) \tag{1-5} q(xtx0)=N(xt;aˉt x0,(1αˉt)I)(1-5)
其中上式(3)中的 z ˉ t − 2 \bar z_{t-2} zˉt2 是什么呢?其实是 z t − 1 , z t − 2 z_{t-1},z_{t-2} zt1,zt2的加权求和,两个独立的正态分布相加之后还是一个正态分布。公式里面为了简化表示成一个正态分布了。
那么这一大推公式推导的目的是什么? 加噪的过程可以看成是马尔可夫过程,当前状态都取决于上一步的状态,现在推导发现,从 x 0 x_0 x0可以直接计算出来 x t x_t xt,这样就简单很多了呀!想象一下,石原姐姐的微笑,你一次就能让她消失,是不是会惊喜! 不用按照马尔可夫过程训练一个样本要迭代 T T T 次。

1.2 去噪过程

去噪过程也就是从噪声中恢复数据,这个过程要比加噪声复杂很多。在加噪声的时候,我们已知t-1时刻的图像,已知噪声分布,那么加上一个噪声的权重就可以得到加噪之后 t 时刻的图像; 反过来的话,我们只知道 t 时刻加噪之后的图像,不知道 t − 1 t-1 t1 时刻的原图和 t − 1 t-1 t1 时刻增加的噪声,这样就比较难搞了。 或许可以学习一个网络模型 f f f 用来预测增加的噪声,即 z t − 1 = f ( x t ) z_{t-1}=f(x_t) zt1=f(xt) 【默认 x t x_t xt= α t x t − 1 + 1 − α t z t − 1 \sqrt{\alpha_t}x_{t-1} + \sqrt{1-\alpha_t}z_{t-1} αt xt1+1αt zt1】,但是这样训练过程会非常复杂。想象一下:对于一个样本,需要迭代 t 个时间步,每迭代一个时间步都需要把 t-1 时刻的图像、 t-1 时刻添加的噪声以及 t 时刻的结果记录下来,然后拿过来去训练模型预测噪声。这样模型训练时需要先扩散到 t 时间步,然后训练一次 t-1 时间步,复杂度会非常高,如果 T 比较大更是增加了训练的难度。有人问了,上一节中推导可以直接从 x 0 x_0 x0 得到 x t x_t xt, 那么有没有什么方法可以从 x t x_t xt 得到 x t − 1 x_{t-1} xt1 呢? 也就是求解 x t − 1 = h ( x t , x 0 ) x_{t-1}=h(x_t,x_0) xt1=h(xt,x0), 即求 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t,x_0) q(xt1xt,x0),其实是可以的。注意:这里把 x 0 x_0 x0 当做已知变量,为什么已知呢?因为它就是原图呀。

t-1时刻的数据可以表示为与上面的推导类似 [2],即:
q ( x t − 1 ∣ x t , x 0 ) = q ( x t − 1 , x t , x 0 ) q ( x t , x 0 ) = q ( x t ∣ x t − 1 , x 0 ) q ( x t − 1 , x 0 ) q ( x t , x 0 ) = q ( x t ∣ x t − 1 , x 0 ) q ( x t − 1 ∣ x 0 ) q ( x t ∣ x 0 ) = q ( x t ∣ x t − 1 ) q ( x t − 1 ∣ x 0 ) q ( x t ∣ x 0 ) \begin{align} q(x_{t-1}|x_t,x_0)&=\frac{q(x_{t-1},x_t,x_0)}{q(x_t,x_0)} \tag{1-6} \\ &=\frac{q(x_t|x_{t-1},x_0)q(x_{t-1},x_0)}{q(x_t,x_0)} \tag{1-7} \\ &=\frac{q(x_t|x_{t-1},x_0)q(x_{t-1}|x_0)}{q(x_t|x_0)} \tag{1-8} \\ &=\frac{q(x_t|x_{t-1})q(x_{t-1}|x_0)}{q(x_t|x_0)} \tag{1-9} \end{align} q(xt1xt,x0)=q(xt,x0)q(xt1,xt,x0)=q(xt,x0)q(xtxt1,x0)q(xt1,x0)=q(xtx0)q(xtxt1,x0)q(xt1x0)=q(xtx0)q(xtxt1)q(xt1x0)(1-6)(1-7)(1-8)(1-9)
其中 q ( x t − 1 ∣ x 0 ) q(x_{t-1}|x_0) q(xt1x0)就是公式(1)的扩散过程, q ( x t ∣ x 0 ) q(x_t|x_0) q(xtx0)就是公式(5), 带入一通操作(我也没有算明白,哈哈哈 ),对于 t 时刻:
q ( x t − 1 ∣ x t , x 0 ) = N ( x t − 1 ; μ ~ ( x t , x 0 ) , β ~ t I ) (1-10) q(x_{t-1}|x_t, x_0)=N(x_{t-1};\tilde \mu(x_t,x_0),\tilde \beta_{t}I)\tag{1-10} q(xt1xt,x0)=N(xt1;μ~(xt,x0),β~tI)(1-10)
其中:
β ~ t = 1 − α ˉ t − 1 1 − α ˉ t β t , μ ~ t ( x t , x 0 ) = α ˉ t − 1 β t 1 − α ˉ t x 0 + α t ( 1 − α ˉ t − 1 ) 1 − α ˉ t x t (1-11) \tilde \beta_t=\frac{1-\bar \alpha_{t-1}}{1-\bar \alpha_t} \beta_t ,\tilde \mu_t(x_t,x_0)=\frac{\sqrt{\bar \alpha_{t-1}\beta_t}}{1-\bar\alpha_t}x_0+\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}x_t\tag{1-11} β~t=1αˉt1αˉt1βt,μ~t(xt,x0)=1αˉtαˉt1βt x0+1αˉtαt (1αˉt1)xt(1-11)
从公式(4)可以得到:
x 0 = 1 α ˉ t ( x t − 1 − α ˉ t z ) (1-12) x_0=\frac{1}{\sqrt{\bar\alpha_t}}(x_t-\sqrt{1-\bar\alpha_t}z)\tag{1-12} x0=αˉt 1(xt1αˉt z)(1-12)
μ ~ t ( x t , t ) = 1 α t ( x t − β t 1 − α ˉ t z ˉ t ) (1-13) \tilde\mu_t(x_t,t)=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\bar z_t)\tag{1-13} μ~t(xt,t)=αt 1(xt1αˉt βtzˉt)(1-13)
到了这里局势明朗了, q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t,x_0) q(xt1xt,x0)可以直接由 x t x_t xt 和 后面的噪声 z z z 决定了。那么反向扩散的推理就有了:
x t − 1 = u ~ t + β ~ t z t = 1 α t ( x t − 1 − α t 1 − α ˉ t z ˉ t ) + 1 − α ˉ t − 1 1 − α ˉ t β t z t ( x t , t ) \begin{align} x_{t-1}&=\tilde u_t+\tilde \beta_tz_t \tag{1-14} \\ &=\frac{1}{\sqrt{\alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\bar z_t) + \frac{1-\bar \alpha_{t-1}}{1-\bar \alpha_t}\beta_tz_t(x_t,t) \tag{1-15} \end{align} xt1=u~t+β~tzt=αt 1(xt1αˉt 1αtzˉt)+1αˉt1αˉt1βtzt(xt,t)(1-14)(1-15)
好了,说到这里优雅的理论推理就结束了,从这里可以看到当有了 x t x_t xt通过 z ˉ t \bar z_t zˉt就能得到 x t − 1 x_{t-1} xt1了。那么怎么去计算或者估计 z ˉ t \bar z_t zˉt呢,直接用神经网络来预测就好(既然算不出来,就学出来,嗯哼!!)。

1.3 模型的训练与推理

对于模型的训练,简单来说就是对图像进行加噪声,然后通过 UNet去预测的噪声。由公式(4-5)中推理证明了,时间 t 时刻的样本可以通过一次加噪实现,然后模型去预测这个噪声(如下图左图)。采样过程就是输入一个正态分布的噪声,然后迭代 T T T次,逐步预测 x t , x t − 1 , x t − 2 , . . . , x 1 , x 0 x_t,x_{t-1},x_{t-2},...,x_1,x_0 xt,xt1,xt2,...,x1,x0 (如下图右图)。
Denoising Diffusion Probabilistic Models中训练与采样过程

Denoising Diffusion Probabilistic Models中训练与采样过程

1.3.1 预测噪声?预测 x 0 x_0 x0?

论文中提出的方法是预测噪声,那么有人问了,预测噪声这么抽象,能不能直接预测 x 0 x_0 x0 呢?其实也是可以的,论文的源码里面实现是预测的噪声(DDPM源码中通过噪声预测原图代码)。pytorch版本里面实现可以直接预测 x 0 x_0 x0 (链接),还有预测 v v v (链接)。
对于预测噪声或者 x 0 x_0 x0有什么区别呢?
(1)如果预测噪声,对于一个batch中采样不同的时间步,损失优化时会平等对待;
(2)如果预测 x 0 x_0 x0,由于时间步的关系,不同的时间步下噪声的权重不同,相当于时间步越大,权重越大。

1.4 模型分析

从训练过来看,就是预测一个图像中的噪声,然后把噪声恢复出来(或者恢复出清晰度更高的图);采样的过程就是一步步从带有噪声的图像中恢复原图。那么能不能直接从噪声中恢复出原图呢(这里是不是类似于VAE中的Decoder)?理论上应该可行。猜测通过这样一步步的恢复,效果可能会比较好,另外也降低了模型学习的难度。

二、崭露头角(LDM)

Diffusion 中提出使用UNet 预测噪声的方式来实现图像生成,在图像生成中需要迭代 T T T 个时间步。由于每次迭代都需要过一遍 UNet 网络,当 T T T比较大时,将会非常耗时;另外,Diffusion 无法控制生成的图像,只能随机生成。LDM (High-Resolution Image Synthesis with Latent Diffusion Models)从两个方面解决这些问题:
(1)通过编码器、解码器将图像降维到更低的尺度(下图中左边红色区域),然后再基于扩散模型进行训练(下图中中间绿色区域);
(2)增加条件控制模块(下图中右边模块),可以将图像、文本等特征注入到 UNet 中,指导图像生成。
LDM模型结构

LDM模型结构

2.1 图像编码-解码器

对于图像编码部分,将使用 E \Epsilon E作为编码器, D D D 作为解码器,有:
x ~ = D ( z ) = D ( E ( x ) ) (2-1) \tilde x=D(z)=D(\Epsilon(x)) \tag{2-1} x~=D(z)=D(E(x))(2-1)
其中 x ∈ R H ∗ W ∗ 3 , z ∈ R h ∗ w ∗ c x∈R^{H*W*3},z∈R^{h*w*c} xRHW3,zRhwc, 下采样的倍数为 2 的次方。论文中提到两种视频编码模块,一种的VQ-reg,一种是 KL-reg,看代码本质都是采用对抗的方式进行训练的。下图是 LDM 中使用的Encoder-Decoder的结构(注意为什么没有残差连接呢?因为要做特征编码,如果有残差连接岂不是无法编码了),代码在这里。(相关VQ-VAE、VQ-GAN等内容讲解参考,感兴趣可以移步了解)。
Encoder-Decoder

Encoder-Decoder模型结构

对于VQ-reg, 类似于一个VQ-GAN的损失如下,其中GEN 和 DIS 的损失是间隔一个 iter 进行优化的。
L V Q − G E N = L p i x e l + L p e r c e p t u a l + L g e n + L c o d e b o o k L V Q − D I S = L d i s \begin{align} L_{VQ-GEN}&=L_{pixel}+L_{perceptual}+L_{gen}+L_{codebook}\tag{2-2} \\ L_{VQ-DIS}&=L_{dis}\tag{2-3} \end{align} LVQGENLVQDIS=Lpixel+Lperceptual+Lgen+Lcodebook=Ldis(2-2)(2-3)
对于KL-reg, 类似 VAE,增加了 KL 损失,总得损失如下:
L A E K L − G E N = L p i x e l + L p e r c e p t u a l + L g e n + L k l L A E K L − D I S = L d i s \begin{align} L_{AEKL-GEN}&=L_{pixel}+L_{perceptual}+L_{gen}+L_{kl}\tag{2-4} \\ L_{AEKL-DIS}&=L_{dis}\tag{2-5} \end{align} LAEKLGENLAEKLDIS=Lpixel+Lperceptual+Lgen+Lkl=Ldis(2-4)(2-5)

2.2

未完待续~

参考文献(相关论文的引用直接在正文中贴上了论文名称及链接,可以直接点击跳转):
[1] https://zhuanlan.zhihu.com/p/563543020 (前面讲的关于GAN、VAE等模型的对比讲的好)
[2] https://zhuanlan.zhihu.com/p/663880249 (反向过程中问题说明讲的好)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/526028.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

苹果证书分类及作用详解,助力开发者高效管理应用程序

转载:苹果证书的作用及分类详解 摘要:本文将详细介绍苹果证书的作用及分类,包括企业证书、开发者证书、 推送证书、分发证书和MDM证书,帮助开发者了解如何正确使用和管理这些证书, 提升应用程序的开发和发布效率。 引…

基于SSM的校园二手物品交易平台论文

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本校园二手物品交易平台就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理完毕庞大的数据…

基于单片机分舱式电开水炉位控制系统

**单片机设计介绍,基于单片机分舱式电开水炉位控制系统 文章目录 一 概要二、功能设计三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机分舱式电开水炉位控制系统概要主要涉及通过单片机对电开水炉的各个舱位进行精确控制,实现水位、温度…

C++中的指针:其重要性与应用深度解析

在C编程语言的世界中,指针无疑是一个至关重要的概念。它不仅是C语言的核心特性之一,更是实现高效、灵活编程的关键工具。理解并熟练掌握指针的使用,对于提升程序设计能力、优化代码性能以及深入理解计算机内存模型具有不可估量的价值。 为了帮…

HarmonyOS 应用开发-ArkUI(ets)仿“腾讯新闻”APP

一、效果演示 1、新闻列表页 2、新闻详情页、图片展示页 3、视频页 4、动态页 二、 流程图 –本来自定义了视频的控制栏的,但是发现VideoController()控制器的bug会导致控制器失效,所以没继续做。视频页先不搞了。 三、文件组织(“我的页面…

mac上搭建鸿蒙开发环境(2024)

开发环境 设备 MacBook Pro 芯片 Apple M1 系统 11.4 内存 16 GB 一、下载公开版本的DevEco Studio 华为官方目前对外提供的版本是DevEco Studio 3.1,可在官网下载https://developer.huawei.com/consumer/cn/deveco-studio/ 因为目前还在学习阶段,…

OpenHarmony实战:轻量系统STM32F407芯片移植案例

介绍基于STM32F407IGT6芯片在拓维信息Niobe407开发板上移植OpenHarmony LiteOS-M轻量系统,提供交通、工业领域开发板解决方案。 移植架构采用Board与SoC分离方案,使用arm gcc工具链Newlib C库,实现了lwip、littlefs、hdf等子系统及组件的适配…

循序表实战——基于循序表的通讯录

前言:本篇文章主要是利用顺序表作为底层, 实现一个通讯录。偏向于应用, 对于已经学习过c的友友们可能没有难度了已经。没有学习过c的友友, 如果顺序表不会写, 或者说没有自己实现过, 请移步学习顺序表相关内…

xgo: golang基于-toolexec实现猴子补丁

注: 转载请注明出处, 原文链接。 概述 在这篇博客中,我将详细介绍 xgo 的实现细节。 如果你不知道,xgo 项目位于 https://github.com/xhd2015/xgo。 它的作用很简单,就是在每个 Go 函数的开头添加拦截器&#xff0…

python-面向对象编程

面向对象编程 面向对象,python中支持两种编程方式,来写代码,分别是:函数式编程和面向对象 函数式: # 定义函数,在函数中实现功能 def func():print("一个NB的功能")面向对象 calss FOO(object):d…

git提交代码时报错,提不了

问题 今天在换了新电脑,提交代码时报错 ✖ eslint --fix found some errors. Please fix them and try committing again. ✖ 21 problems (20 errors, 1 warning) husky > pre-commit hook failed (add --no-verify to bypass) 解决 通过 --no-verify 解决&…

JavaScript - 请你说一说对随机数的理解

难度级别:初级及以上 提问概率:40% 在前端开发中,随机数的应用场景非常多,而且也是一个常见的考点。例如网页登录的验证码,看似只有4个随机数字加字母的组合,其实这也是随机数的范畴;例如在抽奖算法中,可以用随机数确定用户中奖的概率…

解决电脑无故自动关机或重启的15种方法,总有一种适合你

序言 你的Windows PC是否在没有警告的情况下关闭或重新启动?这背后有几个潜在的原因。例如,它可能是软件/硬件冲突、过热或硬盘驱动器错误。本故障排除指南将概述在Windows 10/11中修复自动关闭和重新启动的多个解决方案。 如果你的计算机经常关闭,则必须在安全模式下启动…

如何实现异地公网环境访问本地部署的支付宝沙箱环境调试支付SDK

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Flutter如何集成到已有iOS工程上

大家好,我是咕噜铁蛋,今天我将和大家分享一个实用的技术教程——如何将Flutter集成到已有的iOS工程中。Flutter是Google推出的一款开源的移动UI框架,它允许开发者使用Dart语言来开发高性能、美观的原生应用,并支持iOS和Android两大…

DLDP简介

定义 设备链路检测协议DLDP(Device Link Detection Protocol)用来监控光纤或铜质双绞线(例如超五类双绞线)的链路状态。如果发现单向链路存在,DLDP协议会根据用户配置,自动关闭或通知用户手工关闭相关接口…

ai绘画软件有哪些?这几款宝藏AI绘图别错过

今天我要和你们分享一些令人兴奋的AI绘画软件。这些软件不仅能够让你的创作过程更加有趣,还能帮助你提升绘画技巧。快来看看吧! 首先,我们来介绍一款备受推崇的软件——【爱制作AI】。 爱制作AI是国内专业的AI原创内容写作平台,结…

JavaScript - 你知道Ajax的原理吗?如何封装一个Ajax

难度级别:中高级及以上 提问概率:75% 想要实现Ajax,就需要创建它的核心通信对象XMLHttpRequest,通过核心对象的open方法与服务端建立连接,核心对象的send方法可以将请求所需数据发送给服务端,服务端接收到请求并做出响应,我们通过核心对象…

技术再度取得优势,人工智能兴起推动需求,美芯涨价收割市场,收割中国制造?...

独家首发 ------------- 分析机构指出一季度全球存储芯片涨价了15%左右,而近期三星半导体预测全球存储芯片的价格还将继续上涨,预计二季度至少上涨两成,显示出美系芯片在忍受了一年多的亏损之后再度联手涨价。 2022年中国存储芯片取得了重大进…

2024/4/2—力扣—最小高度树

代码实现: /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ struct TreeNode* buildTree(int *nums, int l, int r) {if (l > r) {return NULL; // 递归出口}struct…