扩散模型条件生成——Classifier Guidance和Classifier-free Guidance原理解析

1、前言

从讲扩散模型到现在。我们很少讲过条件生成（Stable DIffusion曾提到过一点），所以本篇内容。我们就来具体讲一下条件生成。这一部分的内容我就不给原论文了，因为那些论文并不只讲了条件生成，还有一些调参什么的。并且推导过程也相对复杂。我们从一个比较简单的角度出发。

参考论文：Understanding Diffusion Models: A Unified Perspective (arxiv.org)

参考代码：

classifier guidance：GitHub - openai/guided-diffusion

classifier-free guidance：GitHub - coderpiaobozhe/classifier-free-diffusion-guidance-Pytorch: a simple unofficial implementation of classifier-free diffusion guidance

视频：[扩散模型条件生成——Classifier Guidance和Classifier-free Guidance原理解析-哔哩哔哩]

2、常用的条件生成方法

在diffusion里面，如何进行条件生成呢？我们不妨回忆一下在Stable Diffusion里面的一个常用做法。即在训练的时候。给神经网络输入一个条件。
$L=||\epsilon-\epsilon_{\theta}(x_t,t,y)||^2$
里面的y就是条件。至于为什么有效，请看我之前写过的Stable DIffusion那篇文章。在此不过多赘述了。我们来讲这种方法所存在的问题。

很显然的，这种训练的方式，会有一个问题，那就是神经网络或许会学会忽略或者淡化掉我们输入的条件信息。因为就算我们不输入信息，他也照样能够生成。

接下来我们来讲两种更为流行的方法——分类指导器（Classifier Guidance）和无分类指导器（ Classifier-Free Guidance）

3、Classifier Guidance

为了简单起见。我们从分数模型的角度出发。

回忆一下在SDE里面的结论。其反向过程为
$\mathbb{dx}=\left[\mathbb{f(x,t)}-g(t)^2\nabla_x\log p_t(x)\right]\mathbb{dt}+g(t)\mathbb{d\bar w}\tag{1}$
如果施加条件的话，还是根据Reverse-time diffusion equation models - ScienceDirect这篇论文，可得条件生成时的反向SDE为
$\mathbb{dx}=\left[\mathbb{f(x,t)}-g(t)^2\nabla_x\log p_t(x|y)\right]\mathbb{dt}+g(t)\mathbb{d\bar w}\tag{2}$
我们利用贝叶斯公式，对 $\nabla x \log p_t(x|y)$ 进行处理
$\begin{aligned}\nabla_x \log p_t(x|y)=&\nabla_x\log\frac{p_t(y|x)p_t(x)}{p_t(y)}\\=&\nabla_x\left(\log p_t(y|x)+\log p_t(x)-\log p_t(y)\right)\\=&\nabla_x \log p_t(x)+\nabla_x\log p_t(y|x)\end{aligned}\nonumber$
第二个等号到第三个等号是因为对 $log p_t(y)$ 关于x求梯度等于0（ $log p_t(y)$ 与x无关）

把它代入Eq.(2)可得
$\mathbb{dx}=\left[\mathbb{f(x,t)}-g(t)^2\left(\nabla_x\log p_t(x)+\nabla_x\log p_t(y|x)\right)\right]\mathbb{dt}+g(t)\mathbb{d\bar w}\tag{3}$
对比Eq.(1)和Eq.(3)。我们不难发现，它们的差别，居然是只多了一个 $\nabla_x\log p_t(y|x)$

$p_t(y|x)$ 是什么？是以 $x$ 作为条件，时间为t对应条件y的概率。我们可以怎么求呢？该怎么求出来呢？

当然是使用神经网络了。也就是说，我们可以额外设定一个神经网络，该神经网络输入是 $x_t$ ，输出是条件为y的概率

所以，实际上我们现在需要训练两部分，一部分是 $\nabla_x\log p_t(x)$ ，这我们在SDE中已经讲过该如何训练了。

另一个就是 $\nabla_x\log p_t(y|x)$ ，他就是一个分类神经网络网络。训练好之后，我们就可以使用Eq.(3)通过不同的数值求解器，进行优化了。

作者在此基础上，又引入了一个控制参数 $\lambda$
$\nabla_x \log p_t(x|y)=\nabla_x\log p_t(x)+\lambda\nabla_x\log p_t(y|x)\tag{4}$
当 $\lambda=0$ ，表示不加入任何条件。当 $\lambda$ 很大时，模型会产生大量附带条件信息的样本。

这种方法的一个缺点就是，需要额外学习一个分类器 $p_t(y|x)$

4、Classifier-Free Guidance

之前推出
$\nabla_x \log p_t(x|y)=\nabla_x \log p_t(x)+\nabla_x\log p_t(y|x)\tag{5}$
把该式子代入Eq.(4)可得
$\begin{aligned}\nabla_x \log p_t(x|y)=&\nabla_x\log p_t(x)+\lambda\left(\nabla_x\log p_t(x|y)-\nabla_x\log p_t(x)\right)\\=&\nabla_x\log p_t(x)+\lambda\nabla_x\log p_t(x|y)-\lambda\nabla_x\log p_t(x)\\=&\left(1-\lambda\right)\nabla_x\log p_t(x)+\lambda\nabla_x\log p_t(x|y)\end{aligned}\nonumber$
此时我们注意到，当 $\lambda=0$ 是，第二项完全为0，会忽略掉条件；当 $\lambda=1$ 时，使用第二项，第二项就是附带有条件情况下的分布分数网络；而当 $\lambda> 1$ ，模型会优化考虑条件生成样本，并且远离第一项的无条件分数网络的方向，换句话说，它降低了生成不使用条件信息的样本的概率，而有利于生成明确使用条件信息的样本。

事实上，如果你看了free-Classifier Guidance这篇论文，会发现我们的结论不一样。

其实论文里面的控制参数是 $w$ ，也就是说，Eq.(4)就变成了这样
$\nabla_x \log p_t(x|y)=\nabla_x\log p_t(x)+w\nabla_x\log p_t(y|x)$
我们把控制参数改成 $1 + w$ 不会有任何影响
$\nabla_x \log p_t(x|y)=\nabla_x\log p_t(x)+(1+w)\nabla_x\log p_t(y|x)$
把Eq.(5)代入该式子
$\begin{aligned}\nabla_x \log p_t(x|y)=&\nabla_x\log p_t(x)+(1+w)\left(\nabla_x\log p_t(x|y)-\nabla_x\log p_t(x)\right)\\=&\nabla_x\log p_t(x)+(1+w)\nabla_x\log p_t(x|y)-(1+w)\nabla_x\log p_t(x)\\=&(1+w)\nabla_x\log p_t(x|y)-w\nabla_x\log p_t(x)\end{aligned}\tag{6}$
这就是原论文里面的结论。

那么接下来，我们来探讨一下该如何去训练。

对于 $\nabla_x\log p_t(x)$ ，这个不用说了，之前我们训练的就是这个；如何计算 $\nabla_x\log p_t(x|y)$ 呢，它实际上就是在给定y的情况下，求出 $p_t(x|y)$ 。那我们可以怎么做呢？

在NCSN，我们是使用一个加噪分布 $q(\tilde x|x)$ 取代 $p (x)$ ，而从让它是可解的。

对于 $p_t(x|y)$ ，即便是加多了一个条件之后，我们仍然建模为 $q(\tilde x|x)$ ，也就是说，我们仍然把它建模成一个正向加噪过程。因此，无论是否增加条件。最终的损失函数结果都是
$L=||s_\theta-\nabla_x\log q(\tilde x|x)||^2=||s_\theta-\nabla_x\log q(x_t|x_0)||^2$
后者是通过SDE统一的结果（我在SDE那一节讲过）

那该如何体现条件y呢？其实我们在第二节的时候已经说过了，就是在里面神经网络的输出加入一个条件y。
$L=||s_\theta(x_t,t,y)-\nabla_x\log q(x_t|x_0)||^2\tag{7}$
而不施加条件的时候，长这样
$L=||s_\theta(x_t,t)-\nabla_x\log q(x_t|x_0)||^2\tag{8}$
由Eq.(5)可知，我们需要训练两种情况，一种是有条件的，对应Eq.(7)；另外一种是无条件的，对应Eq.(8)。

理论上，我们其实也是要训练两个神经网络。但实际上，我们可以把他们结合成一种神经网络。

具体操作就是把无条件的情况作为一种特例。

当我们训练有条件的神经网络的时候，会照样把条件输入进网络里面。而训练无条件的时候，我们构造一个无条件的标识符，把它作为条件输入给神经网络，比如对于所有无条件的情况，我都构造一个0作为条件输入到神经网络里面。通过这种方式，我们就可以把两个网络变成一个网络了，

对于损失函数，直接使用Eq.(7)。我们在SDE里面讲过 $\nabla_x \log p(x)=-\frac{1}{\sigma}\epsilon$ 。所以我们最终我们把预测噪声，变成了预测分数。我们同样可以把它变回来，变成预测分数
$L=||\epsilon-\epsilon_{\theta}(x_t,t,y)||^2$
所以损失函数就变成了这样。在训练的时候，作者设定一个大于等于0，小于等于1的超参数 $p_{uncond}$ ，它的作用就是判断是否需要输入条件（从0-1分布采样一个值，大于 $p_{uncond}$ 则使用条件，反之则不使用）。也就是说，这相当于dropout一样，随机舍弃掉一些条件，把他们作为无条件的情况（因为我们既要学习有条件的，又要学习无条件的）。所以，最终的训练过程就是这样