可控生成：ControlNet原理

🤗关注公众号funNLPer体验更佳阅读🤗
论文：Adding Conditional Control to Text-to-Image Diffusion Models
代码：lllyasviel/ControlNet
简单来说ControlNet希望通过输入额外条件来控制大型图像生成模型，使得图像生成模型根据可控。

文章目录

1. 动机
2. ControlNet原理
3. ControlNet inStable Diffusion Model
- 3.1 网络结构
- 3.2 训练过程
4. 生成效果
5. 参考

1. 动机

当前文生图任务中会出现如下问题：

特定任务中往往无法获取大规模的训练数据
对于大部分人来说，并没有大规模计算集群资源
各种图像生成任务中会有多种问题定义、用户控制条件、图像标注的形式

从而造成当前基于prompt控制的模型并不能满足特定业务需求。ControlNet的提出就是为了解决上面几个问题。

此外，我们在使用Stable Diffusion通过prompt生成图片时，很多时候我们希望能够生成一些固定姿态的物体，如下图所示，可能我们就想生成一只和最左边参考图像中鹿的姿态一摸一样的鹿，很显然如果直接通过prompt很难控制，这里主要有两个难点：

如何非常准确详细的描述左边鹿的姿态
即使参考图片鹿的姿态被描述的很准确，将prompt送入到模型中，依然无法控制姿势不变

而通过controlNet即可非常方便的解决这个问题，如下图所示，只需使用canny边缘检测，将参考图片的物体的边缘识别出来，然后将边缘轮廓图作为条件输入到模型中，即可轻松生成与参考图像姿势一样的鹿，同时通过prompt来控制鹿的颜色
在这里插入图片描述
当然，ControlNet功能强大，其输入条件可以是边缘轮廓图、手绘轮廓图、语义分割图、深度图等，从而使得控制变得更加简单。

2. ControlNet原理

如图1左图所示，在一个扩散模型中，如果不加ControlNet的扩散模型，其中原始的神经网络 $\mathcal{F}$ 输入 $x$ 获得 $y$ ，其中 $\mathcal{\Theta}$ 是扩散模型的参数。
$y={\mathcal{F}}(x;\Theta)$
在这里插入图片描述

图2.1 controlNet示意图

图1的右图展示了如何在原始神经网络上 $\mathcal{F}$ 上构建ControlNet；ControlNet 将一个大型扩散模型的权重克隆为一个“可训练副本”和一个“锁定副本”：锁定的副本 (locked) 保留了从数十亿张图像中学习到的网络能力，而可训练副本 (trainable copy) 在特定任务的数据集上进行训练，以学习条件控制。经过上图所示的改变后，神经网络的输出变成如下式所示：

$y_{c}={\mathcal{F}}(x;\Theta)+{\mathcal{Z}}({\mathcal{F}}(x+{\mathcal{Z}}(c;\Theta_{z1});\Theta_{c});\Theta_{z2})$