AIGC001-latent-diffusion(SD)第一次让文生图如此生动有趣！

文章目录

- 0 论文工作
- 1 论文方法
- 2 效果

0 论文工作

通过将图像形成过程分解为去噪自编码器的连续应用，扩散模型（DMs）实现了对图像数据等方面的最先进的综合结果。这些方法允许一个指导机制来控制图像生成过程，而无需再训练。然而，由于这些模型通常直接在像素空间中运行，因此进行优化功能强大的dm通常会消耗数百天的GPU，而且由于顺序评估，推理是昂贵的。使其能够在有限的计算资源上进行DM培训，同时保持其质量和质量灵活性，本文将它们应用于强大的预训练自动编码器的潜在空间。与以前的工作相比，在这种表示上训练扩散模型允许第一次达到复杂性降低和细节保存之间的一个接近最优的点，大大提高了视觉保真度。通过在模型架构中引入交叉注意层，使得扩散模型成为强大和灵活的生成器，用于一般条件输入，如文本或边界框和高分辨率合成，以卷积的方式成为可能。
简单来说，这篇论文提出了潜扩散模型 (Latent Diffusion Models, LDMs)，一种用于高分辨率图像合成的新的生成式模型。LDMs 结合了自编码器和扩散模型的优势，在图像的低维潜空间中执行扩散过程，而不是在高维像素空间中。这种方法显著提高了生成效率和图像质量，并能够生成具有精细细节和逼真纹理的高分辨率图像。此外，LDMs 可以通过引入条件信息来控制生成过程，例如文本描述或类别标签，实现特定类型图像的合成。
相较于当时的同期DALLE系列和IMAGEN系列的策略方法，SD目前成为最受欢迎的底层文生图模型，无论是提升可控的controlnet，T2I-adapter还是定制概念的dreambooth，扩充性能的SDXL实际上都是让sd成为一个更好用的工具。在civitai 等网站可以看到各种玩家训练的sd模型，这是意见很酷的事情。毫无疑问SD是现在免费试用的最好的最核心的文生图模型。但是开源开的好就是不赚钱（题外话）。。。

1 论文方法

在这里插入图片描述
LDMs 主要包含以下三个步骤：
a. 感知压缩：
首先，使用一个变分自编码器 (Variational Autoencoder, VAE) 将高分辨率图像压缩到一个低维的潜空间。VAE 的编码器将图像映射到潜空间中的一个低维向量，而解码器则将潜向量重建为高分辨率图像。
VAE 的训练目标是最大化输入图像的变分下界 (ELBO)，这确保了潜空间能够捕捉图像的重要信息，同时去除高频噪声和不必要的细节。
b. 潜空间扩散：
在潜空间中，LDMs 应用一个马尔可夫链来描述扩散过程。该过程从一个随机噪声向量开始，逐步将其转换为有意义的图像表示。
扩散过程由一系列高斯分布组成，每个高斯分布的均值和方差由一个预先定义的时间步长控制。随着时间步长的增加，高斯分布的方差逐渐减小，噪声逐渐被消除，最终得到一个清晰的图像表示。
LDMs 的扩散模型是一个U-Net 架构，它被训练来预测每个时间步长的噪声，从而逆转扩散过程，从噪声中恢复图像表示。
c. 条件生成和高分辨率重建：
为了实现条件图像生成，LDMs 使用交叉注意力机制将条件信息（例如文本描述或类别标签）融入到 U-Net 中。这样，扩散模型可以根据条件信息来引导生成过程，生成符合特定要求的图像。
最后，使用 VAE 的解码器将潜空间中的图像表示重建为高分辨率图像。
2. 优缺点:
优点:
高分辨率: LDMs 能够生成具有精细细节和逼真纹理的高分辨率图像。
高效性: 由于扩散过程在低维潜空间中进行，LDMs 的训练和推理效率更高。
多样性: LDMs 能够生成各种不同风格和内容的图像，表现出很强的多样性。
可控性: 通过引入条件信息，LDMs 可以实现对生成过程的精细控制。
缺点:
训练数据需求: LDMs 通常需要大量的训练数据才能学习到图像的复杂分布。
计算成本: LDMs 的训练和推理过程仍然需要较高的计算资源。
难以捕捉全局结构: LDMs 在捕捉图像的全局结构方面可能会存在一些局限性，例如生成大型物体或复杂场景时。