Stable Diffusion和AIGC
AIGC是什么
AIGC的全称叫做AI generated content,AlGC (Al-Generated Content,人工智能生产内容),是利用AI自动生产内容的生产方式。
在传统的内容创作领域中,专业生成内容(PGC)和用户生成内容(UGC)一直是两大主流模式,共同构成了内容生产的核心来源。专业生成内容通常由专业团队或机构制作,具有高质量和专业性,而用户生成内容则是由普通用户创作和分享的内容,具有更多的个性化和多样性。
然而,随着科技的不断进步,人工智能生成内容(AIGC)的兴起正在带来一场革命性的变革。通过人工智能技术,内容的生成过程变得更加自动化和智能化,不仅让人工智能具备了对世界的感知与理解能力,还进一步将其延伸至创造性生成层面。这一转变意味着内容创作的方式和方法发生了根本性的变化,也表明人工智能生成内容将在未来深刻影响并重塑各行业内容生产的范式和格局。
AIGC的发展依赖如下三个要素:
- 更强,同时也是更便宜的算力
- 更多的高质量数据集,包括文本、语音、视觉和多模态
- 模型技术的发展,更具有扩展性和更好的模型,比如Transformers和diffusion model
所以AIGC能做的,且做得比较好的领域越来越多,包括:
- 自然语言领域(比如代码生成、论文写作、诗歌对联、剧本创作,agent智能体)
- 语音领域(比如语音合成,音乐生成,个性化声音生成),
- 视觉领域的图像生成(stable diffusion, mid-journey)、以及最近也发展很迅速的视频生成(sora)。
AIGC的发展(以Picture Generation任务为例)
什么是文生图:
根据文生图的发展路线,我们把文生图的发展历程发展成如下4个阶段:
-
基于生成对抗网络的(GAN)模型
-
基于自回归(Autoregressive)模型
-
基于扩散(diffusion)模型
-
基于Transformers的扩散(diffusion)模型
扩散模型:Diffusion Models
扩散模型是目前大多数文本-图像模型采用的常见技术。
扩散模型包括两个过程。一个是前向过程,在训练过程中持续向原始数据添加高斯噪声以破坏数据,直到经过一定步数后,原始数据信息被完全破坏,趋近于纯噪声。另一个是反向过程,通过深度网络进行去噪,学习恢复数据。
训练完成后,我们可以通过输入随机噪声并将其传递给去噪过程来生成数据。这就是DDPM的基本原理。
Transformers的架构的Diffusion模型
背景
- 普遍认为Sora的核心技术点之一就是将视觉数据转化为Patch的统一表示形式,通过Transformer+Diffusion结合
- Paper: https://arxiv.org/abs/2212.09748
原理
基于Transformers的框架,Diffusion模型引入了一个名为U-ViT的简单而通用的架构,以替代latent diffusion model中U-Net部分的卷积神经网络(CNN),用于图像生成任务。
U-ViT采用了Transformers的设计方法,将包括时间、条件和噪声图像补丁在内的所有输入视为tokens
推理链路:
- 输入一张256x256x3的图片,经过Encoder后得到对应的latent,压缩比为8,latent space推理时输入32x32x4的噪声,将latentspace的输入token化,图片使用patchify,label和timestep使用embedding。
- 结合当前的step t , 输入label y, 经过N个Dit Block通过 MLP进行输出,得到输出的噪声以及对应的协方差矩阵
- 经过T个step采样,得到32x32x4的降噪后的latent
在训练时,需要使得去躁后的latent和第一步得到的latent尽可能一致