diffusion model(十五) : IP-Adapter技术小结

	info
paper	https://arxiv.org/pdf/2308.06721.pdf
code	https://github.com/tencent-ailab/IP-Adapter
org.	Tencent AI Lab
个人博客地址	http://myhz0606.com/article/ip_adapter

1 Motivation

为了对文生图diffusion model进行特定概念的定制，常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端：每一个新的概念都需要重新训练一个权重，比较麻烦。那么，能不能有一个方法inference前无须微调，只需给一张reference image，就能将该图片的概念融入到生成过程中？这就是IP-adapter想要解决的问题。

2 Method

IP-adapter和LoRA等工作类似，也是一个PEFT（parameter efficient fine-tuning）的方法。区别在于，一般LoRA等方法只须定制特定概念，训练数据只需少量（一般只需数十张）、高质量特定概念的图片。而IP-adapter希望diffusion model能够理解开放式的图片特征，并依此生成图片，故为了保证泛化性，需要在大量数据上进行训练。

2.1 模型架构

为了降低训练成本，作者引入了预训练的CLIP[3] image encoder来初步提取reference image的图片特征，随后接了一个Linear+layer norm层来调整特征的维度。随后设计了一个decoupled cross-attention 模块，将image feature融入到diffusion model的生成过程中。通过训练让diffusion model能够理解image prompt。（pipeline中只有 🔥的module更新权重，其它module freeze。）

在这里插入图片描述

2.2 decoupled cross-attention

decoupled cross-attention相比文生图的cross attention多了两个训练参数 $W_{i}^{k'},W_{i}^{v'}$ ，起始阶段用text分支的 $W_{i}^{k},W_{i}^{v}$ 进行初始化。（下标 $i$ 代表第 $i$ 层cross-attention）。

可以通过调整image embedding的权重 $\lambda$ 来决定image condition的影响程度。

在这里插入图片描述

2.3 模型训练

模型的训练数据采用LAION-2B和COYO-700M的子集，总计10M左右。训练目标和经典的diffusion model[4]一致。

$\mathcal L } _ { \mathrm { s i m p l e } } = { \mathbb E } _ { { \boldsymbol { x } } _ { 0 } , \epsilon , c _ { t } , c _ { t } , t } \vert \vert \epsilon - \epsilon _ { \theta } ( { \boldsymbol { x } } _ { t } , c _ { t } , c _ { i } , t ) \vert \vert ^ { 2 } .$