AIGC 004-T2I-adapter另外一种支持多条件组合控制的文生图方案!
文章目录
- 0 论文工作
- 1 论文方法
- 2 效果
0 论文工作
T2I-Adapter 论文提出了一种名为 T2I-Adapter 的轻量级适配器模块,旨在增强文本到图像 (T2I) 扩散模型的语义理解和生成能力。 论文指出现有方法 (如 DreamBooth) 难以平衡新概念学习与原始模型能力的保留,且计算成本高。T2I-Adapter 通过学习轻量级适配器模块来解决这些问题,这些模块可以插入到冻结的预训练扩散模型中,以适应新概念,同时最大限度地减少对原始模型的影响。
大规模文本-文本图像(T2I)模型令人难以置信的生成能力已经显示出了学习复杂结构和有意义的语义的强大能力。然而,仅仅依靠文本提示不能充分利用模型所学到的知识,特别是当需要灵活和准确的控制(如颜色和结构)时。该论文中试图“挖掘”T2I模型隐式地学习到的能力,然后显式地使用它们进行更细致的控制。具体来说,通过学习一个简单和轻量级的T2I适配器,以将T2I模型中的内部知识与外部控制信号对齐,同时冻结原来的大型T2I模型。这样,就可以训练不同种类的适配器,在生成结果的颜色和结构上实现丰富的控制和编辑效果。此外,提出的t2i适配器有有吸引力的专业具有实用价值的优点,如可组合性和泛化能力。大量的实验表明,t2i-adaptert具有良好的发电质量和广泛的应用前景。
特别指出ControlNet是比T2I-adapter几周的论文,几乎可以认为二者是同期工作。仔细区分的话,T2I更多体现出即插即用和组合扩展,他的条件简单通过cross-attention插入到T2I模型中,这显然是不如controlnet的融合更加有效更加全面。
论文arxiv
github
1 论文方法
T2I-Adapter 的核心思想是将可训练的适配器模块插入到冻结的预训练扩散模型中,而不是直接微调整个模型。 适配器模块的参数数量远远少于整个模型,这使得训练更有效率,并且可以更好地保留原始模型的能力。
a. 适配器模块:
结构: 适配器模块由多个瓶颈层组成,这些层被插入到扩散模型的 U-Net 结构的不同层级之间。 每个瓶颈层包含一个下采样层、一个非线性激活函数和一个上采样层。
参数: 适配器模块的参数是可训练的,并针对新概念进行优化。
位置: 适配器模块可以插入到 U-Net 结构的不同层级之间,以控制不同粒度级别的语义信息。
b. 扩散模型:
冻结权重: 预训练扩散模型的权重被冻结,不进行梯度更新。
适配器注入: 可训练的适配器模块被插入到冻结的扩散模型中。
c. 训练过程:
训练数据: 使用包含新概念的少量图像和文本描述对适配器模块进行训练。
损失函数: T2I-Adapter 使用与原始扩散模型相同的损失函数,例如变分下界 (ELBO) 或其他图像相似度指标。
优化目标: 训练目标是优化适配器模块的参数,以便生成与新概念一致的图像,同时最大限度地减少对原始模型的影响。
2. 优势:
参数效率: T2I-Adapter 仅需要训练少量适配器模块的参数,相比微调整个模型,大大降低了计算成本。
保留原始能力: 由于扩散模型的权重被冻结,T2I-Adapter 能够更好地保留原始模型的生成能力和泛化性。
易于集成: 适配器模块可以轻松地插入到现有的扩散模型中,而无需对模型结构进行重大修改。
可扩展性: 可以训练多个适配器模块来适应不同的新概念,并根据需要在推理时进行组合。
3. 缺点:
新概念学习能力: T2I-Adapter 的新概念学习能力可能不如微调整个模型,因为它只训练了少量参数。
适配器位置选择: 选择最佳的适配器模块插入位置可能需要一些实验和调整。