今天给大家介绍一个最新的虚拟试穿技术GarDiff,它可以分析你想穿的衣服和你的照片并提取出衣服的颜色、纹理和形状等细节。然后通过一个特殊的“对比器”来确保衣服与您的身体形状完美契合。这个对比器会使用两种不同的“眼睛”:一种是可以看到整体外观的眼睛(CLIP),另一种则专注于细节(VAE)。最后,GarDiff不仅仅是合成一张新图像,它还会特别关注衣服的每一个细节,比如图案和纹理,确保生成的图像看起来既真实又美观。通过这种方式,GarDiff能够帮助你在网上试穿衣服,仿佛你真的穿上了它们一样。
现有的基于 GAN 的 VTON 方法如 VITON-HD、HR-VTON、GP-VTON 和基于扩散的 VTON 技术如 LaDI-VTON 和 DCI-VTON,通常无法完美保留给定服装的每个外观/纹理细节。而 GarDiff 利用以服装为中心的扩散过程来保留给定服装的大部分细粒度细节,追求更可控的人物图像生成。
相关链接
论文地址:http://arxiv.org/abs/2409.08258v1
项目主页:https://github.com/siqi0905/GarDiff/tree/master
论文阅读
改进以服装为中心的虚拟试穿 扩散模型
摘要
扩散模型已导致生成模型在众多图像合成任务中发生革命性变化。然而,直接应用扩散模型来合成穿着给定店内服装的目标人物图像并非易事,即基于图像的虚拟试穿 (VTON) 任务。困难在于扩散过程不仅应产生目标人物的整体高保真逼真图像,还应在局部保留给定服装的每个外观和纹理细节。为了解决这个问题,我们塑造了一个新的扩散模型,即 GarDiff,该模型通过从给定服装中衍生的基本视觉外观和详细纹理(即高频细节)的放大指导来触发以服装为中心的扩散过程。GarDiff 首先重塑了一个预先训练的潜在扩散模型,其中包含从参考服装的 CLIP 和 VAE 编码中衍生的额外外观先验。同时,一种新颖的以服装为中心的适配器被集成到扩散模型的 UNet 中,追求与参考服装和人体姿势的视觉外观进行局部细粒度对齐。我们专门设计了合成服装的外观损失,以增强关键的高频细节。在 VITON-HD 和 DressCode 数据集上进行的大量实验证明了我们的 GarDiff 与最先进的 VTON 方法相比具有优越性。
方法
GarDiff 概述如上图所示。通常,给定一个人像 Ip ∈ R H×W×3 和店内服装 Ic ∈ R H′×W′×3,GarDiff 经过优化,可合成高质量逼真图像 I ∈ R H×W×3 ,其中人穿着店内服装 Ic。为了有效利用给定服装的外观指导来生成高保真人物图像,提出的以服装为中心的视觉适配器模块取代了扩散模型 UNet 中的原始交叉注意层。
以服装为中心的适配器的实现细节。对于给定的目标服装 Ic 和扭曲服装 Iw,提取 CLIP 视觉嵌入 fclip 和 VAE 嵌入 fvae,并通过解耦的交叉注意将其作为键和值输入到以服装为中心的适配器中。Mattn 用于抑制注意力图中与服装区域无关的权重,以生成以服装为中心的特征。
实验
由 VITON-HD、HR-VTON、GP-VTON、LaDI-VTON、DCI-VTON 和 GarDiff 生成的示例。
从VITON-HD随机抽取100对服装人对的用户研究。
提出的GarDiff在VITON-HD数据集上的消融研究。Base:模型;GFA:专注于服装的适配器;AL:外观损失。
DressCode 数据集上的定量性能比较。FIDp/KIDp 代表配对设置中的 FID/KID 分数,而 FIDu/KIDu 代表非配对设置中的 FID/KID 分数。请注意,KID 分数乘以 100。
GarDiff关键成分的消融研究。
(a)由我们的GarDiff生成的示例,有或没有未翘曲的服装。 (b)基于扩散的基线(LaDI-VTON和DCI-VTON)的比较以及我们的GarDiff对细节的保护。
结论
本文介绍了以服装为中心的扩散模型 (GarDiff),该模型能够在虚拟试穿任务中保留目标服装的细粒度细节。具体来说,GarDiff 使用来自 CLIP 视觉编码器和 VAE 编码器的外观先验为参考服装重塑预训练的潜在扩散模型,然后通过以服装为中心的视觉适配器将这些先验集成到 UNet 中。这样,通过给定服装的放大外观指导,扩散过程得到有效加强。进一步设计了一种新颖的外观损失,以强制合成服装与目标服装的高频细节和几何形状保持一致。在 VITON-HD 和 DressCode 数据集上进行的大量实验证明了GarDiff 的优越性并且在两个虚拟试穿数据集上取得了新的最先进的性能。