FiTDiT 是腾讯和复旦大学联合推出的一种利用 DiT 的新型服装感知增强技术,旨在实现高保真虚拟试衣。你只需要上传一个人像图像和一个衣物图像,就可以生成一个展示人物穿着所提供衣物的图像。与传统的基于 U-Net 的 LDM 相比,FiTDiT 能够将更多参数和注意力分配给高分辨率特征,从而更好地保留服装纹理,并达到尺寸感知的试衣效果。
FiTDiT 在虚拟试穿中表现出色,解决了各种场景中与纹理感知保存和尺寸感知试穿相关的挑战。且FiTDiT对硬件资源占用做了优化,不同算法的性能对比,分辨率为768x1024,20步去噪。结合CPU offload技术,FitDiT推理需要的显存可以进一步降低到6G。
FitDiT方案相比现有的开源算法有以下优势:
1. 更清晰的纹理信息
2. 更好的衣服版型维持能力
3. 更少的推理耗时
4. 更低的资源占用,最低4G显存可运行
使用教程:建议N卡,显存4G起(4G显卡生成速度略慢,效果略差,建议8G起最佳)
上传一张模特图片,一张衣服图片(支持上半身、下半身、连衣裙),设置相关参数,生成即可。