超级智能“试衣镜”!GarDiff:高保真保持目标人物特征和服装细节,虚拟试穿技术新SOTA!

今天给大家介绍一个最新的虚拟试穿技术GarDiff,它可以分析你想穿的衣服和你的照片并提取出衣服的颜色、纹理和形状等细节。然后通过一个特殊的“对比器”来确保衣服与您的身体形状完美契合。这个对比器会使用两种不同的“眼睛”:一种是可以看到整体外观的眼睛(CLIP),另一种则专注于细节(VAE)。最后,GarDiff不仅仅是合成一张新图像,它还会特别关注衣服的每一个细节,比如图案和纹理,确保生成的图像看起来既真实又美观。通过这种方式,GarDiff能够帮助你在网上试穿衣服,仿佛你真的穿上了它们一样。

现有的基于 GAN 的 VTON 方法如 VITON-HD、HR-VTON、GP-VTON 和基于扩散的 VTON 技术如 LaDI-VTON 和 DCI-VTON,通常无法完美保留给定服装的每个外观/纹理细节。而 GarDiff 利用以服装为中心的扩散过程来保留给定服装的大部分细粒度细节,追求更可控的人物图像生成。

相关链接

论文地址:http://arxiv.org/abs/2409.08258v1

项目主页:https://github.com/siqi0905/GarDiff/tree/master

论文阅读

改进以服装为中心的虚拟试穿 扩散模型

摘要

扩散模型已导致生成模型在众多图像合成任务中发生革命性变化。然而,直接应用扩散模型来合成穿着给定店内服装的目标人物图像并非易事,即基于图像的虚拟试穿 (VTON) 任务。困难在于扩散过程不仅应产生目标人物的整体高保真逼真图像,还应在局部保留给定服装的每个外观和纹理细节。为了解决这个问题,我们塑造了一个新的扩散模型,即 GarDiff,该模型通过从给定服装中衍生的基本视觉外观和详细纹理(即高频细节)的放大指导来触发以服装为中心的扩散过程。GarDiff 首先重塑了一个预先训练的潜在扩散模型,其中包含从参考服装的 CLIP 和 VAE 编码中衍生的额外外观先验。同时,一种新颖的以服装为中心的适配器被集成到扩散模型的 UNet 中,追求与参考服装和人体姿势的视觉外观进行局部细粒度对齐。我们专门设计了合成服装的外观损失,以增强关键的高频细节。在 VITON-HD 和 DressCode 数据集上进行的大量实验证明了我们的 GarDiff 与最先进的 VTON 方法相比具有优越性。

方法

GarDiff 概述如上图所示。通常,给定一个人像 Ip ∈ R H×W×3 和店内服装 Ic ∈ R H′×W′×3,GarDiff 经过优化,可合成高质量逼真图像 I ∈ R H×W×3 ,其中人穿着店内服装 Ic。为了有效利用给定服装的外观指导来生成高保真人物图像,提出的以服装为中心的视觉适配器模块取代了扩散模型 UNet 中的原始交叉注意层。

以服装为中心的适配器的实现细节。对于给定的目标服装 Ic 和扭曲服装 Iw,提取 CLIP 视觉嵌入 fclip 和 VAE 嵌入 fvae,并通过解耦的交叉注意将其作为键和值输入到以服装为中心的适配器中。Mattn 用于抑制注意力图中与服装区域无关的权重,以生成以服装为中心的特征。

实验

由 VITON-HD、HR-VTON、GP-VTON、LaDI-VTON、DCI-VTON 和 GarDiff 生成的示例。

从VITON-HD随机抽取100对服装人对的用户研究。

提出的GarDiff在VITON-HD数据集上的消融研究。Base:模型;GFA:专注于服装的适配器;AL:外观损失。

DressCode 数据集上的定量性能比较。FIDp/KIDp 代表配对设置中的 FID/KID 分数,而 FIDu/KIDu 代表非配对设置中的 FID/KID 分数。请注意,KID 分数乘以 100。

GarDiff关键成分的消融研究。

(a)由我们的GarDiff生成的示例,有或没有未翘曲的服装。 (b)基于扩散的基线(LaDI-VTON和DCI-VTON)的比较以及我们的GarDiff对细节的保护。

结论

本文介绍了以服装为中心的扩散模型 (GarDiff),该模型能够在虚拟试穿任务中保留目标服装的细粒度细节。具体来说,GarDiff 使用来自 CLIP 视觉编码器和 VAE 编码器的外观先验为参考服装重塑预训练的潜在扩散模型,然后通过以服装为中心的视觉适配器将这些先验集成到 UNet 中。这样,通过给定服装的放大外观指导,扩散过程得到有效加强。进一步设计了一种新颖的外观损失,以强制合成服装与目标服装的高频细节和几何形状保持一致。在 VITON-HD 和 DressCode 数据集上进行的大量实验证明了GarDiff 的优越性并且在两个虚拟试穿数据集上取得了新的最先进的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/889212.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PhotoMaker部署文档

一、介绍 PhotoMaker:一种高效的、个性化的文本转图像生成方法,能通过堆叠 ID 嵌入自定义逼真的人类照片。相当于把一张人的照片特征提取出来,然后可以生成你想要的不同风格照片,如写真等等。 主要特点: 在几秒钟内…

【华为HCIP实战课程七】OSPF邻居关系排错MTU问题,网络工程师

一、MTU MUT默认1500,最大传输单元,一致性检测 [R3-GigabitEthernet0/0/1]mtu 1503//更改R3的MTU为1503 查看R3和SW1之间的OSPF邻居关系正常: 默认华为设备没有开启MTU一致性检测! [R3-GigabitEthernet0/0/1]ospf mtu-enable //手动开启MTU检测 [SW1-Vlanif30]ospf mtu…

centos7 yum仓库无法使用的问题

1、问题 如下 2、按照csdn等网页说的做了没有用!CentOS-yum源不可用报错:Could not retrieve mirrorlist 问题解决_yum could not retrieve mirrorlist-CSDN博客 3、使用b站博主的方法解决! LinuxMirrors: GNU/Linux 一键更换系统软件源脚本…

Ambari搭建Hadoop集群 — — 问题总结

Ambari搭建Hadoop集群 — — 问题总结 一、部署教程: 参考链接:基于Ambari搭建大数据分析平台-CSDN博客 二、问题总结: 1. VMwear Workstation 查看网关 2. 资源分配 参考: 硬盘:master(29 GB&#xff…

基于组合模型的公交交通客流预测研究

摘 要 本研究致力于解决公交客流预测问题,旨在通过融合多种机器学习模型的强大能力,提升预测准确性,为城市公交系统的优化运营和交通管理提供科学依据。研究首先回顾了公交客流预测领域的相关文献,分析了传统统计方法在处理大规…

去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)-Python案例

1、去噪概率模型(Denoising Probabilistic Models) 去噪概率模型(Denoising Probabilistic Models)是一类通过学习数据的潜在分布来去除噪声的生成模型。其核心思想是,在有噪声的数据中,模型通过条件概率学…

pytest框架之fixture测试夹具详解

前言 大家下午好呀,今天呢来和大家唠唠pytest中的fixtures夹具的详解,废话就不多说了咱们直接进入主题哈。 一、fixture的优势 ​ pytest框架的fixture测试夹具就相当于unittest框架的setup、teardown,但相对之下它的功能更加强大和灵活。 …

基于SSM医疗信息管理系统(源码+定制+参考)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

Python数字图像处理实战——基于OpenCV实现多种滤波器(附完整代码和结果图)

Python数字图像处理实战——基于OpenCV实现多种滤波器(附完整代码和结果图) 关于作者 作者:小白熊 作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目标检测…

分辨率提高4到8倍!AI高清修复工具-upscayl使用方法!

你还在为手中的模糊照片苦恼吗? 是不是想把老照片或低分辨率的图片用于大尺寸印刷,却因为画质糟糕而无从下手? 现在你不再需要高深的Photoshop技能,也不用花费巨资找人修图。借助AI高清修复工具Upscayl,只需几秒钟&am…

Python、R语言Lasso、Ridge岭回归、XGBoost分析Airbnb房屋数据:旅游市场差异、价格预测

全文链接:https://tecdat.cn/?p37839 原文出处:拓端数据部落公众号 分析师: Kefan Yu 在大众旅游蓬勃发展的背景下,乡村旅游已成为推动乡村经济、社会和文化发展的关键力量。当前,乡村旅游接待设施主要以招待所、…

基于Python的抑郁症患者看护系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

如何实现Vue2项目升级Vue3?

Vue3正式版已经发布有两年多了,如今它也已成为Vue的默认开发版本,如果你想要对之前Vue2项目进行升级重构,可以从以下几个维度入手: ① 构建工具 ② 入口文件 ③ 插件 ④ 指令 ⑤ 路由 ⑥ 状态管理 ⑦ 其他 一、构建工具 Vue3推荐使…

HTB:Base[WriteUP]

目录 连接至HTB服务器并启动靶机 1.Which two TCP ports are open on the remote host? 2.What is the relative path on the webserver for the login page? 3.How many files are present in the /login directory? 4.What is the file extension of a swap file? …

springboot如何集成mybatis?

背景:以前一直是直接cv一个项目中现成的xml文件,然后再去自己配置mapper等数据。自己准备做一个单独的例子试一下。 步骤1:在pom.xml文件中插入mybatis-generator插件,这里选的版本是1.3.2,然后指定的generator文件是在…

IDM6.42下载器!下载速度就像坐上了火箭,嗖嗖的快到飞起!

亲爱的朋友们,今天我要给大家安利一款下载神器——Internet Download Manager 6.42(简称IDM)!这款软件简直就是下载界的“速度与激情”,用了它之后,你会发现下载速度就像坐上了火箭,嗖嗖的快到飞…

Python 如何使用 SQLAlchemy 进行复杂查询

Python 如何使用 SQLAlchemy 进行复杂查询 一、引言 SQLAlchemy 是 Python 生态系统中非常流行的数据库处理库,它提供了一种高效、简洁的方式与数据库进行交互。SQLAlchemy 是一个功能强大的数据库工具,支持结构化查询语言(SQL)…

Windows 通过 Docker 安装 GitLab

1. 安装 Docker Desktop 下载网站:Windows | Docker Docs 2. 拉取 GitLab Docker 镜像 打开 PowerShell 或 命令提示符,拉取 GitLab 镜像: docker pull gitlab/gitlab-ee:latest或则使用社区版: docker pull gitlab/gitlab-ce…

【C++】STL——stack和queue

目录 前言容器配接器(适配器)stack的使用stack的模拟实现queue的使用queue的模拟实现双端队列(deque) 前言 前面我们已经学习了STL容器中的string、vector还有list。 【C】string的模拟实现 【C】STL——vector的模拟实现 【C】S…

CTF-PWN方向 栈溢出等基础知识笔记(2)

ret2syscall 要求有0x80这种系统调用存在 (0x0A是回车的意思) 案例 通过file查看这个文件 发现是静态编译的文件 所以很多库函数都被编译进去了 但是不存在bin/sh字符串 不存在system和backdoor函数 系统调用需要用到的寄存器 通过ROPgadget工具来查找…