政安晨【零基础玩转各类开源AI项目】解析开源:IDM-VTON:改进真实虚拟试穿的扩散模型

目录

概述

要求

数据准备

 服饰代码

推理


政安晨的个人主页:政安晨

欢迎 👍点赞✍评论⭐收藏

收录专栏: 零基础玩转各类开源AI项目

希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正!

 项目地址:GitHub - yisol/IDM-VTON: IDM-VTON : Improving Diffusion Models for Authentic Virtual Try-on in the WildIDM-VTON : Improving Diffusion Models for Authentic Virtual Try-on in the Wild - yisol/IDM-VTONicon-default.png?t=N7T8https://github.com/yisol/IDM-VTON

论文地址:https://arxiv.org/abs/2403.05139 

概述

该论文研究了基于图像的虚拟试穿,即在一对分别描绘人物和服装的图像中,渲染出人物穿着特定服装的图像。与其他方法(如基于 GAN 的方法)相比,以前的工作将现有的基于示例的内绘扩散模型用于虚拟试穿,以提高生成的视觉效果的自然度,但它们未能保留服装的身份。为了克服这一局限性,我们提出了一种新型扩散模型,它能提高服装的保真度并生成真实的虚拟试穿图像。

我们的方法被称为 IDM-VTON,使用两个不同的模块对服装图像的语义进行编码;给定扩散模型的基础 UNet,1)将从视觉编码器中提取的高级语义融合到交叉注意层,然后 2)将从平行 UNet 中提取的低级特征融合到自我注意层。此外,我们还为服装和人物图像提供了详细的文字提示,以增强生成的视觉效果的真实性。最后,我们提出了一种使用一对人物-服装图像的定制方法,该方法显著提高了逼真度和真实性。实验结果表明,在保留服装细节和生成真实虚拟试穿图像方面,我们的方法在质量和数量上都优于之前的方法(包括基于扩散和基于 GAN 的方法)。此外,所提出的定制方法还在真实世界场景中证明了其有效性。

要求

git clone https://github.com/yisol/IDM-VTON.git
cd IDM-VTON

conda env create -f environment.yaml
conda activate idm

数据准备

VITON-HD
您可以从 VITON-HD 下载 VITON-HD 数据集。GitHub - shadow2496/VITON-HD: Official PyTorch implementation of "VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization" (CVPR 2021)

下载 VITON-HD 数据集后,将 vitonhd_test_tagged.json 移至测试文件夹。

数据集目录结构如下。


train
|-- ...

test
|-- image
|-- image-densepose
|-- agnostic-mask
|-- cloth
|-- vitonhd_test_tagged.json
 

 服饰代码


您可以从 DressCode 下载 DressCode 数据集。https://github.com/aimagelab/dress-code

我们在此提供预先计算好的服装密度图像和说明。OneDrive

我们使用 detectron2 来获取 densepose 图像,详情请参阅此处。

https://github.com/facebookresearch/detectron2
https://github.com/sangyun884/HR-VITON/issues/45

下载 DressCode 数据集后,将图像-densepose 目录和标题文本文件放置如下。

DressCode
|-- dresses
    |-- images
    |-- image-densepose
    |-- dc_caption.txt
    |-- ...
|-- lower_body
    |-- images
    |-- image-densepose
    |-- dc_caption.txt
    |-- ...
|-- upper_body
    |-- images
    |-- image-densepose
    |-- dc_caption.txt
    |-- ...

推理

VITON-HD
使用带参数的 python 文件进行推理。

accelerate launch inference.py \
    --width 768 --height 1024 --num_inference_steps 30 \
    --output_dir "result" \
    --unpaired \
    --data_dir "DATA_DIR" \
    --seed 42 \
    --test_batch_size 2 \
    --guidance_scale 2.0

或者,您可以直接运行脚本文件。

sh inference.sh

服饰代码


对于 DressCode 数据集,请通过类别参数输入要生成图像的类别。

accelerate launch inference_dc.py \
    --width 768 --height 1024 --num_inference_steps 30 \
    --output_dir "result" \
    --unpaired \
    --data_dir "DATA_DIR" \
    --seed 42 
    --test_batch_size 2
    --guidance_scale 2.0
    --category "upper_body" 

或者,您可以直接运行脚本文件。

sh inference.sh

开始本地 gradio 演示:

在此下载用于人类解析的检查点。https://huggingface.co/spaces/yisol/IDM-VTON-local/tree/main/ckpt

将检查点放在 ckpt 文件夹下。

ckpt
|-- densepose
    |-- model_final_162be9.pkl
|-- humanparsing
    |-- parsing_atr.onnx
    |-- parsing_lip.onnx

|-- openpose
    |-- ckpts
        |-- body_pose_model.pth
    

运行以下命令

python gradio_demo/app.py


后续继续更新分析该项目的论文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/687081.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32-电灯,仿真

目录 前言: 一. 配置vscode 二. 新创建软件工程 三. 仿真 1.新建工程想到,选择名称和路径 2.从选中的模板创建原理图 3.不创建PCB布版设计 4.选择没有固件项目 5.完成 四.源码 五. 运行效果 六. 总结 前言: 这篇主要是配置vscode和创建仿真,和点灯的完整代码,欢迎大…

nodejs---fs模块,文件读写操作详解,自定义一个文件写入方法

fs模块导入 Node.js 同时支持 CommonJS 和 ES 模块系统(自 Node.js v12 以来) // 两种模块导入方式 import * as fs from fs;// Es6:这种方式需要在package.json中配置"type": "module" const fs require(fs);// commonJs:如果你…

肥胖与代谢综合征,膳食纤维干预的相关进展

谷禾健康 肥胖和代谢综合征在全球范围内日益流行,是21世纪人类健康面临的重大威胁之一。据世界卫生组织(WHO)全球数据估计,目前全球约13%(即近65亿)成年人口受肥胖症影响。 肥胖和代谢综合征对健康的危害包括增加患心血管疾病、糖尿病和高血压的风险&…

短视频矩阵系统----可视化剪辑独立开发(采用php)

短视频矩阵系统源头技术开发: 打磨短视频矩阵系统的开发规则核心框架可以按照以下几个步骤进行: 明确系统需求:首先明确系统的功能需求,包括短视频的上传、编辑、发布、播放等环节。确定系统的目标用户和主要的使用场景&#xff…

智能数据分析(1)Lecture 6-8b

Lecture 6: Generative Models 生成模型 vs 判别模型 判别模型(Discriminative Models) 判别模型的主要任务是直接学习输入 x x x 和类别 y y y 之间的关系。它们不关心数据的生成过程,而是直接估计类别的边界。 定义:判别模…

Win10系统无法安装msi文件问题

winR输入services.msc打开服务 找到Windows Installer并启动 输入msiexec /package “msi文件路径”

perccli查看磁盘和Raid卡

1、安装 source /etc/profile chmod 755 /usr/sbin/perccli2、磁盘 perccli /c0 show all3、raid卡 cc perccli /c0 show cc 4、raid卡 pr perccli /c0 show patrolread

安卓手机忘记锁屏密码怎么办?2个方法拯救你的解锁困境!

为了保护手机信息不被他人轻易获取,我们通常会设置锁屏密码。然而,记忆力有时也会捉弄人,即使是最常用的密码,也有可能因为一时的疏忽或遗忘而导致我们无法解锁自己的手机。安卓手机忘记锁屏密码怎么办?不必慌张&#…

镜头效果技术在AI绘画中的革新作用

随着人工智能技术的飞速发展,AI绘画已经成为艺术与科技交汇的前沿领域。在这一领域中,镜头效果技术的应用不仅为艺术家和设计师们提供了全新的创作工具,更在艺术创作中扮演了革命性的角色。本文将深入探讨镜头效果技术在AI绘画中的应用&#…

物联网开发tcp协议之——netty拆包问题

1.前言 tcp协议是物联网开发中比较常见的一种通信协议,而netty则是一tcp通信协议中一个比较优秀的框架。tcp协议是一种长连接的协议,是流式传输的,开发过程中最长遇见的问题就是拆包粘包问题。我目前对接过的物联网系列有智能家居设备&#…

一脉阳光上市圆梦:销售成本高昂,两大创始人的行贿往事与屡屡被罚

《港湾商业观察》施子夫 2024年6月7日,江西一脉阳光集团股份有限公司(以下简称,一脉阳光)将正式在港交所主板挂牌上市(以下简称,一脉阳光;股票代码02522.HK),公司预计发…

【网络安全的神秘世界】Kali安装中文输入法

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 今天就手把手教你如何在kali中安装和配置输入法 首先,打开终端,输入下面这行代码: # sudo apt install ibus ibus-pi…

24年北京网安大会是AI驱动安全?还是驱动安全股票全员下跌?

AI驱动安全,网安一哥疯狂转发 吉祥学安全知识星球🔗除了包含技术干货:Java代码审计、web安全、应急响应等,还包含了安全中常见的售前护网案例、售前方案、ppt等,同时也有面向学生的网络安全面试、护网面试等。 2024年6…

问题:明朝统辖西域的主要措施有( )(2.0分) (多选题) #学习方法#微信#经验分享

问题:明朝统辖西域的主要措施有( )(2.0分) (多选题) A.设立哈密卫 B.册封各地的首领 C.都护统领 D.布局要地 参考答案如图所示

网站建设方案书

网站建设方案书是一个详细的计划,用于指导如何创建一个成功的网站。在这份方案书中,将包括网站的目标,目标受众,用户体验设计,内容策略,技术架构,营销推广等方面的详细计划。以下是一份示例网站…

从零开始学JAVA

一、编写Hello world程序 public class JavaMain1 {//主程序执行入口,main方法public static void main(String[] args){System.out.println("Hello world!");} } 运行结果 Hello world! java编写主程序常见错误: 1、System ---首字母没有…

Vue3入门 - vue3相比于vue2的优点,及如何创建Vue3项目

目录 一、认识Vue3 1. Vue2 选项式 API vs Vue3 组合式API 2. Vue3的优势 二、使用create-vue搭建Vue3项目 1. 认识create-vue 2. 使用create-vue创建项目 3.熟悉项目和关键文件 一、认识Vue3 1. Vue2 选项式 API vs Vue3 组合式API <script>export default …

香蕉派BPI-F3 进迭时空(SpacemiT)K1RISC-V开发板软件下载链接

香蕉派BPI-F3是一款工业级 8核RISC-V开源硬件开发板&#xff0c;它采用进迭时空&#xff08;SpacemiT&#xff09; K1 8核RISC-V芯片设计&#xff0c;CPU集成2.0 TOPs AI计算能力。4G DDR和16G eMMC。2个GbE以太网接口&#xff0c;4个USB 3.0和PCIe M.2接口&#xff0c;支持HDM…

ESP32开发:2、使用Clion+IDF框架新建ESP32工程

文章目录 背景步骤新建工程编译工程下载代码 参考 背景 使用CLIONIDF框架新建ESP32工程。编译工程&#xff0c;并配置下载。首先需要根据教程1、安装好IDF框架&#xff0c;参考如下&#xff1a; IDF环境搭建 步骤 新建工程 首先找到IDF框架安装路径&#xff0c;我这里的如下…

JeeSite 快速开发平台 Vue3 前端版介绍

JeeSite 快速开发平台 Vue3 前端版介绍&#xff1a; 它构建于 Vue3、Vite、Ant-Design-Vue、TypeScript 以及 Vue Vben Admin 等最前沿的技术栈之上&#xff0c;能助力初学者迅速上手并顺利融入团队开发进程。涵盖的模块包括组织机构、角色用户、菜单授权、数据权限、系统参数…