试衣不再有界:Tunnel Try-on开启视频试衣应用新纪元

论文:https://arxiv.org/pdf/2404.17571

主页:https://mengtingchen.github.io/tunnel-try-on-page/

一、摘要总结

        随着虚拟试衣技术的发展,消费者和时尚行业对于能够在视频中实现高质量虚拟试衣的需求日益增长。这项技术允许用户在不实际穿上衣物的情况下,通过视频序列体验穿着不同服装的效果。尽管基于图像的虚拟试衣方法已经得到了广泛的研究,但视频虚拟试衣面临着保持服装细节和模拟连贯动作的双重挑战,这在以往的研究中并未得到很好的解决。

        本文介绍了一种名为“Tunnel Try-on”的新型视频虚拟试衣框架,旨在解决以往方法在处理复杂场景时的不足。该框架的核心思想是在输入视频中挖掘一个“聚焦隧道”(focus tunnel),以便近距离拍摄服装区域,从而更好地保留服装的细微细节。为了生成连贯的动作,研究者们首先利用卡尔曼滤波器(Kalman filter)构建平滑的裁剪框,并注入隧道的位置嵌入到注意力层中,以提高生成视频的连贯性。此外,还开发了一个环境编码器来提取隧道外的上下文信息,作为辅助线索。通过这些技术,Tunnel Try-on不仅保持了服装的精细细节,还合成了稳定和平滑的视频。该方法在视频虚拟试衣领域取得了突破性进展,为电商/时尚行业的实际应用提供了新的可能性,并为未来虚拟试衣应用的研究提供了新的方向。

二、网络结构

a.)核心创新

本文的核心创新主要体现在以下几个方面:

  1. 聚焦隧道(Focus Tunnel):提出了一种新的视频处理策略,通过在视频中创建一个聚焦隧道来放大服装区域,从而更好地捕捉和保留服装的细微特征。

  2. 隧道平滑和嵌入(Tunnel Smoothing and Embedding):使用卡尔曼滤波器对隧道坐标进行平滑处理,并引入隧道嵌入机制,以增强视频帧之间的连贯性和一致性。

  3. 环境编码器(Environment Encoder):开发了一种新的编码器,用于提取并融合视频中隧道区域外的全局上下文信息,以改善背景生成的质量。

  4. 扩散模型应用:将扩散模型应用于视频虚拟试衣,利用其在图像生成中的优势,提高了视频试衣结果的质量和真实感。

b.)核心网络

Tunnel Try-on的网络结构包括以下几个关键组件:

  1. 主网络(Main U-Net):作为基础的图像试衣模型,使用掩码视频帧、潜在噪声和衣物无关掩码作为输入。

  2. 参考网络(Ref U-Net):用于编码参考服装的细粒度特征。

  3. CLIP图像编码器:捕获目标服装图像的高级语义信息。

  4. 姿态编码器:将人体姿态信息编码为特征,用于辅助视频生成。

  5. 时间注意力模块(Temporal-Attention):在Main U-Net的每个阶段后插入,用于确保帧之间的平滑过渡。

  6. 环境编码器(Environment Encoder):由一个冻结的CLIP图像编码器和一个可学习的线性映射层组成,用于提取和融合环境上下文信息。

  7. 隧道嵌入(Tunnel Embedding):将隧道的位置和大小信息编码为嵌入,注入到时间注意力模块中。

  8. 训练和测试流程:训练分为两个阶段,第一阶段专注于图像级别的试衣生成,第二阶段整合所有策略和模块,训练视频试衣数据集。

  9. 后处理:使用高斯模糊技术将生成的试衣视频与原始视频融合,以获得最终的试衣效果。

通过这些创新点和详细的算法流程,Tunnel Try-on能够处理复杂的背景和多样的人体动作,生成高保真的虚拟试衣视频。

三、实验结果

a.)总体指标

b.)ablation study

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/619538.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【实战】算法思路总结

面试过程中,总是被拷打,信心都要没了。但是也慢慢摸索出一些思路,希望对大家有帮助。 (需要多用一下ACM模式,力扣模式提供好了模板,自己在IDEA里面写的话,还是会有些陌生) 0、基本…

MFC重要的初始化函数InitInstance

MFC应用程序最早处理的类的初始化函数通常是CWinApp类的构造函数。CWinApp类是MFC应用程序的主类,负责整个应用程序的初始化和管理。 在MFC应用程序中,通常会创建一个派生自CWinApp类的应用程序类,例如CMyApp。在应用程序启动时,…

【Oracle篇】rman物理备份工具的基础理论概述(第一篇,总共八篇)

☘️博主介绍☘️: ✨又是一天没白过,我是奈斯,DBA一名✨ ✌✌️擅长Oracle、MySQL、SQLserver、阿里云AnalyticDB for MySQL(分布式数据仓库)、Linux,也在扩展大数据方向的知识面✌✌️ ❣️❣️❣️大佬们都喜欢静静的看文章&am…

Mujoco仿真【将urdf文件转化为xml文件】

最近开始学习mujoco仿真方面的内容 先前写过一篇博客:强化学习:MuJoCo机器人强化学习仿真入门(1)_mujoco仿真-CSDN博客 简单介绍了mujoco仿真的一些内容,下面想在Mujoco中将urdf转为xml文件,了解到mujoco是…

Docker需要代理下载镜像

systemctl status docker查看docker的状态和配置文件是/usr/lib/systemd/system/docker.service vi /usr/lib/systemd/system/docker.service, 增加如下配置项 [Service] Environment"HTTP_PROXYhttp://proxy.example.com:8080" "HTTPS_PROXYhttp:…

MySQL软件安装基于压缩包

打开mysql官网网址 MySQL :: Download MySQL Community Server 本次针对版本8的安装包方式进行安装,下载成功后接下来对MySQL进行安装 下载后有一个以zip后缀结尾的压缩包文件 对于安装包方式安装,比起可视化安装省去了许多安装步骤,这里直接…

WordPress插件Show IDs by Echo,后台显示文章、页面、分类、标签、媒体库、评论、用户的ID

WordPress的这款Show IDs by Echo插件,可以让我们设置是增加一列ID还是直接在“编辑 |快速编辑 |查看”操作后面增加ID,而且支持展示以下内容的ID: 文章页面类别标签评论自定义帖子类型自定义分类法用户媒体 Show IDs by Echo插件的安装及启…

数据缓存,可以尝试RocksDB了

shigen坚持更新文章的博客写手,擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。记录成长,分享认知,留住感动。 个人IP:shigen shigen在最近的学习中,接触到了一款新的缓存数据库RocksDB&#xff…

ctfshow web271--web273

web271 laravel5.7反序列化漏洞 define(LARAVEL_START, microtime(true));/* |-------------------------------------------------------------------------- | Register The Auto Loader |-------------------------------------------------------------------------- | |…

开源流程引擎选型 —— Activiti、Flowable、Camunda

目录 一. 前言 二. 主流开源流程引擎介绍 2.1. Osworkflow 2.2. JBPM 2.3. Activiti 2.4. Flowable 2.5. Camunda 三. Flowable 与 Camunda 对比分析 3.1. 功能方面对比 3.2. 性能方面对比 四. 总结 一. 前言 市场上比较有名的开源流程引擎有 Osworkflow、JBPM、Act…

【35分钟掌握金融风控策略25】定额策略实战2

目录 基于收入和负债的定额策略 确定托底额度和盖帽额度 确定基础额度 基于客户风险评级确定风险系数 计算最终授信额度 确定授信有效期 基于收入和负债的定额策略 在实际生产中,客户的收入和负债数据大多无法直接获得,对于个人的收入和负债数据&…

LeetCode题目104: 二叉树的最大深度(递归\迭代\层序遍历\尾递归优化\分治法实现 )

❤️❤️❤️ 欢迎来到我的博客。希望您能在这里找到既有价值又有趣的内容,和我一起探索、学习和成长。欢迎评论区畅所欲言、享受知识的乐趣! 推荐:数据分析螺丝钉的首页 格物致知 终身学习 期待您的关注 导航: LeetCode解锁100…

【算法】dfs

快乐的流畅:个人主页 个人专栏:《算法神殿》《数据结构世界》《进击的C》 远方有一堆篝火,在为久候之人燃烧! 文章目录 引言一、全排列1. 决策树2. 设计代码1. 全局变量2. dfs函数3. 细节问题 二、子集解法一1. 决策树2. 设计代码…

Redis-发布与订阅

发布与订阅 什么是发布与订阅 Redis 发布订阅 (pub/sub) 是一种消息通信模式:发送者 (pub) 发送消息,订阅者 (sub) 接收消息。 Redis 客户端可以订阅任意数量的频道。 Redis的发布与订阅 客户端订阅频道 当给这个频道发送消息后,消息就会…

英伟达发布AM-RADIO高效视觉基础模型,推理速度提升6倍,性能超CLIP、DINOv2、SAM

前言 近年来,视觉基础模型 (VFM) 在众多下游任务中取得了巨大成功,例如图像分类、目标检测和图像生成等。然而,现有的 VFM 通常专注于特定领域,例如 CLIP 擅长零样本视觉语言理解,DINOv2 擅长语义分割,SAM…

如何在外网访问内网共享文件?

在日常工作和生活中,我们经常会遇到外网访问内网共享文件的需求。我们可能需要远程访问公司内部的共享文件夹,或者与不同地区的合作伙伴共享文件。由于网络安全的限制,外网访问内网的共享文件并不是一件容易的事情。 为了解决这个问题&#x…

matlab使用教程(70)—修改坐标区属性

1.控制坐标轴长度比率和数据单位长度 您可以控制 x 轴、y 轴和 z 轴的相对长度(图框纵横比),也可以控制一个数据单位沿每个轴的相对长度(数据纵横比)。 1.1图框纵横比 图框纵横比是 x 轴、y 轴和 z 轴的相对长度。默认…

C++ | Leetcode C++题解之第86题分隔链表

题目: 题解: class Solution { public:ListNode* partition(ListNode* head, int x) {ListNode* small new ListNode(0);ListNode* smallHead small;ListNode* large new ListNode(0);ListNode* largeHead large;while (head ! nullptr) {if (head-…

前端小技巧:如何自定义网页的右键菜单(如何禁用网页的右键菜单)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 右键菜单设置 📒📝 自定义右键菜单实现步骤📝 示例代码📝 涉及的JavaScript语法和参数📝 禁用特定区域的右键菜单⚓️ 相关链接 ⚓️📖 介绍 📖 在网页设计中,一个直观且个性化的右键菜单可以显著提升用户的交互…

WPS表格:对比少于1万的两列数据

当我们需要对于A、B两列乱序的数据,找出A列中某一项B列有没有,或者找出B列中的某一项A列有没有,都可以先将这两列数据放入WPS表格中: 1.选中C列的第一行的单元格,在函数区输入函数 如果我们以A为基准,找A中…