NeurIPS 2024 | SHMT:通过潜在扩散模型进行自监督分层化妆转移(阿里,武汉理工)

当前的妆容转移技术面临两个主要挑战:

  1. 缺乏成对数据,导致模型训练依赖于低质量的伪配对数据,从而影响妆容的真实感;

  2. 不同妆容风格对面部的影响各异,现有方法难以有效处理这种多样性。

今天给大家介绍的方法是由阿里联合武汉理工等提出的自监督层次化妆转移方法(SHMT),可以将多样化的妆容风格自然且精准地应用于给定的面部图像。SHMT通过采用“解耦与重构”的自监督学习策略,避免了伪配对数据的误导。同时,SHMT利用拉普拉斯金字塔分解层次化的纹理细节,灵活控制妆容风格的保留与舍弃。除了颜色匹配之外,该方法还可以灵活控制保留或丢弃各种化妆风格的纹理细节,而不会改变脸型。

相关链接

  • 论文:http://arxiv.org/abs/2412.11058v1

  • 主页:https://github.com/Snowfallingplum/SHMT

论文介绍

摘要

本文研究了化妆迁移这一具有挑战性的任务,旨在将各种化妆风格精确而自然地应用于给定的面部图像。由于缺乏配对数据,当前的方法通常合成次优的伪基本事实来指导模型训练,导致化妆保真度低。此外,不同的化妆风格通常对人脸有不同的影响,但现有的方法很难处理这种多样性。为了解决这些问题,我们提出了一种通过潜在扩散模型的新型自监督分层化妆迁移 (SHMT) 方法。遵循“解耦和重建”范式,SHMT 以自监督的方式工作,摆脱了不精确的伪配对数据的误导。此外,为了适应各种化妆风格,通过拉普拉斯金字塔分解分层纹理细节并有选择地引入内容表示。最后,我们设计了一个新颖的迭代双重对齐 (IDA) 模块,该模块可以动态调整扩散模型的注入条件,从而纠正由内容和化妆表示之间的域差距引起的对齐误差。广泛的定量和定性分析证明了我们方法的有效性。

方法

SHMT 的框架。面部图像 I 被分解为背景区域 Ibg、化妆表示 Im 和内容表示 (I3d, hi)。通过从这些组件重建原始图像来模拟化妆传输过程。构建了分层纹理细节 hi 以响应不同的化妆风格。在每个去噪步骤 t 中,IDA 利用嘈杂的中间结果 ˆIt 来动态调整注入条件以纠正对齐错误。

结果

在简单的化妆风格上与基于 GAN 的基线进行定性比较。

与基于gan的复杂妆容基线的定性比较。

简单妆容与稳定妆容基线的定性比较

与稳定妆容基线在复杂妆容上的定性比较。

结论

本文提出了一种自监督分层妆容迁移 (SHMT) 方法。该方法采用自监督策略进行模型训练,摆脱了以前方法中伪配对数据的误导。得益于分层纹理细节,SHMT 可以灵活控制纹理细节的保留或丢弃,使其能够适应各种妆容风格。此外,所提出的 IDA 模块能够有效地纠正对齐错误,从而提高妆容保真度。定量和定性分析都证明了我们的 SHMT 方法的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/948896.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Mongo高可用架构解决方案

Mongo主从复制哪些事(仅适用特定场景) 对数据强一致性要求不高的场景,一般微服务架构中不推荐 master节点可读可写操作,当数据有修改时,会将Oplog(操作日志)同步到所有的slave节点上。那么对于从节点来说仅只读,所有slave节点从master节点同步数据,然而从节点之间互相…

JVM对象内存分配

1 栈上分配 栈空间随着方法执行完毕而回收通过栈上分配对象内存空间的方式,减少对堆空间的使用,从而减少gc的压力,提升程序性能 逃逸分析:分析对象的作用域,判断对象所需内存是否可以在栈上分配当对象没有被外部方法或…

性能测试04|JMeter:连接数据库、逻辑控制器、定时器

目录 一、连接数据库 1、使用场景 2、直连数据库的关键配置 3、案例 ​编辑 二、逻辑控制器 1、if控制器 2、循环控制器 3、ForEach控制器 三、定时器 1、同步定时器 2、常数吞吐量定时器(用的少,了解即可) 3、固定定时器 一、连…

国内Ubuntu环境Docker部署 SenseVoice

国内Ubuntu环境Docker部署 SenseVoice 趁热搞定了 docker 部署 SenseVoice。在这里记录一下相关的文件。 SenseVoice是一个大模型语音识别库, 支持多种语言识别,速度快,准确率高,详细介绍请参考GitHub官网: https://github.com/Fu…

1.2.1-2部分数据结构的说明02_链表

(1)链表数据结构: 概念: 将列表中相互连接的节点不连续的存储在内存中。与数据不同,我们无法再恒定时间内访问任何元组,如果遍历所有则花费时间与元素总数n成正比。插入和删除1个元素的时间复杂度都是O(n…

什么是.net framework,什么是.net core,什么是.net5~8,版本对应关系

我不知道有多少人和我一样,没学习过.netCore,想要学习,但是版本号太多就蒙了,不知道学什么了,这里解释下各个版本的关系 我们一般开始学习微软的时候,都是开始学习的.netframework,常用的就是4…

网站常用功能模块-鉴权

一:JWT是什么? 常用鉴权方式有很多种,今天主要介绍基于token的鉴权方式JWT(Json JSON Web Token)。因为这种方式实现起来方便快捷。整体实现逻辑如下 第一次登陆时,前端携带账号和密码请求登录接口。服务…

S32K144 UDSdoCAN 升级刷写实现笔记

文章目录 1. 摘要2. 开发环境搭建2.1 开发板2.2 IDE 安装2.3 更新扩展包2.4 烧录仿真测试2.4.1 新建工程2.4.2 导入已有工程2.4.3 编译工程2.4.4 硬件连接2.4.5 Debug2.4.6 添加 .c .h 文件2.5 串口配置2.5.1 时钟2.5.2 GPIO2.5.3 定时器2.5.4 uart 工程2.5.5 烧录验证3. 升级原…

《信息收集是这样吗?》

信息收集 前置:渗透思路: 1, 信息收集 2, 漏洞扫描 3, 漏洞挖掘 4, 开始攻击 5, 权限维持(持久化) 6, 权限提升 7, 免杀隐藏 8&#xff…

[深度学习] 大模型学习1-大语言模型基础知识

大语言模型(Large Language Model,LLM)是一类基于Transformer架构的深度学习模型,主要用于处理与自然语言相关的各种任务。简单来说,当用户输入文本时,模型会生成相应的回复或结果。它能够完成许多任务&…

用matlab调用realterm一次性发送16进制数

realterm采用PutString接口进行发送,需要注意的是发送的16进制数前面要加入0x标志。只有这样,realterm才能将输入的字符串识别为16进制数的形式。 另外,PutString函数支持两个参数输入,第一个参数为字符串,第二个参数为发送形式&…

【C++】B2099 矩阵交换行

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯题目描述题目描述输入格式输出格式输入输出样例输入 #1输出 #1 💯题目分析💯不同解法分析我的做法实现步骤:优点:不足&#…

HTML5实现好看的博客网站、通用大作业网页模板源码

HTML5实现好看的博客网站、通用大作业网页模板源码 前言一、设计来源1.1 主界面1.2 列表界面1.3 文章界面 二、效果和源码2.1 动态效果2.2 源代码 源码下载结束语 HTML5实现好看的博客网站、通用大作业网页模板源码,博客网站源码,HTML模板源码&#xff0…

动态规划六——两个数组的dp问题

目录 题目一——1143. 最长公共子序列 - 力扣(LeetCode) 题目二——1035. 不相交的线 - 力扣(LeetCode) 题目三——115. 不同的子序列 - 力扣(LeetCode) 题目四—— 44. 通配符匹配 - 力扣(…

大模型与EDA工具

EDA工具,目标是硬件设计,而硬件设计,您也可以看成是一个编程过程。 大模型可以辅助软件编程,相信很多人都体验过了。但大都是针对高级语言的软件编程,比如:C,Java,Python&#xff0c…

单片机-串转并-74HC595芯片

1、74HC595芯片介绍 74HC595 是一个 8 位串行输入、并行输出的位移缓存器,其中并行输出为三态输出(即高电平、低电平和高阻抗)。 15 和 1 到 7 脚 QA--QH:并行数据输出 9 脚 QH 非:串行数据输出 10 脚 SCLK 非&#x…

融乐 1.1.6 | 拥有海量音乐资源的第三方音乐软件,支持无损音质下载

融乐Music是一款界面优美的第三方音乐软件,提供海量音乐资源。用户可以通过分类和搜索轻松找到想要的歌曲,并享受在线畅听和下载无损音质的功能。首页设有推荐歌单、精选和排行榜,帮助用户发现更多好音乐。此外,还支持设置歌词大小…

面试场景题系列:设计搜索自动补全系统

当我们在谷歌上搜索或者在亚马逊上购物时,只要在搜索框中打字,网页上就会展示一个或者更多的与搜索词匹配的结果。这个功能叫作自动补全(Autocomplete)、提前输入(Typeahead)、边输边搜(Search-as-you-type)或者增量搜索(Incremental Search)。图-1展示了一个谷歌搜索的示例,…

Leetcode打卡:设计一个ATM机器

执行结果:通过 题目 2241 设计一个ATM机器 一个 ATM 机器,存有 5 种面值的钞票:20 ,50 ,100 ,200 和 500 美元。初始时,ATM 机是空的。用户可以用它存或者取任意数目的钱。 取款时&#xff0c…

【MySQL】九、表的内外连接

文章目录 前言Ⅰ. 内连接案例:显示SMITH的名字和部门名称 Ⅱ. 外连接1、左外连接案例:查询所有学生的成绩,如果这个学生没有成绩,也要将学生的个人信息显示出来 2、右外连接案例:对stu表和exam表联合查询,把…