优于InstantID!中山大学提出ConsistentID:可以仅使用单个图像根据文本提示生成不同的个性化ID图像

给定一些输入ID的图像,ConsistentID可以仅使用单个图像根据文本提示生成不同的个性化ID图像。效果看起来也是非常不错。

相关链接

Code:https://github.com/JackAILab/ConsistentID

Paper:https://ssugarwh.github.io/consistentid.github.io/arXiv.pdf

Demo:https://huggingface.co/spaces/JackAILab/ConsistentID/

论文阅读

ConsistentID:具有多模式细粒度身份保护的肖像生成

摘要

基于扩散的技术已经取得了重大进展,特别是在个性化和定制的设施生成方面。然而,现有方法在实现高保真和详细身份(ID)一致性方面面临挑战,这主要是由于对面部区域的细粒度控制不足,以及缺乏通过充分考虑错综复杂的面部细节和整体面部来保存ID的全面策略。

为了解决这些限制,我们引入了ConsistentID,这是一种创新的方法,专门用于在细粒度多模式面部提示下生成不同身份的人像,仅使用单个参考图像。ConsistentID由两个关键组件组成:一个多模式面部提示生成器,它将面部特征、相应的面部描述和整体面部上下文结合起来,以提高面部细节的准确性;一个通过面部注意力定位策略优化的ID保留网络,旨在保留面部区域的ID一致性。这些组件通过引入面部区域的细粒度多模态ID信息,显著提高了ID保存的准确性。

为了促进ConsistentID的训练,我们提供了一个细粒度的人像数据集FGID,其中包含超过500,000张面部图像,提供了比现有公共面部数据集更大的多样性和全面性。%如里昂脸、CelebA、FFHQ和SFHQ。实验结果证实,我们的ConsistentID在个性化面部生成方面实现了卓越的精度和多样性,超过了MyStyle数据集上的现有方法。此外,虽然ConsistentID引入了更多的多模态ID信息,但它在生成过程中保持了较快的推理速度。

方法

该框架包括两个关键模块:多模式面部身份生成器和有目的地制作的身份保留网络。

  • 多模态面部提示生成器由两个基本组件组成:一个细粒度的多模态特征提取器,专注于捕获详细的面部信息;一个面部ID特征提取器,专门用于学习面部ID特征。

  • 另一方面,身份保留网络利用面部文本和视觉提示,通过面部注意力定位策略防止来自不同面部区域的身份信息混合。这种方法确保了面部区域中ID一致性的保持。

实验

ConsistentID改变角色年龄属性的应用案例。

我们的模型与其他模型在两个特殊任务上的定性比较:风格化和动作指导。

与更多基于微调的模型的比较。

重新语境化环境中的可视化。这些例子展示了ConsistentID的高身份保真度和文本编辑能力。

消融实验

不同合并步骤下的可视化结果。合并步骤指示何时开始向文本提示添加面部图像特征。

结论

在这项工作中,我们介绍了ConsistentID,这是一种创新的方法,旨在保持身份一致性并捕捉不同的面部细节。我们已经开发两个新颖的模块:多模式面部提示生成器和身份保存网络。前者致力于通过在面部区域级别结合视觉和文本描述来生成多模式面部提醒。后者旨在通过面部注意力定位策略确保每个面部区域的ID一致性,防止ID信息混合不同的面部区域。

通过利用多模式细粒度提示,我们的方法仅使用单个面部图像就实现了显著的身份一致性和面部真实感。此外,我们还介绍了FGID数据集,这是一个全面的数据集,包含细粒度的身份信息和详细的面部描述,对训练ConsistentID模型至关重要。实验结果在个性化面部生成方面表现出卓越的准确性和多样性,超过了MyStyle数据集上的现有方法。

限制

在我们的方法中使用MLLM可能会引入一些限制,这些限制可能会影响模型性能的特定方面。约束条件有限的姿势和表情可能会限制我们方法的多样性, 影响其处理面部变化的能力。这些限制强调深入讨论和探索的必要性,特别是在解决与GPT-4V的姿态、表达和整合相关的挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/639068.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Sentinel重要的前置知识

文章目录 1、雪崩问题及解决方案1.1、雪崩问题1.2、超时处理1.3、仓壁模式1.4、断路器1.5、限流1.6、总结 2、服务保护技术对比3、Sentinel介绍和安装3.1、初识Sentinel3.2、安装Sentinel 4、微服务整合Sentinel ​🍃作者介绍:双非本科大三网络工程专业在…

二叉树实战演练

目录 1.二叉树前序遍历---leetcode 思路 画图解析: 2.相同的树的判断 思路: 3.对称二叉树 思路分析: 4.另一棵树的子树 思路: 5.二叉树的便利---牛客网 建立二叉树的逻辑图: 总结: 1.…

Python3 笔记:部分专有名词解释

1、python 英 /ˈpaɪθən/ 这个词在英文中的意思是蟒蛇。但据说Python的创始人Guido van Rossum(吉多范罗苏姆)选择Python这个名字的原因与蟒蛇毫无关系,只是因为他是“蒙提派森飞行马戏团(Monty Python's Flying Ci…

Softing工业将亮相2024年阿赫玛展会——提供过程自动化的连接解决方案

您可于2024年6月10日至14日前往美因河畔法兰克福11.0号馆,Softing将在C25展位展出,欢迎莅临! 作为工业应用中数据交换领域公认的专家,Softing工业致力于帮助各行各业的客户部署网络自动化和优化生产流程。 使用Softing产品&…

什么是DNS缓存投毒攻击,有什么防护措施

随着企业组织数字化步伐的加快,域名系统(DNS)作为互联网基础设施的关键组成部分,其安全性愈发受到重视。然而,近年来频繁发生的针对DNS的攻击事件,已经成为企业组织数字化发展中的一个严重问题。而在目前各…

基于Go实现的分布式主键系统

基于Go实现的分布式主键系统 摘要 随着互联网的发展,微服务得到了快速的发展,在微服务架构下,分布式主键开始变得越来越重要。目前分布式主键的实现方式颇多,有基于数据库自增的、基于UUID的、基于Redis自增的、基于数据库号段的…

Day3: LeedCode 203. 移除链表元素 707. 设计链表 206. 反转链表

详细讲解移步:Day3: LeedCode 203. 移除链表元素 707. 设计链表 206. 反转链表-CSDN博客 203. 移除链表元素 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 示例 1: 输入&a…

Mybatis源码剖析---第一讲

Mybatis源码剖析 基础环境搭建 JDK8 Maven3.6.3&#xff08;别的版本也可以…&#xff09; MySQL 8.0.28 --> MySQL 8 Mybatis 3.4.6 准备jar&#xff0c;准备数据库数据 把依赖导入pom.xml中 <properties><project.build.sourceEncoding>UTF-8</p…

关于阳光雨露外派联想的面试感想

最近在找工作&#xff0c;接到了一个阳光雨露外派联想的面试邀请。说实在的一开始就有不对劲的感觉。想必这就是大厂的自信吧&#xff0c;上就问能不能现场面试&#xff0c;然后直接发面试邀请。这时候我倒是没觉得有啥问题。 然后今天就去面试去了&#xff0c;住的比较偏&…

CSS demo演示 20240524

说明&#xff1a;不修改父盒子的样式&#xff0c;只在子盒子上设置定位&#xff0c;让子盒子定位在父盒子右侧。 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Document</title><style>…

Docker快速部署Seata的TC服务以及微服务引入Seata教程

目录 一、使用docker部署Seata的TC服务 1、拉取TC服务镜像 2、创建并运行容器 ​3、修改配置文件 4、在Nacos中添加TC服务的配置 5、重启TC服务 二、微服务集成Seata 1、引入依赖 2、修改配置文件 Seata是阿里的一个开源的分布式事务解决方案&#xff0c;能够为分布…

2024 电工杯高校数学建模竞赛(B题)数学建模完整思路+完整代码全解全析

你是否在寻找数学建模比赛的突破点&#xff1f;数学建模进阶思路&#xff01; 作为经验丰富的数学建模团队&#xff0c;我们将为你带来2024电工杯数学建模竞赛&#xff08;B题&#xff09;的全面解析。这个解决方案包不仅包括完整的代码实现&#xff0c;还有详尽的建模过程和解…

设置 sticky 不生效?会不会是你还是没懂 sticky?

官方描述 基本上可以看懂的就会知道。sticky 是相对于存在滚动条的内容的&#xff0c;啥意思&#xff1f; 就是不论你被谁包着&#xff0c;你只会往上找有 overflow 属性的盒子进行定位&#xff0c;包括&#xff1a;overflow:hidden; overflow:scroll; overflow:auto; overflo…

PMP 学习笔记(增量更新中)

PMP 作为最流行的项目管理方法论&#xff0c;是项目管理领域的对话基础&#xff0c;了解它能帮助我理解术语和规范的管理过程&#xff0c;也许后面会考一个认证。感谢 B 站视频《 PMP 认证考试课程最新完整免费课程零基础一次通过项目管理 PMP 考试》的作者&#xff0c;我通过它…

山脉数组的峰顶索引 ---- 二分查找

题目链接 题目: 分析: 我们很明显, 可以从峰值位置将数组分成两段, 具有"二段性", 所以可以用二分查找因为arr是山峰数组, 不存在相等的情况如果arr[mid] > arr[mid 1], 说明mid的位置可能是峰值, 移动right mid如果arr[mid] < arr[mid 1], 说明mid的位置…

【ZYNQ】GPIO 与 AXI GPIO

在嵌入式开发中&#xff0c;GPIO 是最常见的外设。GPIO 是 General Purpose I/O 的缩写&#xff0c;译为通用输入/输出。GPIO 用于连接外部设备&#xff0c;例如按键、传感器等&#xff0c;实现数字信号的输入或输出功能。本文主要介绍 Zynq GPIO 的基本概念&#xff0c;并对比…

物理服务器介绍

物理服务器介绍 概述分类按服务器应用分类按服务器结构分类塔式服务器机架式服务器刀片式服务器机架式服务器与刀片式服务器的对比按处理器个数分类按处理器架构分类 主板概述工作原理物理结构技术参数 CPU概述工作原理指令集相关技术技术参数主流产品 内存概述类型相关技术技术…

Python中文件操作和异常处理

文章目录 一、文件操作1.概念2.文件3.二进制 二、基本文件操作三、乱码产生四、with open() as f五、代码实现文件复制粘贴六、try ... except ...七、代码比较 一、文件操作 1.概念 帮助我们把爬虫抓下来的数据&#xff0c;进行保存。 2.文件 在计算机中&#xff0c;没有p…

副业树洞聊天项目/树洞倾诉/陪陪系统源码/树洞源码下载搭建

随着社会的发展和人们生活水平的提高&#xff0c;越来越多的人在面临心理压力、情感困扰或生活困境时&#xff0c;需要一个可以宣泄、倾诉和寻求支持的平台。而传统的人际交往方式往往会遇到难以排解的问题&#xff0c;比如担心被他人知晓自己的隐私等&#xff0c;这就导致了人…

Java期末复习指南(1):知识点总结+思维导图,考试速成!

&#x1f516;面向对象 &#x1f4d6; Java作为面向对象的编程语言&#xff0c;我们首先必须要了解类和对象的概念&#xff0c;本章的所有内容和知识都是围绕类和对象展开的&#xff01; ▐ 思维导图1 ▐ 类和对象的概念 • 简单来说&#xff0c;类就是对具有相同特征的一类事…