InstantID:一张照片,无需训练,秒级个人写真生成

1. 引言

InstantID是一种基于扩散模型的强大解决方案。设计的即插即用模块仅使用单个面部图像就能熟练地处理各种风格的图像个性化,同时确保高保真度。它的核心是设计了一个新颖的 IdentityNet,通过强加语义和弱空间条件,将面部和地标图像与文本提示相结合来引导图像生成。

仅给定一张参考 ID 图像,InstantID 的目标是从单个参考 ID 图像生成具有各种姿势或风格的定制图像,同时确保高保真度。它包含三个关键组成部分:

  • 捕获语义人脸信息的 ID 嵌入;
  • 具有解耦交叉注意力的轻量级适配模块,方便使用图像作为视觉提示
  • IdentityNet,通过额外的空间控制对参考面部图像的详细特征进行编码
    在这里插入图片描述

2. InstantID功能介绍

功能1:一张人脸生成任意风格的图片

在这里插入图片描述
在这里插入图片描述

功能2:可编辑性

通过文本提示词来编辑生成的图片,比如改变图像中人物的表情、背景或其他元素。也可以借助 ControlNet插件更加精准地控制图像的生成细节,实现个性化定制。
在这里插入图片描述

功能3:多重参考

允许使用多张参考图像来生成一个新图像,从而增强生成图像的丰富性和多样性。
在这里插入图片描述
对于多个参考图像,取 ID 嵌入的平均平均值作为图像提示。即使只有一张参考图像,InstantID 也能取得良好的结果。
在这里插入图片描述
InstantID 也可以灵活支持将身份属性添加到非人类角色中。

3. InstantID与同类产品比较

比较1:InstantID 与 IP-Adapter/IP-Adapter-FaceID/PhotoMaker

在这里插入图片描述
与 IP-Adapter (IPA)、IP-Adapter-FaceID 和最新的 PhotoMaker 进行比较。其中,PhotoMaker需要训练UNet的LoRA参数。可以看到,PhotoMaker和IP-Adapter-FaceID都实现了良好的保真度,但文本控制能力有明显的退化。相比之下,InstantID 实现了更好的保真度并保留了良好的文本可编辑性(面孔和样式更好地融合)。

比较2:InstantID与LORA

在这里插入图片描述
InstantID无需任何训练就可以像 LoRA 一样取得有竞争力的效果。

比较3:InstantID与InsightFace Swapper

在这里插入图片描述
在非写实风格中,InstantID在面部和背景的融合上更加灵活。

4. InstantID使用体验

下面我们在huggingface网站上面使用体验一下。
在这里插入图片描述
在最上面有操作步数说明,核心操作只需要4步。

【第一步】:个人图片的上传

对于多人图像,我们将只检测最大的脸。确保脸部不要太小,没有明显的遮挡或模糊。

比如我们这里上传一张紫霞仙子的照片。
在这里插入图片描述
【第二步】: (可选) 上传另一个人的图像作为参考姿势

如果没有上传,我们将使用第一人称图像提取地标。如果在步骤1中使用裁剪过的脸,建议上传它来提取一个新的姿势。

【第三步】:提示词的编写

提示词:A beautiful woman was sitting on the grass in the park
在这里插入图片描述
【第四步】:图片的生成

我们先选择不同的风格,然后点击"Submit"按钮,就可以生成图片了。我们这里看一下不同风格的图片效果。

风格1:WaterColor(水彩)
在这里插入图片描述
从生产图片效果来看,人物图像保持得非常统一,和原图片的相似度非常高。

相关说明
(1)如果对相似度不满意,可以适当增加controlnet_conditioning_scale (IdentityNet)和ip_adapter_scale (Adapter)的权重。
在这里插入图片描述
(2)如果生成的图像过度饱和,请减小 ip_adapter_scale的权重。如果不起作用,请减小controlnet_conditioning_scale的权重。

(3)如果文本提示词不符合预期,减小ip_adapter_scale的权重。

(4)选择一个好的基本模型是很重要的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/370472.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jmeter-04创建请求

文章目录 一、发送请求-查看响应流程二、新建请求三、选择请求方式,填写url1.发送get请求当只有请求方式不一样的时候,参数都填写在参数栏里面,GET请求与POST请求的区别? 2.发送post请求2.1 application/x-www-form-urlencoded2.2…

ele-h5项目使用vue3+vite+vant4开发:第四节、业务组件-SearchView组件开发

需求分析 展示切换动画搜索框输入文字&#xff0c;自动发送请求搜索结果展示搜索状态维护历史搜索展示&#xff0c;点击历史搜索后发送请求历史搜索更多切换动画效果 <script setup lang"ts"> import OpSearch from /components/OpSearch.vue import { ref } f…

Jenkins(本地Windows上搭建)上传 Pipeline构建前端项目并将生成dist文件夹上传至指定服务器

下载安装jdk https://www.oracle.com/cn/java/technologies/downloads/#jdk21-windows 下载jenkins window版 双击安装 https://www.jenkins.io/download/thank-you-downloading-windows-installer-stable/ 网页输入 http://localhost:8088/ 输入密码、设置账号、安装推…

Ainx框架实现 一

&#x1f4d5;作者简介&#xff1a; 过去日记&#xff0c;致力于Java、GoLang,Rust等多种编程语言&#xff0c;热爱技术&#xff0c;喜欢游戏的博主。 &#x1f4d7;本文收录于Ainx系列&#xff0c;大家有兴趣的可以看一看 &#x1f4d8;相关专栏Rust初阶教程、go语言基础系列…

Mysql+MybatisPlus+Vue实现基础增删改查CRUD

数据库 设计数据库 设计几个字段&#xff0c;主键id自动增长且不可为空 create table if not exists user (id bigint(20) primary key auto_increment comment 主键id,username varchar(255) not null comment 用户名,sex char(1) not null comment 性…

C++弹球游戏:Jump Ball Game

一、下载压缩包 请查看网站C弹球游戏&#xff1a;Jump Ball Game并且下载&#xff0c;可以看到如下界面&#xff1a; 二、匹配图标 把压缩包解压了&#xff1a; 右键点击Jump Ball Game.lnk&#xff0c;点击“属性”它将会是我们要运行的文件。 点击“更改图标”&#xff0c;选…

【HarmonyOS 4.0 应用开发实战】ArkTS 快速入门

个人名片&#xff1a; &#x1f43c;作者简介&#xff1a;一名大三在校生&#xff0c;喜欢AI编程&#x1f38b; &#x1f43b;‍❄️个人主页&#x1f947;&#xff1a;落798. &#x1f43c;个人WeChat&#xff1a;hmmwx53 &#x1f54a;️系列专栏&#xff1a;&#x1f5bc;️…

344. Reverse String(反转字符串)

题目描述 编写一个函数&#xff0c;其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额外的空间&#xff0c;你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 问题分析 以中间字符为轴&#xff0c;将两边的字符对换…

Python 轻量级定时任务调度:APScheduler

简述 APscheduler (Advanced Python Scheduler)&#xff0c;作用为按指定的时间规则执行指定的作业。提供了基于日期date、固定时间间隔interval 、以及类似于Linux上的定时任务crontab类型的定时任务。该框架不仅可以添加、删除定时任务&#xff0c;还可以将任务存储到数据库…

浅谈Zookeeper及windows下详细安装步骤

1. Zookeeper介绍 1.1 分布式系统面临的问题 分布式系统是一个硬件或软件组件分布在不同的网络计算机上&#xff0c;彼此之间仅仅通过消息传递进行通信和协调的系统。 面临的问题&#xff1a;系统每个节点之间信息同步及共享 以一个小团队为例,面临的问题 通过网络进行信息…

蓝桥杯---生日蜡烛

某君从某年开始每年都举办一次生日party&#xff0c;并且每次都要吹熄与年龄相同根数的蜡烛&#xff0c;现在算起来&#xff0c;他一共吹熄了236根蜡烛。请问,他从多少岁开始过生日party的? 请填写他开始过生日 party的年龄数。 注意:你提交的应该是一个整数&#xff0c;不要…

二分查找第二弹

目录 力扣852.山脉数组的峰顶索引 力扣162.寻找峰值 力扣153.寻找旋转排序数组中的最小值 力扣剑指Offer53.0-n-1缺失的数字 力扣852.山脉数组的峰顶索引 峰顶之前的全部比他小&#xff0c;峰顶之后的也比他小&#xff0c;把小于等于和大于分成两段 class Solution {publi…

TQ15EG开发板教程:使用vivado2023.1建立hello world工程

1:打开软件建立工程 2:使用vivado创建设计模块并生成bit文件 3:导出硬件平台&#xff0c;使用vitis建立工程 4:使用vitis创建应用程序项目 5:硬件设置与调试 1:打开软件建立工程 打开VIVADO2023.1 创建一个新的工程 输入项目名称和地址&#xff0c;下面那个选项为是否…

深入了解关联查询和子查询

推荐阅读 给软件行业带来了春天——揭秘Spring究竟是何方神圣&#xff08;一&#xff09; 给软件行业带来了春天——揭秘Spring究竟是何方神圣&#xff08;二&#xff09; 文章目录 推荐阅读关联查询子查询 关联查询 关联查询 从多张表中查询对应记录的信息&#xff0c;关联查…

网络原理-TCP/IP(5)

TCP协议 延迟应答 它也是基于滑动窗口,提高效率的一种机制,结合滑动窗口以及流量控制,能够以延迟应答ACK的方式,把反馈的窗口,搞大.核心在于允许范围内,让窗口尽可能大. 如果接收数据的主机立刻返回ACK应答,这时候返回的窗口可能比较小. 1.假设接收端缓冲区为1M.一次收到了5…

Java特别篇--关于线程创建的三种方式的总结对比

文章目录 一、常见3种创建线程的方式&#xff08;1&#xff09;方式1&#xff1a;继承Thread类的方式&#xff08;2&#xff09;方式2&#xff1a;实现Runnable接口的方式&#xff08;3&#xff09;方式3&#xff1a;通过Callable和Future接口创建线程 二、对比三种方式&#x…

CUDA/TensorRT部署知识点

CUDA相关: 1、CUDA核函数嵌套核函数的用法多吗? 答:这种用法非常少,主要是因为启动一个kernel本身就有一定延迟,会造成执行的不连续性。 2、如下代码里的 grid/block 对应硬件上的 SM 的关系是什么? 答:首先需要理解grid/block是软件层的概念,而SM是硬件层的概念。所…

python脚本将照片按时间线整理

说明&#xff1a;有一次自己瞎折腾&#xff0c;然后把服务器相册搞崩了&#xff0c;后来做了备份同步给找了回来&#xff0c;但是相册的时间线全乱了&#xff0c;看起来非常难受。所以就想通过文件夹的形式把照片重新分类&#xff0c;分类后的结构如下(红色字体为文件夹)&#…

人生百相,不过熵增熵减

这篇博文由两个问题衍生而来&#xff0c;分别是&#xff1a;“为什么除法比加法困难”、“什么是生命进化的目的”。在阅读其他人的解读时&#xff0c;发现都关联到了一个概念&#xff0c;熵。觉得十分有意思&#xff0c;因此记录一下自己的遐想。 熵&#xff08;Entropy&#…

vulhub中spring的CVE-2022-22965漏洞复现

在JDK 9上运行的Spring MVC或Spring WebFlux应用程序可能存在通过数据绑定执行远程代码&#xff08;RCE&#xff09;的漏洞。 现在已知的利用方法要求应用程序以WAR部署的形式在Tomcat上运行&#xff0c;然而&#xff0c;该漏洞的性质更为普遍&#xff0c;可能有其他方法可以利…