【AIGC大模型】InstantID 赏析

  • 论文地址:https://arxiv.org/abs/2401.07519

  • InstantID 主页:https://instantid.github.io/

  • Demo :https://huggingface.co/spaces/InstantX/InstantID

  • code: InstantID/InstantID: InstantID : Zero-shot Identity-Preserving Generation in Seconds 🔥 (github.com)

来自小红书的团队 最近开源了InstantID项目。

InstantID 凭借着高质量的图像生成能力在 GitHub 热榜上迅速飙升,成为焦点。

这个出片神器,让用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真。

使用 Textual Inversion、DreamBooth 和 LoRA 等方法进行个性化图像合成取得了重大进展。然而,它们在现实世界中的适用性受到高存储需求、冗长的微调过程以及对多个参考图像的需求的阻碍。 相反,现有的基于 ID 嵌入的方法虽然只需要一次前向推理,但面临着挑战:它们要么需要对众多模型参数进行广泛的微调,要么缺乏与社区预训练模型的兼容性,要么无法保持高面部保真度。 为了解决这些局限性,他们引入了 InstantID,这是一种强大的基于扩散模型的解决方案。他们的即插即用模块仅使用单个面部图像即可熟练地处理各种样式的图像个性化,同时确保高保真度。 为了实现这一点,我们设计了一种新颖的IdentityNet,通过施加强语义和弱空间条件,将面部和地标图像与文本提示相结合,以引导图像生成。InstantID 展现了卓越的性能和效率,在身份保护至关重要的实际应用中被证明是非常有益的。此外,我们的工作与流行的预训练文本到图像扩散模型(如 SD1.5 和 SDXL)无缝集成,作为一个适应性强的插件。我们的代码和预先训练的检查点将在此 URL 上提供。

方法:

InstantID 仅提供一张参考 ID 图像,旨在从单个参考 ID 图像生成具有各种姿势或样式的自定义图像,同时确保高保真度。 下图概述了他们的方法。它包含三个关键组件:(1)捕获强大的语义人脸信息的ID嵌入;(2)具有解耦交叉注意力的轻量级适配模块,便于使用图像作为视觉提示;(3) 一个 IdentityNet,它通过额外的空间控制对参考面部图像中的详细特征进行编码

他们在以下几个方面与以往工作不同:(1)不训练UNet,因此可以保留原始文本到图像模型的生成能力,并与社区中现有的预训练模型和ControlNets兼容;(2)不需要测试时调优,所以对于一个特定的角色,不需要收集多张图片进行微调,只需要对一张图片进行一次推断;(3)实现了更好的人脸保真度,并保留了文本的可编辑性。

演示了 InstantID 的健壮性、可编辑性和兼容性。第 1 列显示“仅图像”结果的结果,其中提示在推理期间设置为空。第 2-4 列通过文本提示显示可编辑性。第 5-9 列显示了与现有 ControlNet 的兼容性(精明和深度)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/417146.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

idea创建一个简单的maven项目

个人学习笔记(整理不易,有帮助点个赞) 笔记目录:学习笔记目录_pytest和unittest、airtest_weixin_42717928的博客-CSDN博客 添加-DarchetypeCataloginternal 运行参数 (ps:不填的话,maven 骨架生成速度缓慢) 其实我没…

复制策略深入探讨

在之前的博客中,我们讨论了复制最佳实践和不同类型的复制,例如批量、站点和存储桶。但是,随着所有这些不同类型的复制类型的出现,人们不得不想知道在哪里使用哪种复制策略?从现有 S3 兼容数据存储迁移数据时&#xff0…

WebCPM:首个开源的交互式网页搜索中文问答模型

论文题目:WEBCPM: Interactive Web Search for Chinese Long-form Question Answering   论文日期:2023/05/23(ACL 2023)   论文地址:https://arxiv.org/abs/2305.06849   GitHub地址:https://arxiv.org/abs/2305.06849 文章…

基于transform的scale属性,动态缩放整个页面,实现数据可视化大屏自适应,保持比例不变形,满足不同分辨率的需求

文章目录 一、需求背景:二、需求分析:三、选择方案:四、实现代码:五、效果预览:六、封装组件: 一、需求背景: 数据可视化大屏是一种将数据、信息和可视化效果集中展示在一块或多块大屏幕上的技…

云尚办公-0.0.3

5. controller层 import pers.beiluo.yunshangoffice.model.system.SysRole; import pers.beiluo.yunshangoffice.service.SysRoleService;import java.util.List;//RestController:1.该类是控制器;2.方法返回值会被写进响应报文的报文体,而…

arr与arr的区别

一、定义区别 arr表示数组首元素地址 &arr表示整个数组,取出的是整个数组的地址(也叫数组指针) 二、二者偏移量不同 arr与&arr都指向数组的首地址 arr偏移量为一个int的大小 arr1:指向下一个元素的地址 &arr偏移…

小而巧的数字压缩算法:zigzag

阅读facebook开源的 RPC(Remote Procedure Call) 框架thrift源代码的时候,本来是在阅读框架,却不小心被 zigzag 这个钻石般闪耀的代码吸引。后来去百度搜索zigzag,却得到满屏图像相关的一个算法(看来起名字…

Google checkstyle实战

概述 CheckStyle检查代码是否符合制定的规范。CheckStyle检查是基于源码的,无需编译,执行速度快。 CheckStyle的主要流程是: 对Java文件进行词法语法分析,生成语法树。载入配置文件(checkstyle-metadata.xml以及自定…

【C++】认识类和对象

🔥博客主页: 小羊失眠啦. 🎥系列专栏:《C语言》 《数据结构》 《C》 《Linux》 《Cpolar》 ❤️感谢大家点赞👍收藏⭐评论✍️ 文章目录 一、什么是面向对象?二、类的引入三、类的定义四、类的访问限定符与…

(C语言)Sleep函数,system函数,数组练习,详解与运用

一维数组详解:http://t.csdnimg.cn/zahZF 二维数组详解:http://t.csdnimg.cn/h2mLe 我们看过可一维数组与二维数组,现在我们来进行简单的练习。 题目:编写代码,演⽰多个字符从两端移动,向中间汇聚 1. …

AI大模型 拍照搜题

最近,发现一款小程序【问智通】,实现了拍照搜题结合AI大模型,省去了打字和敲数学公式向AI提问,完美的补充了其它拍照搜题平台拍不到,没解析等不足!!! 小程序码: APP下载…

Python:运算符、内置函数和序列基本用法

一、学习目标 1.熟练使用Python运算符。 2.熟练使用Python内置函数。 3.掌握输入、输出函数的使用方法。 4.了解列表、元组、字典、集合的概念和基本用法。 二、相关练习 1.输入一个自然数250,输出其…

如何识别代理服务器的IP地址?

识别一个IP地址是否是由代理服务器发出的,是一项具有挑战性的任务。代理服务器是一种中间网络设备,用于转发客户端的请求和响应,从而隐藏原始客户端的IP地址。由于代理服务器的广泛使用,识别它们对于网络安全、数据分析和市场调研…

【踩坑专栏】追根溯源,从Linux磁盘爆满排查故障:mycat2与navicat不兼容导致日志暴增

昨天遇到了一个比较奇怪的问题,就是在挂起虚拟机的时候,虚拟机提示我XX脚本正在运行,很奇怪,我没有运行脚本,为什么会提示我这个呢。今天恢复虚拟机,也提示了一下脚本的问题,而且发现Linux明显异…

爬取一人之下所有图片网址以及图片的源代码

将网址保存到join中,图片源代码保存到本地目录中 import requests from lxml import etree import json import os from urllib import request# 设置Bing搜索URL和请求头 url https://cn.bing.com/images/search?q%E4%B8%80%E4%BA%BA%E4%B9%8B%E4%B8%8B%E5%9B%B…

BUUCTF AWD-Test1

打开靶场是这个有些简陋的界面。 随便点点,找到这个东西。 看到ThinkPHP,思路瞬间清晰,老熟人了。这个就是ThinkPHP漏洞。根据版本我们去找一下poc。 /index.php/?sIndex/\think\View/display&content%22%3C?%3E%3C?php%20phpinfo();…

通过多进程并发方式(fork)实现服务器

以下内容为视频学习记录。 1、父进程accept后返回的文件描述符为cfd以及用于创建连接的lfd; 调用fork()创建子进程后,子进程继承cfd,lfd,通过该cfd与连接过来的客户端通信,lfd对子进程来说没用,可以直接close(lfd); 对于父进程来说&#x…

Presto简介、部署、原理和使用介绍

Presto简介、部署、原理和使用介绍 1. Presto简介 1-1. Presto概念 ​ Presto是由Facebook开发的一款开源的分布式SQL查询引擎,最初于2012年发布,并在2013年成为Apache项目的一部分;Presto 作为现在在企业中流行使用的即席查询框架&#x…

用flymsg代替飞鸽传书(ipmsg、IPMessenger、聊天、文件传输)

用flymsg代替飞鸽传书(ipmsg、IPMessenger、聊天、文件传输) 一.简介 flymsg是由国人所开发的免费软件,是一款局域网内即时通信软件,基于TCP/IP(UDP),可运行于多种操作平台(Win,Mac,UNIX,Java&#xff09…

统计业务流量的毫秒级峰值 - 华为机试真题题解

考试平台: 时习知 分值: 200分(第二题) 考试时间: 两小时(共3题) 题目描述 业务模块往外发送报文时,有时会出现网卡队列满而丢包问题,但从常规的秒级流量统计结果看&…