零样本身份保持:ID-Animator引领个性化视频生成技术新前沿

在最新的研究进展中,由Xuanhua He及其团队提出的ID-Animator技术,为个性化视频生成领域带来了突破性的创新。这项技术的核心在于其零样本(zero-shot)人物视频生成方法,它允许研究者和开发者根据单一的参考面部图像生成具有特定身份特征的视频,而无需进行额外的训练步骤。

ID-Animator的设计基于两个主要组件:一个预训练的文本到视频(Text-to-Video, T2V)扩散模型,以及一个轻量级的面部适配器。

ID-Animator技术的基础是一个预训练的文本到视频扩散模型,该模型能够根据文本提示生成视频。然而,这种通用的视频生成模型并不擅长于生成特定身份人物的视频。为了解决这一问题,研究者们引入了一个面部适配器,以增强模型对特定身份特征的捕捉能力。

面部适配器是ID-Animator框架的关键部分,它负责编码与身份相关的嵌入。这一适配器通过学习面部潜在查询来获取身份相关的特征,并将这些特征嵌入到视频生成过程中。面部适配器的设计是轻量级的,这意味着它不会显著增加模型的计算负担。

为了提高模型在视频生成中对身份信息的提取效率,研究者们构建了一个以身份为导向的数据集。这个流程包括以下几个步骤:

  1. 解耦的人类视频字幕生成:研究者们设计了一种新的字幕重写技术,将字幕分解为两个部分:描述人物属性的“人类属性字幕”和描述人物动作的“人类动作字幕”。这两种字幕分别由不同的模型生成,然后通过一个大型语言模型整合成一个统一的、全面的字幕。

  2. 面部图像池的构建:与以往直接使用视频帧作为参考图像的方法不同,ID-Animator从视频中提取面部区域作为身份参考图像。这种策略减少了与身份无关特征对视频生成的影响。

为了减少参考图像中与身份无关特征的影响,研究者们开发了一种随机面部参考训练方法。在训练过程中,模型不是使用与生成目标相同的图像作为条件,而是随机选择面部图像池中的图像作为参考。这种方法有效地将ID相关的特征与图像中的其他内容解耦,使得适配器能够专注于与身份相关的特征。

在实现ID-Animator时,研究者们采取了以下步骤:

  • 模型选择:选择AnimateDiff作为基础的文本到视频生成模型。

  • 数据预处理:对训练数据进行裁剪、中心裁剪和调整大小,以适应模型的输入要求。

  • 训练策略:在训练过程中,只有面部适配器的参数会被更新,而预训练的文本到视频模型参数保持不变。

  • 优化技术:应用分类器自由引导技术,通过一定概率使用空文本嵌入来替代原始文本嵌入,以增强生成性能。

在实验部分,研究者们使用了开源的AnimateDiff作为文本到视频生成模型的基础,并在NVIDIA A100 GPU上进行了训练。

实验的基础是使用开源的AnimateDiff模型作为文本到视频生成的核心。为了适应ID-Animator的需要,研究者们对模型进行了适当的修改,特别是在面部适配器部分。训练数据集来源于CelebV,经过预处理,包括裁剪到16帧、中心裁剪到512x512像素等步骤,以确保数据的一致性和模型的输入要求。

在训练ID-Animator时,只有面部适配器的参数会被更新,而预训练的文本到视频模型则保持固定。这样的设计旨在减少训练成本,同时保持模型的视频生成能力。训练过程中,使用了单个NVIDIA A100 GPU,并采用了1e-4的学习率。为了进一步提升生成性能,研究者们还采用了分类器自由引导技术,通过一定概率使用空文本嵌入来替代原始文本嵌入。

研究者们对ID-Animator进行了定性评估,将其生成的视频与几个现有的方法进行了比较。他们选择了名人和普通个体的图像作为测试案例,并通过大型语言模型(LLM)随机生成了六个与人类语言风格一致的提示。这些提示用于评估模型遵循指令的能力。结果显示,ID-Animator在面部结构、动作丰富性以及遵循文本指令的能力上均优于对比方法。

ID-Animator的应用潜力在多个方面得到了展示。研究者们展示了模型在重新情境化方面的应用,即在保持人物身份的同时改变视频的上下文信息。这包括改变人物的发型、服装、背景、执行特定动作以及调整年龄或性别。此外,模型还能够混合不同人物的身份特征,生成具有混合特征的视频。这证明了面部适配器在学习能力上的高效性。

ID-Animator还展示了与现有模型的兼容性。研究者们将其与ControlNet结合,展示了如何通过单帧或多帧控制图像生成具有特定身份特征的视频。此外,ID-Animator还能够与社区模型(如Lyriel和Raemumxi)结合使用,即使这些模型从未在ID-Animator的训练中使用过。这些实验结果表明,ID-Animator不仅能够生成高质量的个性化视频,还能够无缝地与现有的视频生成框架集成。

通过这些实验,研究者们证明了ID-Animator在生成特定身份人物视频方面的优越性能。模型能够生成稳定且具有高度身份保真度的视频,同时保持与文本提示的一致性。此外,ID-Animator的训练方法和数据集构建流程为零样本个性化视频生成提供了一个有效的解决方案,展示了其在实际应用中的广泛潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/625306.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

人工神经网络(科普)

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程…

Python 全栈体系【四阶】(四十二)

第五章 深度学习 九、图像分割 3. 常用模型 3.2 U-Net(2015) 生物医学分割是图像分割重要的应用领域。U-Net是2015年发表的用于生物医学图像分割的模型,该模型简单、高效、容易理解、容易定制,能在相对较小的数据集上实现学习…

利用KMeans进行遥感NDWI进行聚类分割

(1)解释 KMeans算法是一种非监督式的聚类算法,于1967年由J. MacQueen提出,聚类的依靠是欧式距离,其核心思想就是将样本划分为几个类别,类里面的数据与类中心的距离最小。类的标签采用类里面样本的均值。 这…

第16节 实战:文件转shellcode

我最近做了一个关于shellcode入门和开发的专题课👩🏻‍💻,主要面向对网络安全技术感兴趣的小伙伴。这是视频版内容对应的文字版材料,内容里面的每一个环境我都亲自测试实操过的记录,有需要的小伙伴可以参考…

《告别重复:Spring AOP让你的代码花园绽放》

厌倦了在代码花园中重复种植相同的植物(代码)吗?Spring AOP将是你的园艺师,帮助你修剪和优化代码,让花园更加丰富多彩! 文章目录 面向切面编程(AOP)主题文章一. 引言1.1 引入面向切面…

添砖Java之路(其八)——继承,final关键字

继承: 意义:让类于类之间产生父类于子类的关系,子类可以直接使用父类中的非私有成员(包括方法与成员变量) 。 extends关键字就是定义声明父类。 格式:public class 子类 extends 父类。 对于基础的我就不赘述了,我…

汇舟问卷:做小生意也依然可以取得成功

冷门小生意之所以能够成功发财,主要是因为竞争相对较少。相较于那些已被大家知晓且看似热门的生意,冷门小生意的利润空间更多且风险更低。 冷门小生意常常具备低成本和高回报的特点。举个例子,与开设一家餐厅或者服装店相比,成立…

【源码】Spring Data JPA原理解析之Repository的自动注入(一)

Spring Data JPA系列 1、SpringBoot集成JPA及基本使用 2、Spring Data JPA Criteria查询、部分字段查询 3、Spring Data JPA数据批量插入、批量更新真的用对了吗 4、Spring Data JPA的一对一、LazyInitializationException异常、一对多、多对多操作 5、Spring Data JPA自定…

电脑没有网络连接怎么办?4招轻松完成网络连接!

“我的电脑开机后发现连接不上网络,尝试了很多次也不行,这是因为什么呢?有什么比较好的解决方法吗?” 当电脑无法连接到网络时,可能会给我们的工作和生活带来诸多不便。然而,大多数网络连接问题都可以通过一…

C#实现长方体棱锥圆柱棱柱圆锥展开折叠旋转缩放

C#实现长方体棱锥圆柱棱柱圆锥展开折叠旋转缩放 C#实现 模型边数 长方体 棱锥 圆柱 棱柱 圆锥 实现功能 展开 折叠 颜色 边框颜色 旋转 缩放 大小 视图方向 项目获取: 项目获取:typora: typora/img (gitee.com) 备用项目获取链接1:yife…

Linux的进程间通信 管道 进程池

目录 前言 进程间通信的基本概念 管道 匿名管道 pipe函数 cfc 管道的四种情况 管道的五种特征 进程池 ProcessPool.cpp: Task.cpp: 前言 ubuntu系统的默认用户名不为root的解决方案(但是不建议):轻量应用服…

安卓悬浮窗----可移动的悬浮窗

目录 前言一、添加对悬浮窗功能的支持二、通过service实现悬浮窗2.1 窗口属性和标志2.2 窗口移动 三、完整代码 前言 记录一下基础的悬浮窗实现,分为几个重要的点进行阐述。 一、添加对悬浮窗功能的支持 app要实现悬浮窗功能,首先app要添加对悬浮窗功…

【瑞萨RA6M3】2. UART 实验

https://blog.csdn.net/qq_35181236/article/details/132789258 使用 uart9 配置 打印 void hal_entry(void) {/* TODO: add your own code here */fsp_err_t err;uint8_t c;/* 配置串口 */err g_uart9.p_api->open(g_uart9.p_ctrl, g_uart9.p_cfg);while (1){g_uart9.…

扫码枪与Input的火花

文章目录 前言一、需求:交互细节二、具体实现两个核心的函数:自动聚焦 三,扩展知识input 与 change的区别 前言 在浏览器扫描条形码获取条形的值,再操作对应的逻辑。这是比较常见的业务,这里记录实际操作。 其中PC端…

spacy NER 位置信息不考虑空格!!!

texts ["疫情期间,俄罗斯 联邦军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。","疫情期间,俄罗斯 联 邦 军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。","疫情期间,俄罗 斯 联 邦 …

PR对比模板|手机竖屏分辨率视频效果前后对比模板剪辑素材

Premiere Pro前后对比效果模板,适用于化妆前后对比、视频调色效果前后对比、同一地方人物活场景变化等视频制作剪辑使用。 主要特点: 只需将图像或视频导入占位符,编辑前后文本,并使用控件微调动画计时。 可以打开或关闭前后屏幕…

LeetCode2095删除链表的中间节点

题目描述 给你一个链表的头节点 head 。删除 链表的 中间节点 ,并返回修改后的链表的头节点 head 。长度为 n 链表的中间节点是从头数起第 ⌊n / 2⌋ 个节点(下标从 0 开始),其中 ⌊x⌋ 表示小于或等于 x 的最大整数。对于 n 1、…

Linux防火墙iptalbes

1 iptalbes 1.1 概念 防火墙(Firewall)是一种隔离技术,用于安全管理与筛选的软件和硬件设备,使计算机内网和外网分开,可以防止外部网络用户以非法手段通过外部网络进入内部网络,保护内网免受外部非法用户的侵入。 1.2 SELinux …

Linux文件相关

权限: 超级用户root 可以做任何事情不受限制 普通用户[用户名]做有限的事情 超级用户的命令提示符是“#”,普通用户的命令提示符是“$” 拓展: 用户的切换 su [用户名] 只是简单的换了一个账号,环境没变 su - 改变…

实验十 智能手机互联网程序设计(微信程序方向)实验报告

实验目的和要求 完成以下页面设计。 二、实验步骤与结果&#xff08;给出对应的代码或运行结果截图&#xff09; Wxml <view class"container"> <view class"header"> <view class"logo"…