MagicAnimate:Temporally consistent human image animation using diffusion model

 

1.Introduction

        本文研究了任务形象动画人物,旨在根据特定的运动序列生成一个具有特定参考身份的视频。现有的人物图像动画的数据驱动方法可以基于所使用的生成主干模型分为两类,1.基于GAN,通常使用变形函数将参考图变形为目标姿态,并利用GAN模型来外推缺失或mask的身体部分;2.基于diffusion model,利用外观和姿势条件基于预训练的扩散模型来生成目标图像。但通常存在几个限制:1.基于GAN的方法具有受限的运动传递能力,导致mask区域的细节不真实,在跨身份场景中的泛化能力有限;2.基于扩散的方法以逐帧的方式处理长视频,然后沿temporal维度stack,忽略了temporal consistency,导致闪烁的结果,通常依赖于CLIP来编码参考外观,CLIP在保留细节方面的效果较差。

        MagicAnimate提供了long-range temporal consistency,robust appearance encoding,和高质量的逐帧动画,开发了视频扩散模型,通过将temporal attention block融入扩散模型来编码temporal信息。其次,引入了一种创新的外观编码器,以保留从参考图图像中获取的人物身份和背景信息。

2.Method

        给定一个参考图像Iref和一个运动序列P=[p1,...,pN],其中N是帧数,目标是在遵循给定的运动系列的同时合成一个连续的视频I=[I1,...,IN],其外观和Iref相似。

        Temporal consistency modeling处理闪烁问题;Appearance encoder捕捉精细的细节。

        MagicAnimate,使用Appearance encoder将参考图嵌入为Appearance embedding ya,然后将目标姿势序列,如DensePose,传入姿势控制网络Fp,提取运动条件yp,在这两个信号的基础上,训练视频扩散模型,将参考任务的身份根据给定的运动进行动画化,为了减轻一些片段之间的细微不连续性,采用一种简单的视频融合方法来提高过渡的平滑性,将整个视频分解为重叠的片段,并简单的对重叠帧的预测进行平均,引入了一种图像视频联合训练策略。

2.1 Temporal consistency modeling

        为了确保视频帧之间的时间一致性,将扩散模型扩展到视频领域,通过插入temporal attention layer将原始的2d unet变成3d unet。1.随机初始化潜在噪声Zt(1-K),其中K是视频帧的长度,2.将K个连续的姿势stack成一个Densepose序列P(1-K)用于运动指导,通过将输入特征从NxCxKxHxW重新调整为NKxCxHxW,将Zt(1-K)输入到视频扩散网络中,在temporal模块中,将特征重新调整为NKWxKxC,以沿着temporal维度计算跨帧信息,添加正弦位置编码使模型了解每帧在视频中的位置,使用standard attention操作temporal attention,MagicAnimate聚合了相邻帧的temporal信息,并合成具有improved temporal consistency的K帧。

2.2 Appearance encoder

        人物图像动画的目标是在参考图像Iref的指导下生成结果。Appearance encoder的核心目标是使用详细的身份和背景相关特征来表示Iref,这些特征可以注入到视频扩散模型中,以在运动信息引导下进行重定位,和MasaCtrl以及Reference-only controlnet模式一致,提出一种新的appearance encoder,具有improved identity and background preservation,以增强单帧的保真度和时间连贯性。创建了unet的另一个可训练副本,并且每个去噪步骤t计算参考图像Iref的条件特征,

ya是middle and upsampling blocks的normalized attention hidden states,与controlnet以residual manner add conditions的方式不同,MagicAnimate将这些特征传递给了spatial self-attention layers,通过讲过ya的每个特征和原始unet中self-attention hidden states特征concat起来,以注入appearance信息。

2.3 Animation pipeline

2.3.1 Motion transfer

        对于动画化参考人体图像,通常使用controlnet for openpose关键点,但主要的身体关键点是稀疏的,对某些动作不够稳健,例如旋转,因此采用了densepose

2.3.2 Denoising process

        基于appearance ya和运动条件yp(1-K),magicanimate根据densepose序列动画化参考图像。

2.3.3 Long video animation

        通过时间一致性建模和外观编码器,可以通过分段处理生成任意长度的时间上一致的人体图像动画结果,然而,由于temporal attention无法对不同段落之间的长程一致性(long-range consistency)建模,因此可能出现不自然的过渡和段落之间不一致的细节。

        为了解决这个问题,在推断时,采用滑动窗口方法来提高过渡的平滑性,将长的运动序列分成多个具有temporal overlap的段落,其中每个段落的长度为K,先对整个视频采样噪声Z(1-N),将其分割成具有重叠的噪声段落{Z(1-K),z(K-s+1:2K-s),...,},最后一帧不满K就填充成K,对于每个去噪时间步t,预测噪声并得到每个段落的噪声预测,然后对重叠帧进行平均合并得到动画。

2.4 Training

2.4.1 Learning objectives

        采用了多阶段的训练策略,第一阶段,临时省略temporal attention layer,将appearance encoder和姿势控制网络一起训练(Fa,Fp),第二阶段,仅优化Ft中的temporal attention layer。

2.4.2 Image-video joint training

        第一阶段,训练Fa和Fp时,设置了一个采样阈值t0,随机抽取数值,小于t0就用采样的凸显个训练。第二阶段,选择两个阈值t1和t2,<t1,从图像数据中采样训练数据,否则从视频数据中采样数据。

3.Experiments

TikTok和TED-talks数据集,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/244345.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AnimateAnything:Fine-grained open domain image animation with motion guidance

1.Introduction 本文旨在借助视频扩散模型的motion prior来解决开放领域图像动画问题&#xff0c;提出了一种可控扩散图像动画方法&#xff0c;能够在保留细节的同时对图像中的任意对象进行动画处理。为了增强用户对动画过程的控制能力&#xff0c;引入了motion area guidance和…

kafka支持外网访问

kafka支持外网访问 1.kafka正常部署之后如果不修改&#xff0c;外网是无法访问的&#xff0c;具体如下&#xff08;这里是单节点&#xff09; 2.这个时候需要修改kafka的config中的server.properties中的 listeners 修改为0.0.0.0 监控所有网卡&#xff0c;advertised.listene…

汽车软件大时代,如何提升软件工程创新力?

当前&#xff0c;传统汽车产业正加速数字化转型&#xff0c;“软件定义汽车”不断深化。在电动化、智能化和网联化趋势下&#xff0c;汽车软件已经成为汽车技术革新和发展的核心驱动力之一。根据亿欧智库发布的《2023中国智能电动汽车车载软件市场分析报告》&#xff0c;2022年…

Leetcode—783.二叉搜索树节点最小距离【简单】

2023每日刷题&#xff08;五十八&#xff09; Leetcode—783.二叉搜索树节点最小距离 实现代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ void dfs(struct TreeNode* roo…

为什么要用向量检索

之前写过一篇文章&#xff0c;是我个人到目前阶段的认知&#xff0c;所做的判断。我个人是做万亿级数据的搜索优化工作的。一直在关注任何和搜索相关的内容。 下一代搜索引擎会什么&#xff1f;-CSDN博客 这篇文章再来讲讲为什么要使用向量搜索。 在阅读这篇文章之前呢&#xf…

云原生之深入解析网络服务Istio、eBPF和RSocket Broker

一、服务治理 ① “服务治理”简介 在微服务时代&#xff0c;一个复杂的应用程序被分解为多个组件化、协作和连接的单元&#xff0c;服务往往会承担越来越多的业务责任&#xff0c;这使得服务治理的难度前所未有&#xff0c;仅仅依靠微服务框架级的治理是不够的&#xff0c;构…

腾讯云Elasticsearch Service产品体验

基本介绍 产品概述 腾讯云 Elasticsearch Service&#xff08;ES&#xff09;是云端全托管海量数据检索分析服务&#xff0c;拥有高性能自研内核&#xff0c;集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群&#xff0c;也支持免运维、自动弹性、按需…

SQL进阶 | 外连接

概述 外连接的进阶用法在行列转换中比较有优势&#xff0c;往往存在需要把数据库中的格式转换成报表格式&#xff0c;但是SQL仅仅只是查询数据的语言&#xff0c;格式转换并不是原本的用途。 全外连接 标准 SQL 里定义了外连接的三种类型&#xff0c;如下所示。 左外连接&…

基于ssm生活缴费系统及相关安全技术的设计与实现论文

摘 要 互联网发展至今&#xff0c;无论是其理论还是技术都已经成熟&#xff0c;而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播&#xff0c;搭配信息管理工具可以很好地为人们提供服务。针对生活缴费信息管理混乱&#xff0c;出错率高&#xff0c;信息安全性差…

HTTP/2 快速重置 DDOS 漏洞几乎影响所有网站

一种新形式的DDOS的细节&#xff0c;它需要相对最少的资源来发起前所未有的规模的攻击&#xff0c;这使得网站成为一个明显的危险&#xff0c;因为服务器软件公司竞相发布补丁来防范它。 HTTP/2 快速重置漏洞 该漏洞利用了 HTTP/2 和 HTTP/3 网络协议&#xff0c;这些协议允许…

JavaScipt验证URL新方法(2023 年版)

JavaScript诞生以来&#xff0c;一直没有一种简单的方法验证URL&#xff0c;现在JavaScript新增了一个新方法——URL.canParse。 URL.canParse(https://www.stefanjudis.com); // true URL.canParse(www.stefanjudis.com); // falseURL.canParse() 是一种快速验证字符串是否为…

开源 Serverless 框架 Laf 性能优化实践

介绍 Laf 是一个完全开源的 Serverless 框架&#xff0c;Laf 的 Node.js 运行时容器 (以下简称为 Runtime) 是 Laf 的函数执行环境&#xff0c;依托于 Express.js 框架。采用容器进程常驻的方式&#xff0c;每一个应用对应于一个或多个容器 (弹性伸缩下)&#xff0c;底层使用了…

雅典娜Athena-signa音频算法源码与麦克风阵列角度定义互换问题

雅典娜Athena-signa音频算法源码与麦克风阵列角度定义互换问题 是否需要申请加入数字音频系统研究开发交流答疑群(课题组)?可加我微信hezkz17, 本群提供音频技术答疑服务,+群赠送语音信号处理降噪算法,蓝牙耳机音频,DSP音频项目核心开发资料, 1 dios_ssp_doa_api.c 2 公…

网站提示不安全

当我们在浏览网站时&#xff0c;可能会遇到浏览器提示网站不安全的情况。这种提示可能源于网站缺乏有效的SSL证书&#xff0c;从而导致用户的个人信息和数据容易受到攻击和窃取。当网站使用SSL证书时&#xff0c;浏览器会显示一个小锁图标&#xff0c;并且网站的URL会以“https…

SQLMAP的使用(rails 为例)

1.启动一个项目&#xff0c;例如rails学习的项目&#xff0c;修改config/database.yml&#xff0c; 假设来一个接口&#xfeff; class YourModel::YourController < ApplicationController def test_sqlisql "select * from your_table_name where id " par…

手写数组去重

说明:以下代码如有考虑不周的bug请评论区留言,我将不断完善或者优化,谢谢 一、看结果 1.执行代码 const arr = [{ id: 1, name: "数据1" },{ id: 1, name: "数据2" },{ id: 2, name: "数据3" },{ id: 3, name: "数据4" },{ id: …

磁盘坏道修复工具-是一款非常方便实用的磁盘坏道修复软件-供大家学习研究参考

1、支持磁盘数据擦除。 2、杜绝因硬盘坏道&#xff0c;而产生个人隐私数据泄露的问题。 3、支持对该磁盘格式化。 下载&#xff1a;https://download.csdn.net/download/weixin_43097956/88625682

解决Java中GB2312字符集缺失的汉字乱码问题

最近在做一个读取CSV文件&#xff0c;解析其中数据并入库的功能&#xff0c;使用的是OpenCSV组件&#xff0c;CSV文件字符集是GB2312&#xff0c;读取文件流时使用的也是GB2312字符集&#xff0c;但最终测试结果发现写入数据库的中文中存在乱码&#xff0c;奇怪的是同一个字段中…

YOLOv8算法改进【NO.93】使用resnet18网络作为主干特征提取网络

前 言 YOLO算法改进系列出到这&#xff0c;很多朋友问改进如何选择是最佳的&#xff0c;下面我就根据个人多年的写作发文章以及指导发文章的经验来看&#xff0c;按照优先顺序进行排序讲解YOLO算法改进方法的顺序选择。具体有需求的同学可以私信我沟通&#xff1a; 第一…

大数据云计算——Docker环境下部署Hadoop集群及运行集群案列

大数据云计算——Docker环境下部署Hadoop集群及运行集群案列 本文着重介绍了在Docker环境下部署Hadoop集群以及实际案例中的集群运行。首先&#xff0c;文章详细解释了Hadoop的基本概念和其在大数据处理中的重要性&#xff0c;以及为何选择在Docker环境下部署Hadoop集群。接着&…