AnimateAnything:Fine-grained open domain image animation with motion guidance

1.Introduction

        本文旨在借助视频扩散模型的motion prior来解决开放领域图像动画问题,提出了一种可控扩散图像动画方法,能够在保留细节的同时对图像中的任意对象进行动画处理。为了增强用户对动画过程的控制能力,引入了motion area guidance和motion strength guidance,实现了对多个对象的运动速度的精确和交互式控制。

为了准确识别图像中可移动对象及其对应的可移动区域,引入了motion area mask,将mask沿video latent representation的通道维度添加,并将卷积权重初始化为0,使其能够在训练中逐步调整。

2.related work

2.1 Image Animation

图像动画涉及从静态图像创建视频序列。Make-it-move通过动作锚点捕捉动作模式,然后用于条件VQ-VAE,模型受限于训练数据中特定的运动-对象对的依赖。LFDM采用两阶段过程进行人为中心视频生成。

2.2 Video generation with diffusion models

VDM(3DUnet)、Imagen Video、Make-A-Video、Tune-A-Video、Text2Video-Zero、ControlVideo、VideoCraft、VideoComposer、DragNUMA

3.Method

3.1 Background

视频扩散模型在图像LDM的基础上,引入了3DUnet,3DUnet在每个空间卷积之后加入了额外的时间卷积,并在每个空间注意力之后加入了时间注意力块,为了集成来自图像数据的生成能力,3DUnet同时训练和视频数据。

3.2 Image Animation with video diffusion model

采用LDM VAE将参考图像编码成潜在表示Zref,以保留更多的外观细节,VAE被训练用于图像重建,因此抱恨了丰富的低层次图像特征,比CLIP,可能包含更少的语义信息,但扩散模型本身对语义的理解不错。如图2所示,训练流程采用参考图作为初始帧,并采用自回归策略来预测后续帧,实现图像动画而无需额外的模型参数,第一帧的内容通过temporal conv和temporal attention传播到后面帧,只有temporal layer被微调,空间层保持冻结,在每个时间步t,将干净的Zref和含有N帧噪声潜在Zt进行连接,得到一个具有N+1帧的输入潜在code,然后从去噪后的Zt中选出最后N帧。

稍微描述一下网络结构:

conv layer、temporal conv、temporal attention、cross attention中,conv对应ResBlock,接受各种embedding,本文中接受timestep和motion strength,spatialTransformer对应cross attention,这个其实比较复杂的,有self attention,也有cross attention,文本增加的是temporal layer层。

3.3 Motion area guidance

        这块其实再说构造数据集时如何做的,如何生成运动区域motion area,通过多帧之间的灰度图的差异构建了mask,至于生成的图除了笔画区域之外的其他地方为什么会有抖动,和此处无关,训练时,只有像素变化大的区域才会成为mask,推理时纯粹是生成的不好。

        为了准确识别图像中可移动对象及其对应的可移动区域,引入了motion area mask,为用户提供对输入图像的可移动区域的精准控制。通过在通道维度将运动mask与视频潜在code进行串联,借鉴controlnet,将mask通道的卷积核初始化为0,以保持原始的视频生成能力。

        使用以下方法从真实视频中构建训练对,包括视频和相应的运动区域mask,首先,将给定的N帧视频样本转换为灰度图像,计算超过阈值Tm的帧差异,这些差异被合并为创建差异二值mask,

前一帧和后一帧中的灰度值差异,阈值Tm确定了可移动区域和不可移动区域中的运动强度,如果Tm设置的太高,非移动区域的物体可能出现运动,Tm设置的太低,不可移动的区域中的物体可能完全冻结,可能导致运动区域边界出现伪影,在d中识别这些差异区域的轮廓,并通过将标签1分配给这些轮廓内包含的像素,构建运动区域mask,表示可移动区域m。对视频潜在表示Z0进行后处理,将非移动区域的像素充值为第一帧的值。

Zti表示视频在时间步t中的第i帧,为了处理人眼无法察觉的微小运动,这些运动不应被标记为可移动区域,显式指示模型保持这些像素不变,运动阈值Tm被调整以确保重建视频Z0‘与Z0之间的视觉差异保持相对较小。

3.4 Motion strength guidance

        在训练中,采样帧速率会影响生成视频中移动物体的运动速度,然后,仅使用帧速率作为视频生成中运动速度的指导是不够的,因为相同帧速率的视频可能会基于其内容表现出不同的运动速度,提出了motion strength s指标,用户丁强测量目标运动区域的运动速度。

运动强度s量化了潜在空间中帧之间的差异,和timesteps类似,将motion strength投射到positional embedding中,并将其添加到每个残差块中的每个帧中,以确保运动强度均匀的应用于每个帧。

不好收敛,新增了一个loss,直接监督帧间差异。

3.5 Guidance composition

图像动画模型融合了来自参考图像、文本、motion area和motion strength,在训练是,会变化文本提示和运动区域,如果文本指示与参考图像的内容不一致,模型会优先保证对图像的忠实性,通过对motion area guidance,运动区域之外的对象完全被冻结。

3.6 Shared noise inference

在训练中,通过在视频潜变量上添加噪声来构建输入潜变量,在推理中,从随机高斯噪声中进行采样而没有任何真实数据信号时,扩散模型无法在测试生成忠实的图像动画,通过使用DDPM的前向过程在Zref上添加噪声来获取基础噪声,将基本噪声和Zref结合起来,保留参考图像信息的同时引入帧特定的多样性。

4.Experiments

4.1 Experimental setup

数据集 模型从VideoComposer中初始化,在webvid10M中预训练,在HD-VILA-100M中随机抽取了20000个视频进行微调,以取出水印,在MSR-VTT上评测,MSR-VTT是一个开放检索的视频检索数据集,其中每个视频片段都有20个自然语言语句作为描述,通常,其测试集中的2990个视频片段对应的文本描述被用作生成视频的提示。

评测指标,FVD

实现细节,AdamW,lr为5x10-5,一块A10GPU,训练20G显存,推理6G显存,训练中进行了多帧率采样获得384x384分辨率的8帧训练片段,bs为2,10k迭代,耗时1天,Tm为5.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/244340.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

kafka支持外网访问

kafka支持外网访问 1.kafka正常部署之后如果不修改,外网是无法访问的,具体如下(这里是单节点) 2.这个时候需要修改kafka的config中的server.properties中的 listeners 修改为0.0.0.0 监控所有网卡,advertised.listene…

汽车软件大时代,如何提升软件工程创新力?

当前,传统汽车产业正加速数字化转型,“软件定义汽车”不断深化。在电动化、智能化和网联化趋势下,汽车软件已经成为汽车技术革新和发展的核心驱动力之一。根据亿欧智库发布的《2023中国智能电动汽车车载软件市场分析报告》,2022年…

Leetcode—783.二叉搜索树节点最小距离【简单】

2023每日刷题(五十八) Leetcode—783.二叉搜索树节点最小距离 实现代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ void dfs(struct TreeNode* roo…

为什么要用向量检索

之前写过一篇文章,是我个人到目前阶段的认知,所做的判断。我个人是做万亿级数据的搜索优化工作的。一直在关注任何和搜索相关的内容。 下一代搜索引擎会什么?-CSDN博客 这篇文章再来讲讲为什么要使用向量搜索。 在阅读这篇文章之前呢&#xf…

云原生之深入解析网络服务Istio、eBPF和RSocket Broker

一、服务治理 ① “服务治理”简介 在微服务时代,一个复杂的应用程序被分解为多个组件化、协作和连接的单元,服务往往会承担越来越多的业务责任,这使得服务治理的难度前所未有,仅仅依靠微服务框架级的治理是不够的,构…

腾讯云Elasticsearch Service产品体验

基本介绍 产品概述 腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需…

SQL进阶 | 外连接

概述 外连接的进阶用法在行列转换中比较有优势,往往存在需要把数据库中的格式转换成报表格式,但是SQL仅仅只是查询数据的语言,格式转换并不是原本的用途。 全外连接 标准 SQL 里定义了外连接的三种类型,如下所示。 左外连接&…

基于ssm生活缴费系统及相关安全技术的设计与实现论文

摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对生活缴费信息管理混乱,出错率高,信息安全性差…

HTTP/2 快速重置 DDOS 漏洞几乎影响所有网站

一种新形式的DDOS的细节,它需要相对最少的资源来发起前所未有的规模的攻击,这使得网站成为一个明显的危险,因为服务器软件公司竞相发布补丁来防范它。 HTTP/2 快速重置漏洞 该漏洞利用了 HTTP/2 和 HTTP/3 网络协议,这些协议允许…

JavaScipt验证URL新方法(2023 年版)

JavaScript诞生以来,一直没有一种简单的方法验证URL,现在JavaScript新增了一个新方法——URL.canParse。 URL.canParse(https://www.stefanjudis.com); // true URL.canParse(www.stefanjudis.com); // falseURL.canParse() 是一种快速验证字符串是否为…

开源 Serverless 框架 Laf 性能优化实践

介绍 Laf 是一个完全开源的 Serverless 框架,Laf 的 Node.js 运行时容器 (以下简称为 Runtime) 是 Laf 的函数执行环境,依托于 Express.js 框架。采用容器进程常驻的方式,每一个应用对应于一个或多个容器 (弹性伸缩下),底层使用了…

雅典娜Athena-signa音频算法源码与麦克风阵列角度定义互换问题

雅典娜Athena-signa音频算法源码与麦克风阵列角度定义互换问题 是否需要申请加入数字音频系统研究开发交流答疑群(课题组)?可加我微信hezkz17, 本群提供音频技术答疑服务,+群赠送语音信号处理降噪算法,蓝牙耳机音频,DSP音频项目核心开发资料, 1 dios_ssp_doa_api.c 2 公…

网站提示不安全

当我们在浏览网站时,可能会遇到浏览器提示网站不安全的情况。这种提示可能源于网站缺乏有效的SSL证书,从而导致用户的个人信息和数据容易受到攻击和窃取。当网站使用SSL证书时,浏览器会显示一个小锁图标,并且网站的URL会以“https…

SQLMAP的使用(rails 为例)

1.启动一个项目&#xff0c;例如rails学习的项目&#xff0c;修改config/database.yml&#xff0c; 假设来一个接口&#xfeff; class YourModel::YourController < ApplicationController def test_sqlisql "select * from your_table_name where id " par…

手写数组去重

说明:以下代码如有考虑不周的bug请评论区留言,我将不断完善或者优化,谢谢 一、看结果 1.执行代码 const arr = [{ id: 1, name: "数据1" },{ id: 1, name: "数据2" },{ id: 2, name: "数据3" },{ id: 3, name: "数据4" },{ id: …

磁盘坏道修复工具-是一款非常方便实用的磁盘坏道修复软件-供大家学习研究参考

1、支持磁盘数据擦除。 2、杜绝因硬盘坏道&#xff0c;而产生个人隐私数据泄露的问题。 3、支持对该磁盘格式化。 下载&#xff1a;https://download.csdn.net/download/weixin_43097956/88625682

解决Java中GB2312字符集缺失的汉字乱码问题

最近在做一个读取CSV文件&#xff0c;解析其中数据并入库的功能&#xff0c;使用的是OpenCSV组件&#xff0c;CSV文件字符集是GB2312&#xff0c;读取文件流时使用的也是GB2312字符集&#xff0c;但最终测试结果发现写入数据库的中文中存在乱码&#xff0c;奇怪的是同一个字段中…

YOLOv8算法改进【NO.93】使用resnet18网络作为主干特征提取网络

前 言 YOLO算法改进系列出到这&#xff0c;很多朋友问改进如何选择是最佳的&#xff0c;下面我就根据个人多年的写作发文章以及指导发文章的经验来看&#xff0c;按照优先顺序进行排序讲解YOLO算法改进方法的顺序选择。具体有需求的同学可以私信我沟通&#xff1a; 第一…

大数据云计算——Docker环境下部署Hadoop集群及运行集群案列

大数据云计算——Docker环境下部署Hadoop集群及运行集群案列 本文着重介绍了在Docker环境下部署Hadoop集群以及实际案例中的集群运行。首先&#xff0c;文章详细解释了Hadoop的基本概念和其在大数据处理中的重要性&#xff0c;以及为何选择在Docker环境下部署Hadoop集群。接着&…

致远互联-OA wpsAssistServlet 任意文件读取漏洞复现

0x01 产品简介 致远互联-OA 是数字化构建企业数字化协同运营中台,面向企业各种业务场景提供一站式大数据分析解决方案的协同办公软件。 0x02 漏洞概述 致远互联-OA wpsAssistServlet 存在任意文件读取漏洞,攻击者可读取系统密码等敏感信息进一步控制系统。 0x03 复现环境…