Conditional Image-to-Video Generation with Latent Flow Diffusion Models

1 Title 重试    错误原因

        Conditional Image-to-Video Generation with Latent Flow Diffusion Models(Haomiao Ni eg) 重试    错误原因 重试    错误原因

2 Conclusion

        This paper propose an approach for cI2V using novel latent flow diffusion models 重试    错误原因
(LFDM) that synthesize an optical flow sequence in the latent space based on the given condition to warp the given image. Compared to previous direct-synthesis-based works, our proposed LFDM can better synthesize spatial details and temporal motion by fully utilizing the spatial content of the given image and warping it in the latent space according to the generated temporally-coherent flow. The training of LFDM consists of two separate stages: 重试    错误原因 重试    错误原因
(1) an unsupervised learning stage to train a latent flow auto-encoder for spatial content generation, including a flow predictor to estimate latent flow between pairs of video frames, and (2) a conditional learning stage to train a 3D-UNet-based diffusion model (DM) for temporal latent flow generation. Unlike previous DMs operating in pixel space or latent feature space that couples spatial and temporal information, the DM in our LFDM only needs to learn a low-dimensional latent flow space for motion generation, thus being more computationally efficient. 重试    错误原因 重试    错误原因
重试    错误原因

3 Good Sentences

        1、Our LFDM instead generates flow sequences based on both image x0 and condition y using diffusion models, which have emerged as a new paradigm in generation tasks.(Differences from previous flow-based I2V works.)
        2、Unlike previous direct-synthesis or warp-free based methods, the spatial content of the given image can be consistently reused by our warp-based LFDM through the generated temporallycoherent flow. So LFDM can better preserve subject appearance, ensure motion continuity and also generalize to unseen images(The creative of this paper)
        3、Though achieving promising performance, our proposed LFDM still suffers from several limitations. First, current experiments with LFDM are limited to videos containing a single moving subject. Second, the current LFDM is conditioned on class labels instead of natural text descriptions. Text-to-flow is an interesting topic and we leave this direction as future work. Finally, compared with GAN models, LFDM is much slower when sampling with 1000-step DDPM.(Some limits of LFDM)


简介:

        Conditional image-to-video (cI2V) 条件图像到视频生成旨在从图像(例如,人脸)和条件(例如,动作类的标签,比如微笑)开始合成新的可信视频。
        cI2V任务的关键挑战在于同时生成与给定图像和条件相对应的真实空间外观和时间动态。
本文中提出了一种使用新颖的潜流扩散模型(LFDM)的 cI2V 方法,该模型根据给定条件在隐空间中合成光流序列以扭曲给定图像。


        LFDM通过充分利用给定图像的空间内容,并根据生成的时间相干流在隐空间中进行扭曲,可以更好地合成空间细节和时间运动。
        LFDM的训练包括两个独立的阶段:(1)无监督学习阶段,用于训练用于空间内容生成的潜流自编码器,包括用于估计视频帧对之间潜流的流预测器;(2)条件学习阶段,用于训练用于时间潜流生成的3D-UNet-based扩散模型(DM)LFDM中的DM只需要学习低维隐流空间进行运动生成,因此计算效率更高。

介绍:

        给定单个图像和条件,cI2V的目标是合成一份

从给定坐标系x0开始,满足条件y的0到k帧的真实视频,LFDM可以更好地保持被摄体的外观,确保运动的连续性。
        为了理清空间内容和时间动态的生成,LFDM的训练被设计为包括两个独立的阶段。在第一阶段,受最近运动传递工作的启发,以无监督的方式训练潜流自动编码器(LFAE)。它首先估计了同一视频中参考帧和驱动帧之间的潜在光流,然后根据预测流对参考帧进行扭曲,并通过最小化扭曲帧与驱动帧之间的重构损失来训练LFAE。
        在第二阶段,使用配对条件y和使用训练后的LFAE从训练视频中提取的潜流序列来训练DM,LFDM中的DM在一个简单的仅描述运动动力学的低维潜流空间中运行,得益于解耦的训练策略,LFDM可以很容易地适应新的领域

        LFDM的视频生成(即推理)过程如图所示,首先采用在第二阶段训练的DM来生成隐流序列为了在新帧中生成遮挡区域,DM还生成一个遮挡图序列,然后使用对图像x0进行扭曲,逐帧生成视频,通过对给定图像x0而不是之前的合成帧进行扭曲,可以避免伪影的积累

方法

是高斯噪声体积,其形状为,这四个参数分别是长、高、宽和通道数。给定一个起始图像x0和条件y,是这个条件下的真实视频,条件图像到视频(cI2V)生成的目标是学习将噪声体积n转换为合成视频的映射,,使得在x0和y的条件分布与在x0和y的条件分布相同,,只考虑类标签作为输入条件y。

DM

        LFDM是建立在去噪扩散概率模型(DDPM)之上的,给定数据分布,DDPM的前向过程产生一个马尔可夫链,通过根据方差表逐步将高斯噪声添加到,方差是常数,当很小时,后验概率可以用对角高斯很好地近似,如果链的T足够大,

可以用标准高斯函数很好地近似。
综上,可以被近似,,其中,是常数。

        DDPM反向过程(也称为采样),它通过高斯噪声并用已学习的逐渐降低马尔可夫链中的噪声产生样品
        为了学习,在s0中加入高斯噪声,生成样本,然后训练一个模型,利用以下均方误差损失来预测
其中,时间步长t从中均匀采样,而可以从去模拟,去噪模型,通过一个带有残余块(residual blocks)和自关注层(self-attention layer)的时间条件型U-Net来训练, 而时间步长t则是通过正弦位置嵌入来指定的。
        对于条件生成,抽样,可以训练一个y条件模型

在训练过程中,条件y被替换为一个固定概率的空标签,在采样过程中,产生的模型输出如下:

其中,g为指导量表

训练

整体训练过程如图所示,

左边是训练潜流自编码器的第一阶段,右边是训练扩散模型的第二阶段。第二阶段的编码器是第一阶段训练好的。使用第一阶段训练过的流预测器F在和groundtruth视频的每一帧之间估计潜流序列遮挡图序列.

Stage One: Latent Flow Auto-Encoder

        该潜流自编码器(LFAE)通过无监督的方法学习,包括三个可训练模块,分别是:图像编码器,流预测器,以及一个图像解码器用隐映射z来表示给出的图像x,用来莫比视频帧之间的潜流f和遮挡图m,解码扭曲的潜图并把它作为输出.
        在整个训练过程中,首先从同一视频中随机选择两帧,分别是一个参考帧以及一个驱动帧,它们都是RGB帧,大小为。然后编码器把表示为大小为的隐映射z。也会被送入流预测器模拟从驱动帧到参考帧的反向隐流,f和z的空间大小相同,都为,f的两个通道分别是描述帧之间的水平方向上和垂直方向上的运动。选择反向流f是因为它可以通过可微双线性采样操作实现。
        但是,因为扭曲只能使用z中现有的外观信息,所以仅使用f不足以生成的隐图,当存在遮挡时,LFAE应该能够在z中生成那些不可见的部分。流预测器还模拟大小为
的隐遮挡图m,m包含从0到1的值,以指示遮挡程度,其中1不被遮挡,0表示完全被遮挡。最终扭曲的隐映射可以通过以下方式产生:,其中,表示向后扭曲。
        之后会解码的可见部分修复隐遮挡部分,用于生成输出图像,这个输出应该与相同,因此,可以仅使用未标记的视频帧在具有以下重建损失的情况下训练LFAE:

Stage Two: Diffusion Model

        在第二阶段,训练基于3D UNet的扩散模型(DM)来合成时间相干的隐流序列。在第一阶段训练好的两个部分在第二阶段是必须的。        
        给定一个视频及其相应的类条件y,首先计算从第一帧到第k帧的隐流序列,,以及遮挡流序列。这个计算方法是应用第一阶段中训练好的F,F模拟开始帧x0以及其他每一个帧xi之间的fi和mi,i从1到K,fi和mi的大小分别为,沿着通道维度将其组合然后通过DDPM前向传播逐渐添加3D高斯噪声的方式把s0映射到标准高斯噪声
        随后编码器进一步将起始帧x0表示为隐映射z0,并且预训练的BERT将类条件y编码为文本嵌入e,以z0和e为条件,基于具有以下损失的条件3D U-Net训练去噪模型,用于预测st中的噪声

        

其中时间步长t是从{1,…,T}均匀采样的,在DDPM反向采样过程中使用,被用于输出大小为,其中分别是合成的隐流序列和遮蔽图序列,所以DM中的隐流空间的大小为。如果隐流空间的大小远远小于图像的大小,那么空间的维度也就可以远远低于RGB像素空间的维度。
        此外,隐流空间仅包含运动和形状特征,因此更加容易建模,并有助于降低成本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/345358.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++ STL之priority_queue的使用及模拟实现

文章目录 1. 介绍2. priority_queue的使用3. priority_queue的模拟实现 1. 介绍 英文解释: 也就是说: 优先队列是一种容器适配器,根据严格的弱排序标准,它的第一个元素总是它所包含的元素中最大的。 此上下文类似于堆&#xff0c…

伊恩·斯图尔特《改变世界的17个方程》麦克斯韦方程方程笔记

它告诉我们什么? 电和磁并不会随便乱跑。旋转的电场区域会产生垂直于旋转方向的磁场。旋转的磁场区域也会产生垂直于旋转方向的电场,但方向相反。 为什么重要? 这是物理力的第一次重大统一,表明电和磁是密切相关的。 它带来了什么…

数据结构—基础知识(十):树和二叉树(b)

数据结构—基础知识(十):树和二叉树(b) 二叉树的定义 二叉树( Binary Tree)是n(n≥0)个结点所构成的集合,它或为空树(n0);或为非空树,对于非空树T: 有且仅有一个称之为根的结点;根结点以外的…

Oracle错误代码对应原因

Oracle oracle查询列长度太长ORA-01460ORA-01489ORA-01704 oracle查询列长度太长 查询的varchar的列字符串长度超过4000(取决与oracle怎么计算这个字符的长度) 例如: col like ‘%?%’,如果这个like后面的字符串长度超过4000就会报错,其中…

vivado使用注意事项

记得给constrs(.xdc)限制文件设置为目标文件(set as Target Consraint File)

计算机网络原理

第一章 认识计算机网络 👉计网体系结构 一、计算机网络概述 见x-mind 二、体系结构&参考模型 1.1 分层结构 1.1.1❓❓❓为什么要分层? 发送文件前要完成的工作: 发起通信的计算机必须将数通信的通路进行激活要告诉网络如何识别目的…

springboot120企业级工位管理系统

简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的企业级工位管理系统 适用于计算机类毕业设计,课程设计参考与学习用途。仅供学习参考, 不得用于商业或者非法用途,否则,一切后果请用户自负。 看运行截图看 第五章 第四章 …

vue 解决:Module not found: Error: Can‘t resolve ‘vue-router‘ 的问题

1、问题描述: 其一、报错为: Module not found: Error: Cant resolve vue-router 中文为: 找不到模块:错误:无法解析“vue-router” 其二、问题描述为: 根据报错的中文信息可知:应该是无法…

项目成本估算基准的常见步骤

项目成本估算基准是指在项目启动阶段确定的用于衡量和控制项目成本的基准。 基准成本是项目成本估算的依据,也是后续成本控制和决策的依据。它为管理层提供项目预算投资方案等关键投资依据,决定资源的分配情况,有助于优化资源使用效率&#x…

B-Tree详解及编码实现

一、概念和特性 1、定义 B-Tree是一种平衡的多叉树,适用于外查找多路搜索树,这种数据结构能够保证数据节点查找、顺序访问、插入、删除的动作,其平均时间复杂读控制在O(logN)内;B树为系统大块数据的读写操作做了优化,少定位记录时…

HCIP 交换

拓扑图&IP划分如下: 第一步,配制VLAN LSW1,LSW2&LSW3同理 检测 LSW1 LSW2 测试

最适合家用的洗地机哪个牌子好?清洁力强的洗地机推荐

随着家用市场的不断壮大,洗地机逐渐为人们熟知。众多厂家为提升深度清洁效果投入大量成本和时间,然而消费者在选择洗地机时往往难以判断品质。无线洗地机市场上涌现多个品牌,如何找到性能优越、实惠耐用的机型呢?在了解洗地机时,…

实战内网穿透NPS搭建过程

前提条件 首先你要有个公网IP的服务器,既然是内网穿透,那必然是通过公网IP或者域名访问本地服务。 官网下载地址 https://github.com/ehang-io/nps/releases 服务端 选择linux_amd64_server.tar.gz 客户端 选择windows_amd64_client.tar.gz 服…

列表的创建与删除

Python 中列表可以动态地添加、修改和删除元素,是 Python 编程中不可或缺的一部分。本文将介绍如何使用 Python 创建和删除列表,以及常用的方法和技巧。 创建列表 在 Python 中,我们可以使用一对方括号 [ ] 来创建一个空列表,也可…

UF_UI_select_with_single_dialog()通过单选对话框选择单个对象。对象可以通过光标或输入名称进行选择。对象被突显出来。

int response0;//返回用户操作类型,点了哪一种返回取消或者确定tag_t objtagNULL_TAG;//输出选择对象tag;double cursor[ 3 ];//输出光标位置tag_t view_tagNULL_TAG;//输出视图tag;UF_UI_select_with_single_dialog("请选择一个对象","获取对象类型…

dolphinscheduler节点二次开发需要改动的部分

dolphinscheduler节点二次开发需要改动的部分 前端 在dolphinscheduler-ui/public/images/task-icons/目录下新增两个节点的logo图片,一个为激活状态的一个为非激活状态的,如下。 修改文件dolphinscheduler-ui/src/views/projects/task/constants/task…

CSS高级技巧导读

1,精灵图 1.1 为什么需要精灵图? 目的:为了有效地减少服务器接收和发送请求的次数,提高页面的加载速度 核心原理:将网页中的一些小背景图像整合到一张大图中,这样服务器只需要一次请求就可以了 1.2 精灵…

centos7.9安装redmine5.1.1

前提: 安装mysql并新建数据库--教程太多了此步骤省略; 用sqlyog连上mysql创建数据库redmine; 1.下载redmine-5.1.1.tar.gz,上传到/usr/local/software目录下; 2.解压 cd /usr/local/software tar -zxvf redmine-5.…

JavaScript进阶:WebAPIs重点知识整理2

目录 1 对节点的相关操作 1.1 查找节点 1.1.1 查找节点的父节点 1.1.2 查找节点的子节点 1.1.3 查找节点的兄弟节点 1.2 新增节点(先创建,后追加) 1.3 克隆节点 1.4 删除节点 2 M 端(移动端)事件 3 JS清空表…

uniapp使用uni-forms表单校验无效

查看是否写了name属性,且name属性的属性值得和下面v-model绑定的一致,否则校验不生效 官网