Latte: Latent Diffusion Transformer for Video Generation

文章目录

  • Abstract
  • Introduction
  • Methodology
    • 潜在扩散模型的初步研究
    • Latte的模型变体
    • Latte的实验验证
      • 潜在视频片段的patch embedding
      • Timestep-class information injection
      • Temporal positional embedding
      • 通过学习策略增强视频生成
  • Experiments

Abstract

Latte首先从输入的视频提取时空token,然后采取一系列Transformer Block在隐空间建模视频的分布。为了建模从视频中提取的大量token,从解耦输入视频的空间和时间维度的角度出发设计了四个高效变体。为了提高生成视频的质量,我们安排了最佳的Latte测试,通过严格的实验分析,包含视频裁剪 patch embedding,模型变体, timestep-class信息注入,时空位置embedding,和学习策略。

在这里插入图片描述

Introduction

这里提出了一个新的潜在扩散Transformer用以视频生成Latte,它使用视频Transformer做backbone,并且用预训练的变分自编码器将输入的视频编码到潜空间特征中,从编码的特征中提取标记。一系列的Transformer block用以编码token。考虑到时空信息之间的内在差异以及从输入视频中提取的大量标记之间的差异,如图2所示,我们从分解输入视频的时空维度的角度,设计了4个有效的基于Transformer的模型变体。

消融分析包括:视频剪辑的patch embedding,模型变体,timestep-class信息注入,时间位置embedding和学习策略。
评价标准:Fr´echet Video Distance (FVD), Fr’echet Inception Distance (FID), and Inception Score (IS).

Contributions:

  1. 提出一种以视频Transformer为backbone的潜在扩散Transformer。此外,引入四种模型的变体捕获视频中的时空分布。
  2. 为了提高视频生成的质量,全面探讨视频切片patch embedding,模型变体,timestep-class信息注入,时间位置embedding,以及学习策略来确定基于transformer的扩散模型生成视频的最佳效果。
  3. 实验效果

Methodology

潜在扩散模型的初步研究

请添加图片描述

Latte的模型变体

在这里插入图片描述
其中的橙色代表Transformer Block

Variant 1.
Fig. 2(a)所示,变体1主要由空间transformer block和时间transformer block组成。空间块用以在共享的时间标记之间捕获空间信息,时间块以“交叉融合”的方式跨时间维度捕获时间信息。
对于潜在空间中的视频剪辑片段,首先转换为token的序列 z ^ \hat{z} z^。时空位置embedding p p p进入到 z ^ \hat{z} z^,最后 z = z ^ + p z=\hat{z}+p z=z^+p输入transformer backbone。
重塑 z z z z s z_{s} zs获得空间信息,将包含时间信息的 z s z_{s} zs重构为 z t z_{t} zt作为时间块的输入,用以捕获时间信息。
Variant 2.
组成模块类似,利用“晚期融合”的方法结合时空信息。
Variant 3.
侧重于分解Transformer block中的多头注意机制,先计算空间维度,再计算时间维度,每个block同事捕捉空间和时间信息。
Variant 4.
MHA被分成两个,每个利用一半的heads。使用不同的组件在空间和时间维度处理tokens。

Latte的实验验证

潜在视频片段的patch embedding

在这里插入图片描述
Uniform frame patch embedding.
Fig. 3 (a),将ViT的patch embedding技术分别用于每个视频帧。

ps:将图像中每个patch转换为一个向量,以便可以被Transformer模块处理。
输入的图像切割为patch,每个patch展平向量化,为了保证空间信息,为patch添加位置编码,
每个patch被转换为一个带有位置编码的向量,输入到transformer。

Compression frame patch embedding.
Fig. 3 (b),将ViT patch embedding扩展到时间维度,对潜在视频片段中的时间信息建模。沿着s步幅的时间维度提取并映射到token上。与联合帧方法相比,该策略整合了时空信息。

Timestep-class information injection

将注入的信息看做token,all token
自适应归一化层AdaLN
在这里插入图片描述

Temporal positional embedding

绝对位置编码:结合不同频率的正弦和余弦函数,识别视频序列中每一帧的精确位置。
相对位置编码:采用旋转位置嵌入,使模型掌握连续帧之间的时间关系。

通过学习策略增强视频生成

借助预训练模型学习
以往的预训练模型建立在潜在扩散模型中的Unet上,并未有基于Transformer的。从ImageNet的DiT模型上初始化Latte。为了解决直接初始化遇到的参数缺失或不兼容的问题,在预训练的DiT中,将位置embedding应用到每个token。但是,在生成模型中,有一个token计数比预训练的DiT大 n n n倍,因此通过 n n n调整 p p p
为了同时满足无条件视频生成和类条件视频生成,去掉DiT的标签嵌入,采用零初始化。

无条件视频生成:生成模型在生成视频时没有额外的条件或约束。生成模型接受一个随机向量或序列作为输入,从概述如中生成连贯的视频序列。生成的内容通常与学习的数据是同一种分布。

类条件视频生成:类条件生成是条件生成的一种特殊情况,特指使用类别信息作为条件来生成对应类别的样本。

图像-视频联合训练学习
为了实现视频生成和图像生成的同步训练,从同一数据集中随机选择的视频帧添加到所选视频的末端,每一帧都独立采样。为了生成连续的视频,token与视频相关的内容用于时间模块中建模时间信息,排除帧标记。

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/801304.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

150个pb网站模板(都是成品网站,上传php空间即可使用),建站必备

一网友提供的150个pb网站模板,其实就是成品网站,上传php空间即可使用,属于建站公司或者建站开发人员必备的资源。 一共150个基于pb的成品网站,基本上都可以找到适应你手头客户需要的一款,简单修改一下即可交活收钱了。…

python实例练习00001:打开文件输出文件内容

try:file input(enter the file :)with open(file, r) as f:data f.read()print(data) except FileNotFoundError:print(fthe file {file} does not exists:) 打开windows的cmd运行程序,效果如下:

晏子春秋-读书笔记四

景公游于寿春,坐于路寝。公曰:“嗟乎!使我有此国,吾将如之何?”晏子对曰:“此国非君之有也,乃先君之有也。君若欲有之,则修先君之德,以顺民心;若不欲有之&…

使用Jmeter进行接口自动化测试

Jmeter接口自动化 1.接口文档分析接口四要素2.自动化2.1使用用户常量来维护自动化用例2.2使用CSV文件存储常量2.3结果断言法2.4 Json提取器 接口自动化测试的意义也相当于是自动化 测试的意义 减少人为错误:自动化测试可以减少人为因素带来的错误,确保测…

RK3399基础部分

1.RK3399介绍 基础特性: 高达1.8GHz的双核Cortex-A72 四核Cortex-A53高达1.4GHz NPU高达3.0TOPS Mali-T860MP4 GPU 双通道DDR3/DDR3L/LPDDR3/LPDDR4 4K超高清H265/H264/VP9 HDR10/HLG H264编码器 双MIPI CSI和ISP USB Type-CGPU: 图形处理器(英语&…

智汇云舟智慧粮仓解决方案有哪些应用场景和价值?

“粮食”作为人类生活的生命之源,在人们的日常生活中起着决定性的作用。智慧粮仓是运用数字孪生、物联网、商业智能、云计算等技术,精确采集粮食存储过程中的所有信息,并整合到一个统一的信息管理平台上,同时粮库信息管理平台对所…

jmeter持续学习之---控制器

IF控制器 下面这种写法jmeter不推荐有性能的问题 jmeter推荐勾选上的这种写法 使用"Interpret Condition as Variable Expression"工具的性能要好一些 循环控制器 ForEach控制器 与用户定义的变量或者正则表达式提取器配合使用,循环读取。用户定义的变量或者正则…

状态管理的艺术:探索Flutter的Provider库

状态管理的艺术:探索Flutter的Provider库 前言 上一篇文章中,我们详细介绍了 Flutter 应用中的状态管理,以及 StatefulWidget 和 setState 的使用。 本篇我们继续介绍另一个实现状态管理的方式:Provider。 Provider优缺点 基…

VGMShield:揭秘视频生成模型滥用的检测与追踪技术

人工智能咨询培训老师叶梓 转载标明出处 视频生成模型,如 Stable Video Diffusion 和 Videocrafter,已经能够生成合理且高分辨率的视频。但这些技术进步也带来了被恶意利用的风险,比如用于制造假新闻或进行政治宣传。因此,来自弗…

【顺序表】算法题 --- 力扣

一、移除元素 移除元素 这个题让我们移除数组nums中值为val的元素,最后返回k(不是val的元素个数) 这样显然我们就不能再创建一个数组来解决这个问题了,只能另辟蹊径 思路:双指针 这里定义两个指针(l1&…

solidity基础语法(以太坊solidity合约)

solidity基础语法(以太坊solidity合约) 1-值类型和取值范围2-引用类型3-引用类型高阶4-固定数组和动态数组 1-值类型和取值范围 https://learnblockchain.cn/docs/solidity/introduction-to-smart-contracts.html#subcurrency https://learnblockchain…

长按加速- 解决react - setInterval下无法更新问题

最开始直接setInterval里,useState硬写,发现更新不,固定值 换let,发现dom更新不了 正确做法是用ref 并且pc端可以长按的,只是要用onTouchStart,不要用onMouseDown onTouchStart{handleMouseDown} onTou…

MFC程序创建word,创建表格,写入数据

文章目录 1、MFC程序功能:2、MFC程序实现2.1 创建项目2.2 添加word操作类2.3 添加word资源2.4 编写代码,实现将数据写入到word2.5 运行程序、验证功能3、工程代码下载 1、MFC程序功能: 创建word文档;向文档中写入字符串&#xff…

探索Docker网络配置和管理

目录 1.docker网络类型有几种? 2.自定义网络管理 1.查看网络信息 2.查看网络的详细信息 3.创建四种网络容器 3.none类型 1.验证 4.host类型 1.验证 5. bridge类型 1.验证 2.设备对 6. container类型 1.验证 2.详解 7.科普下docker的网络名称空间 “…

Pixi.js技术探索:开发者必备的视觉开发工具

pixi.js是一个开源的轻量级2D渲染引擎,专注于利用WebGL和HTML5中的Canvas技术来实现高性能的交互式图形和动画。它旨在提供一个简单而强大的工具集,使开发者能够轻松地创建各种类型的视觉效果,包括游戏、数据可视化、广告和其他富媒体应用程序…

JAVA零基础学习1(CMD、JDK、环境变量、变量和键盘键入、IDEA)

JAVA零基础学习1(CMD、JDK、环境变量、变量和键盘键入、IDEA) CMD常见命令配置环境变量JDK的下载和安装变量变量的声明和初始化声明变量初始化变量 变量的类型变量的作用域变量命名规则示例代码 键盘键入使用 Scanner 类读取输入步骤示例代码 常用方法处…

【服务器】端口映射

文章目录 1.端口映射的概念1.1 端口映射的类型1.2 端口映射的应用场景1.3 示例 2.为什么要进行端口映射呢?3.原理3.1【大白话】原理解释3.2 原理图 4.代码 1.端口映射的概念 端口映射(Port Mapping),也称为端口转发(P…

第二届大数据、计算智能与应用国际会议(BDCIA2024)

会议日期:2024年11月15-17日 会议地点:中国-湖北省-黄冈市 主办单位:黄冈师范学院 【大会主席】 【主讲嘉宾】 大会邀请到来自美国、英国、加拿大、新加坡、意大利、越南等10余位领域内学术大咖作主题报告,并与参会人员互动交…

【操作系统】文件管理——文件的物理结构(个人笔记)

学习日期:2024.7.15 内容摘要:文件的物理结构,逻辑结构与物理结构 目录 引言 文件分配方式 连续分配 链接分配 隐式链接 显式链接 索引分配 索引块大小不够装入整个索引表怎么办? ①链接方案 ②多层索引 ③混合索引 …

国产精品ORM框架-SqlSugar详解 进阶功能 集成整合 脚手架应用 专题二

国产精品ORM框架-SqlSugar详解 SqlSugar初识 专题一-CSDN博客 sqlsugar 官网-CSDN博客 4、进阶功能 5、集成整合 6、脚手架应用 4、进阶功能 4.1、生命周期 Queryable 什么时候操作库 Queryable是一个引用类型 Queryable拷贝机制 {ISugarQueryable<Student> quer…