MAGVIT: Masked Generative Video Transformer

Paper name

MAGVIT: Masked Generative Video Transformer

Paper Reading Note

Paper URL: https://arxiv.org/abs/2212.05199

Project URL: https://magvit.cs.cmu.edu/

Code URL: https://github.com/google-research/magvit

TL;DR

  • 2023 年 CMU、google 等发表 CVPR2023 Highlight 文章,提出了视频生成方法 MAsked Generative VIdeo Transformer (MAGVIT),基于两阶段方式训练,在多个视频生成测试集上取得了最佳效果。同时推理速度会显著优于同时期的 diffusion 方法和自回归方法。

Introduction

本文方案

  • 受到 DALLE 等工作的启发。通过掩码 token 建模和多任务学习,提出了一种高效的视频生成模型

  • 提出了 MAsked Generative VIdeo Transformer (MAGVIT)

    • 第一个用于高效视频生成和操作的掩码多任务 transformer
    • 单个训练模型可以在 10 种不同任务上推理
    • 提出了一种高效的 embedding 方法,使用多样的掩码用于众多视频生成任务
    • 在三个广泛使用的基准测试上取得了最佳的保真度性能,包括 UCF101,BAIR Robot Pushing 和 Kinetics-600
  • 下图介绍

    • a 展示了定量指标分析,实现了 SOTA 的 FVD 和 IS 指标,与之前最佳的 diffusion 模型(RaMViD, Video Diffusion)以及自回归模型(CCVS,TATS,NUWA)相比较
    • b 展示了推理性能的优势,比 diffusion 模型快两个数量级,比自回归模型快 60x
      • 128 分辨率下,MAGVIT-B 在 V100 上可以达到 37fps,MAGVIT-L 在 TPU v4i 上可以达到 65fps
    • c 展示了多个任务上的视频生成效果
      MAGVIT 整体效果展示

Methods

  • MAGVIT 训练分为两个步骤

    • 学习一个 3D 矢量量化(VQ)自编码器,将视频量化为离散标记
    • 通过多任务掩码标记建模学习视频 transformer
  • 下图展示了第二阶段的训练流程,在每个训练步骤中,随机选择一个任务及其提示 token,获取特定于任务的条件掩码,并优化 transformer 以在给定掩码输入的情况下预测所有目标 token:
    MAGVIT pipeline

基础知识:掩码图像生成 (masked image synthesis)

  • 基于非自回归 transformer,masked image synthesis 分为两个阶段

    • 基于 Vector-quantized 自编码器将图像量化并展平为一系列离散序列
    • 使用 masked token modeling (MTM)在离散序列上训练 transformer,训练目标是最小化掩码位置 token 与真实 token 之间的交叉熵
  • 掩码图像生成在训练、测试阶段的具体流程(以 MaskGIT 为例):

    • 训练过程:基于一个余弦衰减的逻辑来确定掩码比例,来随机 mask 掉图片中的一些 token 进行训练
    • 测试过程:使用非自回归的解码方式进行 12 步预测,从所有视觉 token 掩码的空白画布开始进行并行预测,每一步都并行预测所有 token,同时保留具有最高预测分数的 token,其余 token 被掩码并下一次迭代中进行预测,直到生成所有 token。

一阶段:Spatial-Temporal Tokenization

  • 基于 VQGAN 改进

    • VQ 自编码器是一个关键模块,它不仅为生成设置了质量界限,还确定了 token 序列长度,从而影响生成效率
    • 现有方法在每帧上独立应用 VQ 编码器(2D-VQ)或在超体素上应用(3D-VQ),本文提出了一个不同的设计:将所有 2D 卷积扩展为带有时间轴的 3D 卷积。由于时间和空间维度的下采样率通常不同,使用 3D 和 2D 下采样层,其中 3D 下采样层出现在编码器较浅的层中,解码器在前几个块中使用 2D 上采样层,然后是 3D 上采样层
    • 将 2D-VQ 的网络转换为带时间维度的 3D-VQ。同时使用 3D 膨胀 (3D inflation) 的方式,利用 2D-VQ 的权重初始化 3D-VQ。这对于 UCF-101 等小数据集较为有效。同时使用 reflect padding 替换 zeros padding,用于提高相同内容在不同位置的标记一致性
  • 网络结构细节,其中灰色部分是主要不同的模块
    网络结构细节

  • 训练细节

    • 每帧使用 image perceptual 损失
    • 基于以下优化使得 GAN loss 可以从头开始训
      • GAN loss 上增加了 LeCam regularization
      • 使用 StyleGAN 的 discriminator 架构,inflate 为 3D

二阶段:Multi-Task Masked Token Modeling

  • 采用各种掩码方案来进行训练,以适应具有不同条件的视频生成任务。这些条件可以是用于修复/生成图像的空间区域,也可以是用于帧预测/插值的几帧。

  • 考虑十个多任务视频生成任务,其中每个任务具有不同的内部条件和掩码:帧预测(FP)、帧插值(FI)、中央外扩(OPC)、垂直外扩(OPV)、水平外扩(OPH)、动态外扩(OPD)、中央修复(IPC)和动态修复(IPD)、类别条件生成(CG)、类别条件帧预测(CFP)。

  • 推理算法,固定推理步数进行非自回归预测
    推理算法

  • 下图比较了非自回归图像解码(MTM, from MaskGIT)和本文的视频解码过程。与 MTM 解码不同,本文的解码从嵌入内部条件的多变量掩码开始,由此掩码引导,通过在每一步替换新生成的 token 的一部分进行有条件的转换过程,最终预测出所有 token,其中内部条件 token 得到了细化
    解码方式对比

Experiments

  • MAGVIT有两个变种,即基础(B)型,参数为128M,和大型(L)型,参数为464M。

评测指标

  • FVD:FVD 特征基于在 Kinetics-400 数据集上训练的 I3D 模型提取
  • IS:基于在 UCF101 上训练的 C3D 模型提取

UCF101

  • MAGVIT 结果最佳
    在这里插入图片描述
  • 生成效果对比,从单图的效果和视频中运动的幅度来看 MAGVIT 更有优势
    在这里插入图片描述

生成效率

  • magvit 有极大优势
    在这里插入图片描述

tokenizer 架构对比

  • 在 MAGVIT 中评估了 3D-VQ 模型的不同设计方式。在 UCF101 数据集上对比。这里的指标衡量了中间量化的质量。结果表明:
    • 尽管产生了更高的压缩率,3D-VQ模型显示出比2D-VQ更好的视频重建质量。
    • 所提出的VQ在与相似大小的基线架构相比中表现得更好,并且在使用更大模型时效果更好
    • imagenet 初始化涨点
    • 中心膨胀优于平均膨胀
      在这里插入图片描述

Thoughts

  • MPT 看起来很有前景,目前从推理效率上来看有较大优势

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/272468.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[Python工程化之路] 搭建Python开发环境 包管理环境以及Linter

个人博客:Sekyoro的博客小屋 个人网站:Proanimer的个人网站 在工程化上,Python相比于Java,C#这类语言还是差了不少,不过整个生态还是不错的. 项目结构 一般有两种,一种称为flat另一种为src. ├── sample │ ├── AUTHORS.rst │ ├── docs | | ├── conf.py │ │ └…

深入Apache Commons Config:管理和使用配置文件

第1章:引言 咱们都知道,在软件开发中,管理配置文件是一件既重要又让人头疼的事。想象一下,咱们的应用程序有一堆设置需要调整,比如数据库的连接信息、应用的端口号,或者是一些功能的开关。如果这些信息硬编…

java实现广度优先搜索算法

广度优先搜索算法(BFS)是一种用于图遍历的算法。它从图的某个节点开始,依次访问其所有邻接节点,再依次访问邻接节点的邻接节点,以此类推,直到遍历完所有节点。 BFS使用队列数据结构来实现遍历过程。具体步…

关于 Appium 各种版本的安装,都在这里

大家在初次接触 Appium 时会看到网上各种帖子讲解如何安装 Appium,各种 Appium 版本的安装教程满天飞,而很多帖子中提供的安装教程是已经过时了的,容易误导初学者。 这篇文章带着你一起全面了解 Appium 各种版本如何选择如何安装。 一句话概述…

Superset 二次开发之自定义Viz Plugins(Hello World v2)

环境: Node.js 16npm 7 or 8安装webpack 全局安装 npm install webpack -g 安装eslint superset-frontend> npm install eslint 1.Yeoman 生成器 全局安装Yo> npm i -g yo 2.进入/superset-frontend/packages/generator-superset目录 npm i && npm…

传感器原理与应用--传感器基本特性与应变式传感器

文章目录 上一篇传感器的基本特性应变式传感器应变式传感器的应用下一篇 上一篇 传感器的基本特性 一般来说能把特定被测量信息按一定规律转换成某种可用信号的器件或装置,称为传感器 静态特性 灵敏度 定义:输出量增量 Δ y \Delta y Δy与引起输出量…

xstream 远程代码执行 CVE-2021-29505 已亲自复现

xstream 远程代码执行 CVE-2021-29505 已亲自复现 漏洞名称漏洞描述影响版本 漏洞复现环境搭建漏洞利用 修复建议总结 漏洞名称 漏洞描述 XStream 是用于将 Java 对象序列化为 XML 并再次序列化的软件。 1.4.17 之前的 XStream 版本中存在一个漏洞,可能允许远程攻…

集成钉钉机器人消息推送

一、简介 背景 客户需要通过钉钉接收消息通知 名词解释 群聊机器人:钉钉群里可以创建一个机器人,平台通过机器人把告警/通知推送到群里私聊机器人:钉钉后台开启机器人配置,平台绑定此机器人后,可以通过私聊的方式将…

C/S医院检验LIS系统源码

一、检验科LIS系统概述: LIS系统即实验室信息管理系统。LIS系统能实现临床检验信息化,检验科信息管理自动化。其主要功能是将检验科的实验仪器传出的检验数据经数据分析后,自动生成打印报告,通过网络存储在数据库中&#xff…

20231226在Firefly的AIO-3399J开发板上在Android11下调通后摄像头ov13850

20231226在Firefly的AIO-3399J开发板上在Android11下调通后摄像头ov13850 2023/12/26 8:22 开发板:Firefly的AIO-3399J【RK3399】 SDK:rk3399-android-11-r20211216.tar.xz【Android11】 Android11.0.tar.bz2.aa【ToyBrick】 Android11.0.tar.bz2.ab And…

一文搞懂类加载过程

废话不多说,先上一张图 1、“加载”过程做了什么?什么是双亲委派?为什么要使用双亲委派机制?有什么利弊? **加载:**就是将编译后的.class字节码文件【jvm只认.class文件,.class文件也并非只有…

C++ std::string使用效率优化

字符串操作是任何一个C开发程序无法绕过的点,很多时候针对字符串的操作需要进行优化,从而达到更优的使用效率和内存利用率。一般会采用标准的std::string替代C字符串,一方面是std::string为一个成熟的类对象,其成员操作基本能满足…

阿赵UE学习笔记——4、新建关卡

阿赵UE学习笔记目录 大家好,我是阿赵。   之前介绍了虚幻引擎的常用窗口功能,这次开始创建游戏内的世界了。首先先从创建关卡开始。 一、创建新关卡 在使用UE引擎制作游戏,首先要有一个场景作为基础,这个场景在UE里面成为关卡。…

若依(Spring boot)框架中如何在不同的控制器之间共享与使用数据

在若依框架或Spring boot框架中,控制器共享和使用数据是为了确保数据一致性、传递信息、提高效率和降低系统复杂性。这可以通过全局变量、依赖注入或数据库/缓存等方式实现。共享和使用数据对框架的正常运行非常关键,有助于促进控制器之间的协同工作&…

消息走漏提前做空腾讯爆赚30倍?逐帧分析还原真相

数量技术宅团队在CSDN学院推出了量化投资系列课程 欢迎有兴趣系统学习量化投资的同学,点击下方链接报名: 量化投资速成营(入门课程) Python股票量化投资 Python期货量化投资 Python数字货币量化投资 C语言CTP期货交易系统开…

C语言结构体内存对齐

文章目录 一、结构体内存对齐问题二、查看结构体成员起始位置三、设置内存对齐方式 一、结构体内存对齐问题 如下的info_s结构体类型,包含一个int型成员age, 一个char型成员gender, 一个int型成员id。 单从数据成员的大小进行分析,整个结构体的大小应为…

【JavaWeb学习笔记】18 - 文件上传下载

项目代码 https://github.com/yinhai1114/JavaWeb_LearningCode/tree/main/fileupdown 目录 文件上传 一、基本介绍 二、文件上传的基本原理 ​编辑 三、文件上传应用实例 四、文件上传的注意细节 1.解决中文乱码问题 2.分割文件夹 3.防止重名 4.百度WebUploader 5.空…

Windows无法安装edge 无法连接Internet

如果出现以上问题,或者Edge浏览器无法更新,提示防火墙错误之类的都可以解决问题。 下载以下证书文件并导入即可解决问题。 MicrosoftRootCertificateAuthority2011.cer

注意力机制(数学公式)

人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性 计算机注意力机制是为了让卷积神经网络注意到他更加需要注意的地方 ,而不是什么都关注 。 分为三种注意力机制,空间注意力机制,通道注意力机制,以及两者的结合。 …

关于MULTI#STORM活动利用远程访问木马瞄准印度和美国的动态情报

一、基本内容 于2023年6月22日,一款代号为MULTI#STORM的新网络钓鱼活动将目标瞄准了印度和美国,利用JavaScript文件在受感染的系统上传播远程访问木马。 二、相关发声情况 Securonix的研究人员Den luzvyk、Tim Peck和Oleg Kolesnikov发表声明称&#x…