Sora技术报告——Video generation models as world simulators

文章目录

  • 1. 视频生成模型,可以视为一个世界模拟器
  • 2. 技术内容
    • 2.1 将可视数据转换成patches
    • 2.2 视频压缩网络
    • 2.3 Spacetime Latent Patches
    • 2.4 Scaling transformers 用于视频生成
    • 2.5 可变的持续时间,分辨率,宽高比
    • 2.6 抽样的灵活性
    • 2.7 改进框架和构图
    • 2.8 为视频生成字幕,作为训练集
  • 3. 应用
    • 3.1 动画DALL·E图像 (输入图片输出视频)
    • 3.2 扩展生成视频
    • 3.3 Video-to-video编辑 (改变视频风格或场景)
    • 3.4 拼接视频
    • 3.5 图像生成功能
  • 4. 新兴的模拟能力
    • 4.1 3d一致性
    • 4.2 长程相干性和对象持久性
    • 4.3 与世界互动
    • 4.4 模拟数字世界
  • 5. 讨论
  • 6. 参考文献
  • 第三方的猜想与讨论

欢迎关注微信公众号InfiniReach,这里有更多AI大模型的前沿算法与工程优化方法分享
请添加图片描述

1. 视频生成模型,可以视为一个世界模拟器

我们在视频数据上探索生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型

我们利用一个transformer 架构来操作视频和图像潜在代码的时空补丁(spacetime patches of video and image latent codes)。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明,缩放视频生成模型(scaling video generation models)是构建物理世界通用模拟器的有希望的途径。

本技术报告侧重于

  • 我们将所有类型的视觉数据转换为统一表示的方法,从而能够大规模训练生成模型,
  • 对Sora的能力和局限性进行定性评估。

模型和实现细节不包括在本报告中。许多先前的工作已经使用各种方法研究了视频数据的生成建模,包括循环网络、生成对抗网络、autoregressive transformers和扩散模型。这些作品通常集中在一个狭窄的视觉数据类别上,在较短的视频上,或者在固定大小的视频上。

Sora是一个通用的视觉数据模型,它可以生成跨越不同持续时间、宽高比和分辨率的视频和图像,甚至可以生成一分钟的高清视频。

2. 技术内容

2.1 将可视数据转换成patches

我们从大型语言模型中获得灵感,这些模型通过对互联网规模数据的训练获得了全面的能力。LLM范式的成功在一定程度上是由于使用了token,这些token优雅地统一了文本代码、数学和各种自然语言的各种形式。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。

llm有文本令牌,而Sora有visual patches。patches先前已被证明是视觉数据模型的有效表示。我们发现,对于在不同类型的视频和图像上训练生成模型,patch是一种高度可扩展的有效表示。
在这里插入图片描述
在高层次上,我们首先将视频压缩到一个较低维度的潜在空间[19],然后将其分解为spacetime patches,从而将视频转化为patches。

2.2 视频压缩网络

我们训练一个网络来降低视觉数据的维数。该网络将原始视频作为输入,并输出经过时间和空间压缩的潜在表示。Sora在这个压缩的潜在空间中训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在映射回像素空间。

2.3 Spacetime Latent Patches

给定一个压缩的输入视频,我们提取一个spacetime patches序列,作为transformer tokens。这个方案也适用于图像,因为图像只是单帧的视频。我们基于patches的表示使Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。

在推理时,我们可以通过在适当大小的网格中安排随机初始化的patches来控制生成视频的大小。

2.4 Scaling transformers 用于视频生成

Sora为扩散模型[21,22,23,24,25],给定输入的噪声块(以及文本提示之类的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个diffusion transformer。Transformer已经在许多领域展示了显著的缩放特性,包括语言建模[13,14]、计算机视觉[15,16,17,18]和图像生成[27,28,29]
在这里插入图片描述
在这项工作中,我们发现diffusion transformers也可以有效地缩放为视频模型。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量显著提高。
在这里插入图片描述

2.5 可变的持续时间,分辨率,宽高比

过去的图像和视频生成方法通常是调整大小,裁剪或修剪视频到标准尺寸

例如,4秒的视频在256x256分辨率。

但是我们发现在原始大小的数据上进行训练提供了几个好处。

2.6 抽样的灵活性

Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。这让Sora可以直接以不同设备的原始宽高比为其创建内容。它还允许我们在生成全分辨率的内容之前,以较小的尺寸快速创建内容原型prototype ——所有内容都使用相同的模型。

2.7 改进框架和构图

我们从经验上发现,在视频的原始长宽比上进行训练可以改善构图和框架。

我们将Sora与我们模型的一个版本进行比较,该版本将所有训练视频裁剪为方形,这是训练生成模型时的常见做法。在正方形裁剪(左图)上训练的模型有时会生成仅部分显示主题的视频。相比之下,来自Sora(右)的视频有改进的帧。

左图 右图

在这里插入图片描述

2.8 为视频生成字幕,作为训练集

训练文本到视频生成系统需要大量带有相应文本说明的视频。我们将DALL·E 3 [30]中介绍的字幕重配技术应用到视频中。

我们首先训练一个高度描述性的字幕模型(highly descriptive captioner model),然后使用它为我们训练集中的所有视频生成文本字幕。我们发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。与DALL·E 3类似,我们还利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。
在这里插入图片描述

3. 应用

上面的所有结果和我们的登陆页面都显示了文本到视频的示例。但Sora也可以通过其他输入进行提示,比如预先存在的图像或视频。这种功能使Sora能够执行广泛的图像和视频编辑任务-创建完美的循环视频,动画静态图像,向前或向后扩展视频等。

3.1 动画DALL·E图像 (输入图片输出视频)

Sora能够在提供图像和提示作为输入的情况下生成视频。下面我们展示了基于DALL·E 2 [31]和DALL·E 3 [30]图像生成的示例视频。
在这里插入图片描述

展示略

3.2 扩展生成视频

Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。

我们可以使用这种方法来向前和向后扩展视频,以产生无缝的无限循环。

3.3 Video-to-video编辑 (改变视频风格或场景)

扩散模型已经启用了大量的方法来根据文本提示 编辑图像和视频。下面我们将其中一种方法SDEdit [32]应用于Sora。这项技术使Sora能够转换零拍摄输入视频的风格和环境。
在这里插入图片描述

3.4 拼接视频

我们还可以使用Sora在两个输入视频之间逐渐插入,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。
在这里插入图片描述
在这里插入图片描述

3.5 图像生成功能

Sora还能生成图像。我们通过在一个时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成可变大小的图像,最高可达2048 × 2048分辨率。

在这里插入图片描述

4. 新兴的模拟能力

我们发现视频模型在大规模训练时表现出许多有趣的新兴能力。这些功能使Sora能够从现实世界中模拟人、动物和环境的某些方面。这些属性的出现没有任何明确的3D、物体等的归纳偏差——它们纯粹是尺度现象。

4.1 3d一致性

Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

4.2 长程相干性和对象持久性

视频生成系统面临的一个重大挑战是在长视频采样时保持时间一致性。我们发现Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,我们的模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

4.3 与世界互动

Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。
在这里插入图片描述

4.4 模拟数字世界

Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。这些功能可以通过向Sora提示“我的世界”的字幕而获得zero-shot。

这些功能表明,视频模型的持续缩放(continued scaling of video models)是发展物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

5. 讨论

作为一个模拟器,Sora目前显示出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。其他的交互,比如吃东西,并不总是在对象状态中产生正确的变化。我们在登陆页面中列举了模型的其他常见故障模式,例如在长时间样本中发展的不一致性或对象的自发出现

我们相信,Sora今天所拥有的能力表明,视频模型的持续缩放是一条很有前途的道路,可以开发出物理和数字世界的模拟器,以及生活在其中的物体、动物和人。

6. 参考文献

[13] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).

[14] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.

[15] Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

[16] Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.

[17] He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[18] Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).

[19] Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[21] Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.

[22] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.

[23] Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.

[24] Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.

[25] Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.

[27] Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.

[28] Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.

[29] Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.

[30] Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

[31] Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.

[32] Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).

第三方的猜想与讨论

施工中

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/391981.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《剑指 Offer》专项突破版 - 面试题 44 : 二叉树中每层的最大值(两种方法 + C++ 实现)

目录 前言 一、只用一个队列 二、使用两个队列 前言 题目链接:LCR 044. 在每个树行中找最大值 - 力扣(LeetCode) 题目: 输入一棵二叉树,请找出二叉树中每层的最大值。例如,输入下图中的二叉树&#x…

仅需5元,手把手教你训练纳西妲GPT-SoVITS模型

资源下载及音频试听: 仅需5元,手把手教你训练纳西妲GPT-SoVITS模型 - 风屿岛 (biliwind.com) 购买服务器 首先,我们需要买一台显卡云服务器 极度推荐使用雨云,优惠码:wp-admin 账户注册成功后,前往&am…

机试复习-4

1.string类 string类型和数值的转换 ※数值→字符串 to_string函数 //具体做法 int i1234; string gto_string(i);//这样就转成字符串1234了 //下面就是字符串转为数字&#xff0c;类似下面还有stof,stoi,stod string d "1289347647"; int j stoi(d); cout <…

2024.2.17 作业

1.终端输入一个字符&#xff0c;判断是大写字母小写字母还是数字字符 代码&#xff1a; #! /bin/bash read var case $var in [0-9]) echo 数字 ;; [[:lower:]]) echo 小写字母 ;; [[:upper:]]) echo 大写字母 …

在 Geoserver 中添加自定义的室内坐标系

要在 Geoserver 中添加自定义的室内坐标系&#xff0c;您需要在数据目录中的 user_projections 文件夹下创建或编辑一个 epsg.properties 文件&#xff0c;然后在文件末尾添加您的坐标系的定义&#xff0c;使用 WKT&#xff08;Well-Known Text&#xff09;格式。您还需要为您的…

一些配置问题记录

真的很感慨 为什么一开始的下载的软件还能用 卸载或重装后的软件总是存在各种各样的错误 真令人心烦 GNURADIO运行简单的采集信号程序报错&#xff0c; 其实不太理解为什么会出现这类错误&#xff0c;解决方法为 安装 jackd2 软件包&#xff0c;然后尝试手动启动 Jack 服务器…

第四节笔记:XTuner 大模型单卡低成本微调实战

视频链接&#xff1a;https://www.bilibili.com/video/BV1yK4y1B75J/?spm_id_from333.788&vd_source3bbd0d74033e31cbca9ee35e111ed3d1 课程笔记&#xff1a; 1.Finetune简介 指令微调&#xff1a; 开始的大模型可能不知道问的是问题 这三种角色的划分只有在微调训练阶…

自动化测试-RIDE编写自动化脚本

自动化脚本是软件测试的必修内容&#xff0c;是自动化测试的核心&#xff0c;脚本的逻辑严谨性、可维护性非常重要&#xff0c;优秀的自动化脚本需要能兼顾用例的正确有效性和自动化测试的效率&#xff0c;本篇文章将介绍如何用RIDE写自动化脚本。我们将深入探讨RIDE的具体用法…

对待不合理需求,前端工程师如何优雅的say no!

曾经有位老板&#xff0c; 每次给前端提需求&#xff0c;前端都说实现不了&#xff0c;后来他搜索了一下&#xff0c;发现网上都有答案。他就在招聘要求上加了条&#xff1a;麻烦你在说不行的时候&#xff0c;搜索一下。 上面是一个段子&#xff0c;说的有点极端了&#xff0c;…

【AIGC】Stable Diffusion的插件入门

一、上文中作者使用插件包的方式下安装插件&#xff0c;用户也可以从Stable Diffusion的界面安装插件&#xff0c;如下图所示&#xff0c;在相应的插件后面点安装按钮。 二、介绍一些比较好用的插件 “adetailer” 插件是 Stable Diffusion 中的一个增强功能&#xff0c;旨在提…

Practical User Research for Enterprise UX

2.1 Why It’s Hard to Get Support for Research in Enterprises 2.1.1 Time and Budget Instead of answering the question “What dowe gain if we do this research?”, ask instead “What do we stand to lose if we don’t do the research?” 2.1.2 Legacy Thinkin…

Flink理论—Flink架构设计

Flink架构设计 Flink 是一个分布式系统&#xff0c;需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器&#xff0c;例如Hadoop YARN&#xff0c;但也可以设置作为独立集群甚至库运行,例如Spark 的 Standalone Mode 本节概述了 Flink 架构&…

QT 信号和槽机制

信号&#xff1a;各种事件 槽&#xff1a; 响应信号的动作 当某个事件发生后&#xff0c;如某个按钮被点击了一下&#xff0c;它就会发出一个被点击的信号&#xff08;signal&#xff09;。 某个对象接收到这个信号之后&#xff0c;就会做一些相关的处理动作&#xff08;称为槽…

LeetCode刷题计划---day3

卡码网 练习ACM模式 https://kamacoder.com/ 11 可用静态链表存储树&#xff0c;最后求某个结点到共同树根的长度。 #include <iostream> #include <vector> using namespace std;int main() {int n;int a,b;vector<int> nums vector<int>(30,0);wh…

Java IO详解

一、流的概念与作用 流(Stream)&#xff1a; 在Java IO中&#xff0c;流是一个核心的概念。流从概念上来说是一个连续的数据传输过程。人们根据数据传输特性将流抽象为各种类&#xff0c;方便更直观的进行数据操作。你既可以从流中读取数据&#xff0c;也可以往流中写数据。流的…

STM32——OLED菜单

文章目录 一.补充二. 二级菜单代码 简介&#xff1a;首先在我的51 I2C里面有OLED详细讲解&#xff0c;本期代码从51OLED基础上移植过来的&#xff0c;可以先看完那篇文章&#xff0c;在看这个&#xff0c;然后按键我是用的定时器扫描不会堵塞程序,可以翻开我的文章有单独的定时…

代码随想录day23--回溯的应用2

LeetCode39.组合总和 题目描述&#xff1a; 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 &#xff0c;并以列表形式返回。你可以按 任意顺序 返回这些组合。 candidates…

RCS系统之:基础算法

设计仓库机器人的控制管理系统涉及到路径规划、任务分配、库存管理、通信系统等方面。以下是一个基本的仓库机器人控制管理系统方案的概述&#xff1a; 路径规划&#xff1a;设计一个路径规划系统&#xff0c;用于确定机器人在仓库内的最佳行驶路径&#xff0c;以最大程度地提…

optee TA文件签名

TA的签名 在optee_os目录下&#xff0c;存放着签名的私钥和签名脚本。 工程目录 optee_os/keys/default_ta.pem 工程目录 optee_os/scripts/sign_encrypt.py 编译TA时会先将TA编译为elf文件。此时执行签名脚本&#xff0c;对elf文件签名并生成.ta文件。 签名使用了RSA2048的 私…

及其详细的Markdown基础-学习笔记(附有使用案例)

Markdown 基础语法 查看更多学习笔记&#xff1a;GitHub&#xff1a;LoveEmiliaForever 标题创建 标题语法格式 在文字前添加一至六个#即可创建标题 标题是有等级的&#xff0c;具体等级根据#个数决定 由于标题等级参与构建整篇文章的架构&#xff0c;编写时应该遵循如下规…