学习人工智能:Sora技术报告Video generation models as world simulators,2024.2

原文链接: Video generation models as world simulators (openai.com)

摘要:

我们探索了在视频数据上大规模训练生成模型。具体来说,我们在可变片长、分辨率和纵横比的视频和图像上联合训练文本条件扩散模型text-conditional diffusion models。我们利用一种 transformer 架构,该架构在视频和图像潜在代码的时空补丁 spacetime patches上运行。我们最大的型号 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型scaling video generation models是构建物理世界通用模拟器的一条有前途的途径。

本技术报告重点介绍

(1)我们将所有类型的视觉数据转换为统一表示的方法,以实现生成模型的大规模训练,以及(2)对Sora的功能和局限性进行定性评估。本报告未包括模型和实施细节。

许多先前的工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络,自回归变压器,和扩散模型。这些作品通常集中在一小部分视觉数据、较短的视频或固定大小的视频上。Sora 是一种通用的视觉数据模型,它可以生成跨越不同片长、纵横比和分辨率的视频和图像,最多可生成一整分钟的高清视频。

将可视化数据转换为补丁Turning visual data into patches

我们从大型语言模型LLM中汲取灵感,这些模型通过对互联网规模的数据进行训练来获得通才功能。LLM范式的成功在一定程度上得益于使用标记tokens,这些标记优雅地统一了不同的文本模式——代码、数学和各种自然语言。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些好处。LLM 有文本标记text tokens,而 Sora 有视觉补丁visual patches。补丁以前已被证明是视觉数据模型的有效表示。我们发现,补丁是一种高度可扩展且有效的表示,用于在不同类型的视频和图像上训练生成模型。

在高层次上,我们首先将视频压缩到低维的潜在空间中,从而将视频转换为补丁,19并随后将表示分解为时空斑块。

视频压缩网络Video compression network

我们训练了一个网络,可以降低视觉数据的维度。该网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在对象映射回像素空间。

时空潜伏斑块Spacetime latent patches

给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁充当transformer 令牌。此方案也适用于图像,因为图像只是单帧视频。我们基于补丁的表示使 Sora 能够对可变分辨率、持续时间和纵横比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。

用于视频生成的Scaling transformers for video generation

Sora是一个扩散模型;给定输入的嘈杂补丁(以及文本提示等条件信息),它被训练来预测原始的“干净”补丁。重要的是,Sora是一个扩散Transformer。Transformer 在各个领域都表现出了非凡的扩展特性,包括语言建模、计算机视觉,和图像生成。

在这项工作中,我们发现扩散transformers也可以有效地扩展为视频模型。下面,我们展示了随着训练的进行,具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显著提高。

可变时长、分辨率、纵横比

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小,例如,分辨率为 256x256 的 4 秒视频。我们发现,相反,以原生大小对数据进行训练有几个好处。

采样灵活性

Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。它还使我们能够在以全分辨率生成之前以较小的尺寸快速制作内容原型 - 所有这些都使用相同的模型。

改进的取景和构图

我们根据经验发现,以原始纵横比对视频进行训练可以改善构图和取景。我们将 Sora 与模型的一个版本进行了比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在方形裁剪上训练的模型(左)有时会生成视频,其中主体仅部分可见。相比之下,Sora(右)的视频改善了取景。

语言理解Language understanding

训练文本到视频生成系统需要大量带有相应文本标题的视频。我们应用了DALL·E 3到视频。我们首先训练一个高度描述性的字幕器模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。

与DALL·E 3相似,我们还利用 GPT 将简短的用户提示转换为更长的详细字幕,然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。

使用图像和视频进行提示 Prompting with images and videos

也可以用其他输入提示 Sora,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务——创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。

动画 DALL·E 图像

Sora 能够生成视频,提供图像和提示作为输入。下面我们展示基于DALL·E 231和 DALL·E 330图像。

Sora is generating from image

扩展生成的视频

Sora 还能够向前或向后扩展视频。以下是四个视频,它们都是从生成的视频片段开始向后扩展的。因此,四个视频的开头都与其他视频不同,但所有四个视频都指向相同的结局。

我们可以使用这种方法向前和向后扩展视频,以产生无缝的无限循环。

视频到视频编辑

扩散模型已经实现了多种从文本提示中编辑图像和视频的方法。下面我们应用其中一种方法,SDEdit,32到索拉。这种技术使 Sora 能够零镜头转换输入视频的风格和环境。

输入视频

连接视频

我们还可以使用 Sora 在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的示例中,中间的视频在左侧和右侧的相应视频之间进行插值。

图像生成功能

Sora 还能够生成图像。为此,我们将高斯噪声的斑块排列在时间范围为一帧的空间网格中。该模型可以生成可变大小的图像,分辨率高达 2048x2048。

新兴的仿真功能

我们发现,视频模型在大规模训练时表现出许多有趣的涌现能力。这些功能使 Sora 能够模拟物理世界中人、动物和环境的某些方面。这些属性的出现对3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。

3D 一致性。Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

远距离相干性和物体持久性。视频生成系统面临的一个重大挑战是在对长视频进行采样时保持时间一致性。我们发现,Sora通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持它们的外观。  
与世界互动。Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
模拟数字世界。Sora还能够模拟人工过程,例如视频游戏。Sora 可以同时通过基本策略控制 Minecraft 中的玩家,同时还可以高保真地渲染世界及其动态。这些功能可以通过提示 Sora 提及“Minecraft”来零触发。
这些能力表明,视频模型的持续缩放是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有希望的道路。

讨论Discussion

Sora 目前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理特性,比如玻璃破碎。其他交互,如吃食物,并不总是能产生物体状态的正确变化。我们列举了模型的其他常见失效模式,例如在长时间样本中出现的不连贯性或物体的自发出现,在我们的 登陆页面.
我们相信,Sora今天所拥有的能力表明,视频模型的持续扩展是一条有前途的道路,可以开发物理和数字世界以及生活在其中的物体、动物和人的模拟器。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/426211.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

案例介绍:信息抽取技术在汽车销售与分销策略中的应用与实践

一、引言 在当今竞争激烈的汽车制造业中,成功的销售策略、市场营销和分销网络的构建是确保品牌立足市场的关键。作为一名经验丰富的项目经理,我曾领导一个专注于汽车销售和分销的项目,该项目深入挖掘市场数据,运用先进的信息抽取…

【Mybatis】快速入门 基本使用 第一期

文章目录 Mybatis是什么?一、快速入门(基于Mybatis3方式)二、MyBatis基本使用2.1 向SQL语句传参2.1.1 mybatis日志输出配置2.1.2 #{}形式2.1.3 ${}形式 2.2 数据输入2.2.1 Mybatis总体机制概括2.2.2 概念说明2.2.3 单个简单类型参数2.2.4 实体…

租房招聘平台新篇章:Java+SpringBoot技术革新

✍✍计算机毕业编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java、…

【iOS ARKit】协作Session

使用 ARWorldMap,能解决使用者再次进入同一物理空间时的AR 场景恢复问题,也能在多人之间共桌AR 体验,但这种共享并不是实时的,在载入ARWorldMap 后,设备新检测到的环境信息和使用者所做操作不会实时共享,即…

Avalonia学习(二十八)-OpenGL

Avalonia已经继承了opengl,详细的大家可以自己查阅。Avalonia里面启用opengl继承OpenGlControlBase类就可以了。有三个方法。分别是初始化、绘制、释放。 这里把官方源码的例子扒出来给大家看一下。源码在我以前发布的单组件里面。地址在前面的界面总结博文里面。 …

使用 MinIO 对象存储,创建一个类似网盘的应用

Linux 的 MinIO 对象存储 MinIO 介绍 MinIO 是一个对象存储解决方案,提供与 Amazon Web Services S3 兼容的 API,并支持所有核心 S3 功能。MinIO 可以部署在任何地方。 Amazon Simple Storage Service (Amazon S3) 是一种对象存储服务,提供…

HarmonyOS云端一体化组件之AGC应用管理

(可选)在AGC控制台创建同包名应用 如创建工程时,发现尚未在AGC控制台创建与工程包名相同的应用,可进行补充创建。 1.点击界面提示内的“AppGallery Connect”,浏览器打开AGC控制台“我的项目”页面。 2.点击选择您希…

springboot239华府便利店信息管理系统

华府便利店信息管理系统 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本华府便利店信息管理系统就是在这样的大环境下诞生,其可以帮助管理者在…

非阻塞IO:提高应用程序的效率与性能

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

项目可行性方案:人脸识别实现无感考勤的项目技术可行性方案

目 录 1.引言 1.1编写目的 1.2背景 2.可行性研究的前提 2.1要求 2.2目标 3.对现有系统的分析 3.1系统改进示意图 3.2改进之处 3.3技术条件方面的可行性 4.结论 1.引言 1.1编写目的 本报告编写的目的是探究学校里对教室和办公室内教师的人脸进行识别从而…

【复现】宏景HCM 任意文件读取漏洞_63

目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 宏景HCM 将人才标签技术应用于员工招聘、人才选拔等环节,通过多维度的标签体系,形成不同专业序列的人才画…

青少年CTF擂台挑战赛 2024 #Round 1 Web方向题解 WP 全

EasyMD5 题目描述:php没有难题 考点总结:脑洞题目,不如我出(狗头 只允许两个都上传pdf文件。 文件还不能太大了。burp多次发包发现要求两个pdf内容不一样 不一样时候,提示我们MD5碰撞。 科学计数法绕过 PHP的后门 …

《幻兽帕鲁》游戏对服务器性能的具体要求是什么?

《幻兽帕鲁》游戏对服务器性能的具体要求是什么? CPU:官方最低要求为i5-3570K,但在多人游玩时可能会有明显卡顿。此外,还有建议选择4核或更高性能的处理器,以确保游戏运行流畅。 内存:对于不同人数的联机&…

代码随想录day10(2)字符串:反转字符串Ⅱ (leetcode541)

题目要求:给定一个字符串 s 和一个整数 k,从字符串开头算起, 每计数至 2k 个字符,就反转这 2k 个字符中的前 k 个字符。如果剩余字符少于 k 个,则将剩余字符全部反转。如果剩余字符小于 2k 但大于或等于 k 个,则反转前…

Linux:线程的概念

个人主页 : 个人主页 个人专栏 : 《数据结构》 《C语言》《C》《Linux》 文章目录 前言一、线程的概念线程代码的简单示例 总结 前言 本文是对于线程概念的知识总结 一、线程的概念 在课本上,线程是比进程更轻量级的一种指向流 或 线程是在…

奔跑吧,前端er!前端五大方向技能罗列,webGL、AI、桌面、游戏

经常看到头条上前端们争论各种框架的优劣,然后相互争吵不休,其实技术也好,框架也好,都是服务于项目需求的,争论的铁子们都站在自己的项目角度来品评工具,肯定是公说公有理婆说婆有理啦。 技术和框架是中性的…

异常检测之MemSeg

异常检测之MemSeg MemSeg: A semi-supervised method for image surface defect detection using differences and commonalities 论文链接:https://arxiv.org/abs/2205.00908论文开源代码:https://github.com/TooTouch/MemSeg或https://download.csdn…

【代码】Android|判断asserts下的文件存在与否,以及普通文件存在与否

作者版本:Android 11及以上 主要是发现网上没有完整的、能跑的代码,不知道怎么回事,GPT给我重写的。我只能保证这个代码尊嘟能跑,不像其他的缺胳膊少腿的。 asserts 贴一下结果: boolean isAssertFileExists(String …

SpringBoot之Actuator的两种监控模式

SpringBoot之Actuator的两种监控模式 springboot提供了很多的检测端点(Endpoint),但是默认值开启了shutdown的Endpoint&#xff0c;其他默认都是关闭的,可根据需要自行开启 文章目录 SpringBoot之Actuator的两种监控模式1. pom.xml2. 监控模式1. HTTP2. JMX 1. pom.xml <de…

181基于matlab的利用LMS算法、格型LMS算法、RLS算法、LSL算法来估计线性预测模型参数a1和a2

基于matlab的利用LMS算法、格型LMS算法、RLS算法、LSL算法来估计线性预测模型参数a1和a2&#xff1b;预测信号由二阶线性预测模型产生。2.利用LMS算法和RLS算法将一个叠加有噪声的信号实现噪声消除&#xff0c;恢复原始信号。有22页试验分析文档。&#xff08;包括程序在内&…