OpenAI视频生成模型Sora背后的技术及其深远的影响

前言

Sora的视频生成技术在保真度、长度、稳定性、一致性、分辨率和文字理解等方面都达到了当前最优水平。其核心技术包括使用视觉块编码将不同格式的视频统一编码成Transformer可训练的嵌入向量,以及类似于扩散过程的UNet方法进行降维和升维的加噪与去噪操作。通过构建足够大的模型,使其具备了智能的涌现能力,例如在一定程度上理解真实世界的物理影响和因果关系。

与其他视频生成模型不同,OpenAI采用了一种“大”模型的方法,即准备大量的视频数据,使用多模态模型对其进行标注,并将视频编码成统一的视觉块嵌入。然后,通过足够大的网络架构、训练批次和算力,使模型能够对大量训练数据进行全局拟合,从而更好地理解并还原细节。

这种视频生成模型只是OpenAI在理解和模拟真实世界复杂因果关系的通用模型之路上的一个里程碑,而不是终点。人们对其未来发展充满期待,同时也可能感到一些不安。

sora生成视频

算法报告

1.视频生成模型作为世界模拟器

我们探索了在视频数据上进行大规模训练生成模型。具体来说,我们联合训练了文本条件扩散模型,处理不同持续时间、分辨率和宽高比的视频和图像。我们利用了一种在视频和图像潜码的时空块上操作的变压器架构。我们最大的模型Sora能够生成一分钟的高保真视频。我们的结果表明,扩大视频生成模型的规模是朝着构建物理世界通用模拟器的有前途的路径。

tokyo-walk

算法报告重点介绍:
(1)我们将各类视觉数据转换为统一表示的方法,该方法能够实现生成模型的大规模训练;
(2)Sora能力和局限性的定性评估。报告中未包含模型和实现细节。

以前的许多工作已经研究了使用各种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型。这些工作通常专注于狭窄类别的视觉数据、较短的视频或固定大小的视频。Sora是一种通用的视觉数据模型——它可以生成持续时间、宽高比和分辨率各异的视频和图像,长达一分钟的高清视频。

2.将视觉数据转换为图像块

我们从大型语言模型中获得灵感,这些模型通过在互联网规模的数据上训练来获得通用能力。这种范式的成功在一定程度上得益于使用词元编码/令牌(token),它们巧妙地统一了文本的多种形式——代码、数学和各种自然语言。在这项工作中,我们考虑如何让视觉数据的生成模型继承这些好处。与拥有文本令牌的不同,Sora拥有视觉块嵌入编码(visual patches)。视觉块已被证明是视觉数据模型的一种有效表示。我们发现,补丁是一种高度可扩展且有效的表示形式,用于在多种类型的视频和图像上训练生成模型。
在这里插入图片描述

3. 视频压缩网络

我们训练了一个网络,用于降低视觉数据的维度。这个网络将原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间内接受训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

4. 隐空间时空编码块

给定一个压缩的输入视频,我们提取一系列时空编码块作为transformer令牌(token)。这种方案也适用于图像,因为图像只是帧数为单一的视频。我们基于补丁的表示使得Sora能够训练不同分辨率、持续时间和宽高比的视频和图像。在推理时,我们可以通过在适当大小的网格中排列随机初始化的编码块来控制生成视频的大小。

5.扩展Transformer用于视频生成

Sora是一个扩散模型;给定输入的噪声块(和像文本提示这样的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora是一个扩散变换器。变换器在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性。
在这里插入图片描述
在这项工作中,我们发现扩散变换器作为视频模型也能有效地扩展。下面,我们展示了训练进展过程中,使用固定种子和输入的视频样本比较。随着训练计算量的增加,样本质量显著提高。
在这里插入图片描述

6.可变持续时间、分辨率、宽高比

过去在图像和视频生成中的方法通常会将视频调整大小、裁剪或剪辑到一个标准尺寸——例如,4秒长的视频,分辨率为256x256。我们发现,直接在数据的原始尺寸上进行训练可以带来几个好处。

7.采样灵活性

Sora可以采样宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有格式。这使得Sora能够直接按照不同设备的原生宽高比创建内容。它还允许我们在使用同一模型生成全分辨率内容之前,快速原型化较小尺寸的内容。
在这里插入图片描述

8.改进的构图和画面组成

我们通过实证发现,在视频的原始宽高比上进行训练可以改善构图和取景。我们将Sora与一个版本的模型进行了比较,该模型将所有训练视频裁剪成正方形,这是训练生成模型时的常见做法。在正方形裁剪上训练的模型(左侧)有时会生成主体只部分出现在视野中的视频。相比之下,来自Sora的视频(右侧)具有改善的取景。
在这里插入图片描述

9.语言理解

训练文本到视频生成系统需要大量带有相应文字标题的视频。我们将在DALL·E 3中引入的重新标注技术应用到视频上。我们首先训练一个高度描述性的标注模型,然后使用它为我们训练集中的所有视频生成文字标题。我们发现,在高度描述性的视频标题上进行训练可以提高文本的准确性以及视频的整体质量。
类似于DALL·E 3,我们也利用GPT将用户的简短提示转换成更长的详细说明,然后发送给视频模型。这使得Sora能够生成高质量的视频,准确地遵循用户的提示。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

10.使用图片和视频进行提示

上述结果以及我们的登录页面展示了文本到视频的样本。但是Sora也可以通过其他输入进行提示,例如预先存在的图片或视频。这项能力使得Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频,为静态图像添加动画,向前或向后延长视频的时间等。

12. 制作DALL·E图像动画

Sora能够根据输入的图片和提示生成视频。下面我们展示了基于DALL·E 2 31 和DALL·E 3 30 图片生成的示例视频。
在这里插入图片描述
在这里插入图片描述

13. 延长生成的视频

Sora也能够将视频向前或向后延长时间。下面是四个视频,它们都是从生成的视频片段开始向后延长的。因此,这四个视频的开头各不相同,但最终都会达到相同的结局。我们可以使用这种方法将视频向前和向后扩展,以制作出无缝的无限循环。
在这里插入图片描述

14.视频到视频编辑

扩散模型使得从文本提示编辑图像和视频的方法层出不穷。下面我们将其中一种方法,SDEdit,应用于Sora。这项技术使得Sora能够零次学习地转换输入视频的风格和环境。
在这里插入图片描述

15. 连接视频

我们还可以使用Sora在两个输入视频之间逐渐插值,创建在完全不同主题和场景构成的视频之间的无缝过渡。在下面的例子中,中间的视频在左右两边对应视频之间进行插值。
在这里插入图片描述
在这里插入图片描述

16.图像生成能力

Sora也能够生成图像。我们通过在具有一个帧时间范围的空间网格中排列高斯噪声块来实现这一点。该模型可以生成不同大小的图像——分辨率最高可达2048x2048。
在这里插入图片描述

涌现的模拟能力

我们发现,当在大规模上训练时,视频模型展现出许多有趣的新兴能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。
3D一致性。Sora能够生成具有动态相机运动的视频。随着相机的移动和旋转,人物和场景元素在三维空间中保持一致地移动。
在这里插入图片描述

长距离一致性和物体恒存性。对于视频生成系统来说,一个重大挑战是在采样长视频时保持时间上的连贯性。我们发现,尽管不总是如此,Sora通常能够有效地建模短距离和长距离依赖关系。例如,我们的模型即使在人、动物和物体被遮挡或离开画面时,也能持续保持它们的存在。同样,它能在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
在这里插入图片描述
与世界互动。Sora有时可以模拟一些简单的动作来影响世界的状态。例如,画家可以在画布上留下随时间持续存在的新笔触,或者一个人可以吃一个汉堡并留下咬痕。
在这里插入图片描述

模拟数字世界。Sora也能够模拟人工过程——一个例子是视频游戏。Sora可以在同时控制《我的世界》中的玩家采用基本策略的同时,还能以高保真度渲染世界及其动态。通过用提到“我的世界”的字幕提示Sora,可以零次尝试地引发这些能力。
这些能力表明,持续扩展视频模型是朝着开发高度能够模拟物理和数字世界及其内部的物体、动物和人类的有希望的道路。
在这里插入图片描述
Sora作为一个模拟器目前展现出许多限制。例如,它并没有准确地模拟许多基本互动的物理效应,比如玻璃破碎。其他互动,比如吃食物,不总是产生正确的物体状态变化。我们在我们的登录页面列举了模型的其他常见故障模式——比如在长时间样本中发展的不连贯性或物体的自发出现。
我们相信,Sora目前的能力表明,持续扩展视频模型是朝着开发能够模拟物理和数字世界及其内部的物体、动物和人类的有能力的模拟器的有希望的道路。

Sora的影响

对于普通人:这可能是独立创作者最佳的时代之一。随着像 Sora 这样的工具的出现,AI生成的文案、音效和视频等工具已经非常成熟,一个人可以轻松地制作出高质量的短片。优秀的故事将会变得尤为珍贵,而有才华的创作者也更不容易被埋没。然而,从另一个角度来看,随着创作门槛的降低,故事竞争的激烈程度也将大幅增加。

XR产业,特别是以 Vision Pro 为代表的部分,有望再次蓬勃发展。随着技术的进步,内容匮乏将不再是问题,而创作者将有更多的创作空间和机会。

目前流行的短视频推荐模式可能会发生变化。可能会从系统根据用户喜好推荐短视频,转变为根据用户需求实时生成短视频。或者说,同一个短视频可以根据不同用户的需求进行实时微调,以满足不同用户群体的需要。

对于商业公司:AI视频生成公司将面临第一波挑战,但也有机会。随着 OpenAI 成功证明了利用大型模型进行视频生成的可行性,其他公司只需证明他们也可以利用大型模型生成视频。与 ChatGPT 成功后出现更多大语言模型公司的情况相似,AI视频生成领域可能会出现更多竞争者。
AI三维生成公司可能会面临第二波冲击。随着多目重建技术的出现,视频生成和3D生成之间的界限变得模糊。因此,3D生成公司可能需要重新评估当前的技术路线和商业逻辑。

虽然 OpenAI 没有明确说明,但是 Sora 所需的计算能力可能会很大。因此,显卡公司可能会迎来新的好时机,但不一定有利于英伟达。由于计算能力越来越像基础设施,而基础设施对于各国至关重要,即使不考虑制裁,各国都可能要求计算能力的自主可控。事实上,每个大公司都可能开始考虑自己开发显卡或者专用 AI 计算卡(例如 Google、特斯拉、OpenAI、阿里等)。因此,计算能力领域的竞争者可能会越来越多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/393268.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

19.Qt 组合框的实现和应用

目录 前言: 技能: 内容: 1. 界面 2.槽 3.样式表 参考: 前言: 学习QCombox控件的使用 技能: 简单实现组合框效果 内容: 1. 界面 在ui编辑界面找到input widget里面的comboBox&#xff…

Cesium 问题——加载 gltf 格式的模型之后太小,如何让相机视角拉近

文章目录 问题分析问题 刚加载的模型太小,如何拉近视角放大 分析 在这里有两种方式进行拉近视角, 一种是点击复位进行视角拉近一种是刚加载就直接拉近视角// 模型三加载 this.damModel = new Cesium.Entity({name: "gltf模型",position:</

【HarmonyOS】鸿蒙开发之TextInput组件——第3.3章

textInput属性 代码展示 Column(){Row(){Text("默认类型").margin({right:10})TextInput().width(60%).height(45)}.margin({bottom:10})Row(){Text("自定义样式").margin({right:10})TextInput().width(60%).height(45).fontColor(Color.Brown).enterKe…

LabVIEW轨道交通列车牵引制动试验平台

LabVIEW轨道交通列车牵引制动试验平台 概述 面对城市轨道交通领域对于高效、准确牵引制动系统的迫切需求&#xff0c;开发了一套基于LabVIEW软件与硬件相结合的试验平台。该平台模拟列车的牵引、制动等工况&#xff0c;通过高精度的数据采集与实时图形化展示&#xff0c;提升…

网页文档编写

工具 sphinx 推荐主题 &#xff1a;html_theme "sphinx_rtd_theme" html_theme_options {navigation_depth: -1, }效果如下图 参考文章 [ sphinx的安装与使用 — 野火]sphinx文档规范与模版 文档 (ebf-contribute-guide.readthedocs.io) Sphinx 文档目录 — Sphi…

反转一个单链表

反转一个单链表 题意&#xff1a;反转一个单链表。 示例: 输入: 1->2->3->4->5->NULL 输出: 5->4->3->2->1->NULL 思路 需要虚拟节点么&#xff1f; 答&#xff1a;不需要&#xff0c;因为没有删除节点&#xff0c;只是改变了节点的指向。 遍…

OPENAI SORA一键60秒视频,沃卡AI全功能AI网站将及时更新支持

大家可以通过收藏网页www.woka.chat 直接进行访问&#xff0c;也可通过关注新公众号实现微信端使用~ 注册赠送大量额度&#xff0c;可用于网站全部功能&#xff08;问答和绘画&#xff09;&#xff01;每天签到也可领取充足使用额度&#xff01; 废话不多说&#xff0c;我们现…

【Git】Java 使用 JGit 创建 Git 代码仓库

引 JGit 是一个用 Java 实现的 Git 版本控制工具。它是由 EGit 项目发展而来的&#xff0c;EGit 是 Eclipse 基金会的一个开源项目&#xff0c;旨在为 Eclipse IDE 提供 Git 支持。 JGit 提供了一个完整的 Git 实现&#xff0c;包括存储库、索引、对象数据库、命令行客户端和…

基于Java+SpringBoot+vue+elementui 实现即时通讯管理系统

目录 系统简介效果图源码结构试用地址源码下载地址技术交流 博主介绍&#xff1a; 计算机科班人&#xff0c;全栈工程师&#xff0c;掌握C、C#、Java、Python、Android等主流编程语言&#xff0c;同时也熟练掌握mysql、oracle、sqlserver等主流数据库&#xff0c;能够为大家提供…

波奇学Linux:动静态库

创建静态库 Makefile文件 mymath.c文件 mymath.h文件 编译main.c文件 gcc 编译时会把在系统目录中寻找头文件和库文件&#xff0c;文件不在系统目录中用参数 -I 头文件所在文件夹/ -L 库的地址文件夹 -l除去lib和后缀。 拷贝文件到系统目录即可不用参数 库的安装类似于把头文件…

npm run serve启动报错npm ERR! Missing script: “serve“

启动项目的时候用npm run serve发现报了以下的错误 解决方法&#xff1a; 1.一般情况下&#xff0c;这个问题是因为package.json文件里面确实没有 这里没有可能因为你的脚手架版本比较低&#xff0c;如果不想换&#xff0c;可以用 这里面有的 npm run dev去启动也是可以的 n…

RTC时钟

目录 一、STM32F407内部RTC硬件框图&#xff0c;主要由五大部分组成&#xff1a; 二、硬件相关引脚 三、具体代码设置步骤 四、了解其它知识点 一、STM32F407内部RTC硬件框图&#xff0c;主要由五大部分组成&#xff1a; ① 时钟源 (1)LSE&#xff1a;一般我们选择 LSE&am…

Electron实战之进程间通信

进程间通信&#xff08;IPC&#xff09;并非仅限于 Electron&#xff0c;而是源自甚至早于 Unix 诞生的概念。尽管“进程间通信”这个术语的确创造于何时并不清楚&#xff0c;但将数据传递给另一个程序或进程的理念可以追溯至 1964 年&#xff0c;当时 Douglas McIlroy 在 Unix…

央视年味大片浓情上映,四位主持人首次因酒“合体”

执笔 | 尼 奥 编辑 | 萧 萧 年&#xff0c;中国人最眷念的味道。年味&#xff0c;独属于中国人的一种文化传承。 14亿中国人&#xff0c;是14亿份不同的中国年味。 五粮浓香 &#xff0c;赞99 让“年味浓起来”&#xff0c;2月1日&#xff0c;央视新闻上线《年味分之一…

【JavaEE】IP协议

作者主页&#xff1a;paper jie_博客 本文作者&#xff1a;大家好&#xff0c;我是paper jie&#xff0c;感谢你阅读本文&#xff0c;欢迎一建三连哦。 本文于《JavaEE》专栏&#xff0c;本专栏是针对于大学生&#xff0c;编程小白精心打造的。笔者用重金(时间和精力)打造&…

裁员不可怕,可怕的是软件测试行业在发生巨变,而你却原地踏步

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

【Java】Static关键字与类的实例化

关键字&#xff1a;static 作用&#xff1a;主要用于内存管理 范围&#xff1a;可以用在变量、方法、代码块和嵌套类上。java关键字属于类&#xff0c;但不是类的实例。 类的成员变量包括&#xff1a; 【静态变量/类变量】&#xff1a;指被static修饰的成员变量 运行时&#…

Python实现时间序列分析霍尔特季节性平滑模型(Holt算法)项目实战

说明&#xff1a;这是一个机器学习实战项目&#xff08;附带数据代码文档视频讲解&#xff09;&#xff0c;如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 霍尔特季节性平滑模型是指数平滑技术的一种扩展形式&#xff0c;由E. S. Holt和P. R. Winters分别独立…

C语言系列-编译和链接

&#x1f308;个人主页: 会编辑的果子君 &#x1f4ab;个人格言:“成为自己未来的主人~” 目录 翻译环境和运行环境 编译环境 预处理&#xff08;预编译&#xff09; 编译 词法分析 语法分析 语义分析 汇编 链接 运行环境 翻译环境和运行环境 在 ANSIC 的任何一种实…

【Qt】图形视图框架 之 坐标

QGraphicsView移动图元/场景以及坐标转换 QGraphicsView图形视图框架使用(一)坐标变换 1.继承 QGraphicsProxyWidget 类 虚函数 mousePressEvent、mouseReleaseEvent 的参数 QGraphicsSceneMouseEvent event->pos() 是item坐标系*下的坐标&#xff0c;不是scene场景坐标系下…