探索Sora:AI视频模型的创新与未来展望

✍️作者简介:小北编程(专注于HarmonyOS、Android、Java、Web、TCP/IP等技术方向)
🐳博客主页: 开源中国、稀土掘金、51cto博客、博客园、知乎、简书、慕课网、CSDN
🔔如果文章对您些帮助请👉关注✨、点赞👍、收藏📂、评论💬。
🔥如需转载请参考【转载须知】

作为世界模拟器的视频生成模型

我们探索在视频数据上进行大规模生成模型训练。具体而言,我们联合训练了文本条件扩散模型,用于处理持续时间、分辨率和宽高比各异的视频和图像。我们利用了一个在视频和图像潜在编码的时空补丁上操作的变压器架构。我们最大的模型,Sora,能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是建立通用物理世界模拟器的有前景的途径。

这份技术报告着重于以下两个方面:(1)我们将各种类型的视觉数据转化为统一表示的方法,从而实现大规模生成模型的训练,以及(2)对Sora的能力和局限性进行定性评估。报告中不包括模型和实现细节。

过去的研究主要关注使用各种方法进行视频数据的生成建模,包括循环网络、生成对抗网络、自回归变换器和扩散模型等。这些研究通常专注于特定类型的视觉数据、较短的视频或固定尺寸的视频。Sora是一种视觉数据的通用模型——它能够生成跨越不同持续时间、宽高比和分辨率的视频和图像,最长可达高清视频一分钟。

title_0

将视觉数据转化为补丁

我们受到大型语言模型的启发,它们通过在互联网规模的数据上进行训练而获得了通用能力。语言模型范式的成功部分得益于优雅地统一了文本的各种模态——代码、数学和各种自然语言的使用。在这项工作中,我们考虑了视觉数据的生成模型如何继承这些优势。而LLM(Large Language Models)拥有文本令牌,Sora拥有视觉补丁。补丁已被证明是视觉数据模型的有效表示。我们发现,补丁是一种高度可扩展且有效的表示方法,适用于对各种类型的视频和图像进行生成模型训练。

在这里插入图片描述
在高层次上,我们将视频转换为补丁的方法是首先将视频压缩成较低维度的潜在空间,然后将表示分解成时空补丁。

视频压缩网络

我们训练了一个网络,用于降低视觉数据的维度。这个网络以原始视频作为输入,并输出一个在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并随后生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。

时空潜在补丁

给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁充当变压器令牌。这个方案也适用于图像,因为图像只是具有单帧的视频。我们基于补丁的表示使得Sora能够在不同分辨率、持续时间和宽高比的视频和图像上进行训练。在推断时,我们可以通过将随机初始化的补丁以适当大小的网格排列来控制生成的视频的大小。

为视频生成扩展变压器

Sora是一个扩散模型;给定输入的噪声补丁(以及文本提示等条件信息),它被训练以预测原始的“干净”补丁。重要的是,Sora是一个扩散变压器。变压器已经在多个领域展示出了卓越的扩展性能,包括语言建模、计算机视觉和图像生成。

在这里插入图片描述
在这项工作中,我们发现扩散变压器在视频模型方面也具有有效的扩展性能。下面,我们展示了在训练过程中,具有固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量显著提高。

变化的持续时间、分辨率、宽高比

过去对图像和视频生成的方法通常是将视频调整大小、裁剪或修剪到标准大小,例如,256x256分辨率的4秒视频。我们发现,相反,使用数据的原始大小进行训练具有几个好处。

采样灵活性

Sora可以对宽屏1920x1080p视频、竖屏1080x1920视频以及两者之间的所有内容进行采样。这使得Sora可以直接以各种设备的原生宽高比创建内容。这还使我们可以在较低大小快速原型化内容,然后再以全分辨率生成,而这一切都是用同一个模型。

改进的构图和组合

我们经验性地发现,以原始宽高比训练视频可以改善构图和组合效果。我们将Sora与一个将所有训练视频裁剪为正方形的模型进行比较,这是训练生成模型时常见的做法。使用正方形裁剪训练的模型(左图)有时会生成主体只有部分可见的视频。相比之下,来自Sora的视频(右图)在构图上有所改进。

语言理解

训练文本到视频生成系统需要大量具有相应文本标题的视频。我们应用了DALL·E 3中引入的重新标题技术到视频中。我们首先训练一个高度描述性的标题模型,然后使用它为我们训练集中的所有视频生成文本标题。我们发现,使用高度描述性的视频标题进行训练不仅改善了文本的保真度,还提高了视频的整体质量。

与DALL·E 3类似,我们还利用GPT将短用户提示转换为更长、详细的标题,然后将其发送到视频模型。这使得Sora能够生成质量高且准确遵循用户提示的视频。

在这里插入图片描述

以上内容是官方翻译而来,下面做一个总结!

训练过程

在Sora的训练过程中,借鉴了大型语言模型(Large Language Model)的思想,通过在互联网规模的数据上进行训练来获取广泛的能力。

Sora是一种扩散型变换器模型(diffusion transformer)。训练过程首先将视频压缩到一个低维潜在空间中,然后将其分解成时空区块,将视频转换为区块形式。

为降低视觉数据的维度,我们训练了一个网络,该网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。此外,我们还开发了一个对应的解码器模型,能够将生成的潜在表示映射回像素空间。

针对给定的压缩输入视频,我们提取了一系列时空区块,它们在变换器模型中充当标记(token)。这种方法同样适用于图像,因为图像本质上就是单帧的视频。基于区块的表示使得Sora能够训练在不同分辨率、持续时间和纵横比的视频和图像上。在推理过程中,我们可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

随着Sora训练计算量的增加,样本质量显著提高。

Sora的训练过程中没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。

针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

训练文本到视频的生成系统需要大量配有相应文本提示的视频。我们应用了在DALL·E 3中引入的重新字幕技术到视频上。

与DALL·E 3相似,我们还利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。

论文关键点

OpenAI的研究论文《Video generation models as world simulators》探讨了在视频数据上进行大规模训练生成模型的方法。重点关注了文本条件扩散模型,这些模型能够同时在视频和图像上进行训练,处理不同时长、分辨率和宽高比的数据。以下是论文的关键点:

  1. 统一的视觉数据表示:研究者将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。

  2. 视频压缩网络:训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora在这个压缩的潜在空间中进行训练,并生成视频。

  3. 扩散模型:Sora是一个扩散模型,通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

  4. 视频生成的可扩展性:Sora能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得Sora能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。

  5. 语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者应用了在DALL·E 3中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。

  6. 图像和视频编辑:Sora不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得Sora能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

  7. 模拟能力:视频模型在大规模训练时展现出了一些有趣的新兴能力,使得Sora能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。

  8. 讨论:尽管Sora展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

这篇论文提供了对Sora模型的深入分析,展示了其在视频生成领域的潜力和挑战。通过这种方式,OpenAI正在探索如何利用AI来更好地理解和模拟我们周围的世界。

👍 点赞,是我创作的动力!
⭐️ 收藏,是我努力的指引!
✏️ 评论,是我进步的宝藏!
💖 衷心感谢你的阅读以及支持!

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/416676.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python进阶学习:Pandas--查看DataFrame中每一列的数据类型

Python进阶学习:Pandas–查看DataFrame中每一列的数据类型 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希…

数据库子父结构表,树状结构数据进行递归查询

表结构: 三个字段如图所示,目标是获取每条数据的根id(父id为0的数据根id就是自己的id,否则一直根据父id去查找一直找到父id为0的数据,此数据的id就是根id) 业务中实际的解决办法: 新加一个字段进行存储&…

Python + Google AI 自动修复 Sonar Bug 实践

前言 在工作中总会遇到种种不期而至的需求,比如前段时间突然要修复所有 Sonar Bug,涉及各种琐碎的代码风格问题,包括但不限于语法不规范、废弃注释等问题。这些项目都已经持续开发几年了,Sonar 上的问题层出不穷,各种…

如何在Linux使用Docker部署Nexus容器并实现公网访问本地仓库【内网穿透】

文章目录 1. Docker安装Nexus2. 本地访问Nexus3. Linux安装Cpolar4. 配置Nexus界面公网地址5. 远程访问 Nexus界面6. 固定Nexus公网地址7. 固定地址访问Nexus Nexus是一个仓库管理工具,用于管理和组织软件构建过程中的依赖项和构件。它与Maven密切相关,可…

【airtest】自动化入门教程(一)AirtestIDE

目录 一、下载与安装 1、下载 2、安装 3、打开软件 二、web自动化配置 1、配置chrome浏览器 2、窗口勾选selenium window 三、新建项目(web) 1、新建一个Airtest项目 2、初始化代码 3、打开一个网页 四、恢复默认布局 五、新建项目&#xf…

流程图怎么画?只需这几步就可以搞定!

你在工作中有没有遇到过下面这些问题: 思维混乱,想快速厘清一个项目的逻辑; 想让客户轻松接受自己的设计构思/产品理念等; 产品流程总是百密一疏,经常遗漏了某种用户需求; 想让小伙伴们快速理解一件事&…

软件项目验收测试报告-软件项目验收流程

对甲方而言,项目验收是正式接受项目成果,将项目从建设转为运营。对于乙方来说,则意味着项目的结束,项目资源的释放。 项目验收是项目收尾的重要环节,依据招投标文件、合同对测评相关要求内容、项目章程和项目过程中的…

LATEX中将表格序号和标题放置在两列/一列【已解决】

目录 LATEX中将表格序号和标题放置在两列 LATEX中将表格序号和标题放置在一列 LATEX中将表格序号和标题放置在两列 每个期刊对于表格的要求不一样,发现期刊要求表格的序号列和标题列是两行且标题大写,如下图所示 而我的表格是这样 解决方法: …

使用Haproxy搭建Web群集

1、Haproxy概述。 Haproxy是目前比较流行的一种群集调度工具,同类群集调度工具有很多,如LVS和Nginx。相比较而言,LVS性能最好,但是搭建相对复杂;Nginx的upstream模块支持群集功能,但是对群集节点健康检查功…

AI未来10年展望

人工智能(AI)在过去十年中迅速发展,其未来有望取得更加引人注目的发展。 在本文中,我们将探讨人工智能的未来 10 年以及我们对未来十年的期望。 我们将解决一些关键问题,以全面概述人工智能的未来。 1、10年后AI会发展…

前端配置开发环境,新电脑配置前端开发环境,Vue开发环境配置的详细过程(前端开发环境配置,电脑重置后配置前端开发环境)

简介:有时候,我们需要在新电脑 或者 电脑重置后,配置前端开发环境,具体都需要安装什么软件和插件,这里来记录一下(文章适合新手和小白,大佬可以带过)。 ✨前端开发环境,需…

前端架构: 脚手架之包管理工具的案例对比及workspaces特性的使用与发布过程

npm的workspaces 特性 1 )使用或不使用包管理工具的对比 vue-cli 这个脚手架使用 Lerna 管理,它的项目显得非常清晰在 vue-cli 中包含很多 package 点开进去,每一个包都有package.json它里面有很多项目,再没有 Lerna 之前去维护和…

重生奇迹MU攻略教学

1:前提是人物等级到80级,没有80级不能使用。 2:杀怪范围,大家不用改,就8吧,但是有时候也会跑很远。 3:技能近战使用,我作为战士,点了和不点没区别。 4:然后…

【国产MCU】-CH32V307-定时器同步模式

定时器同步模式 文章目录 定时器同步模式1、定时器同步模式介绍2、驱动API介绍3、定时器同步模式实例1、定时器同步模式介绍 CH32V307的定时器能够输出时钟脉冲(TRGO),也能接收其他定时器的输入(ITRx)。不同的定时器的ITRx的来源(别的定时器的TRGO)是不一样的。 通用定…

Midjourney是个什么软件?midjourney订阅教程

数字时代,AI的应用正在不断推动各个领域的发展。其中,AI在艺术和设计领域的运用引起了广泛的关注。作为一款爆火的AI绘画软件,Midjourney通过其独特的原理和便捷的使用方法,为创作者提供了一个创作逼真绘画作品的全新平台 1、AI绘…

【c语言】探索结构体---解锁更多选择

前言 结构体属于自定义类型的一种,这增加了我们写代码的选择,跟着我的脚步一起来探索结构体吧~ 欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 认识结构体 结构是⼀些值的集合,这些值…

数据结构知识点总结-树与二叉树-树的相关概念、性质

树与二叉树 概览图 本章节重点 掌握树、二叉树的相关概念定义; 掌握二叉树的递归遍历方式,了解非递归遍历方式。 掌握哈夫曼树及哈夫曼编码; 了解树的存储结构; 了解树与森林的转换。 树的相关概念 树是由n个有限结点组成的具有层次关系的集合。n=0 时称为空树。 …

【软件设计师】多元化多方面了解多媒体技术的内容

🐓 多媒体技术基本概念 多媒体主要是指文字、声音和图像等多种表达信息的形式和媒体,它强调多媒体信息的综合和集成处理。多媒体技术依赖于计算机的数字化和交互处理能力,它的关键是信息压缩技术和光盘存储技术。 亮度 亮度是光作用于人眼时所…

【深度学习】SDXL-Lightning 体验,gradio教程,SDXL-Lightning 论文

文章目录 资源SDXL-Lightning 论文 资源 SDXL-Lightning论文:https://arxiv.org/abs/2402.13929 gradio教程:https://blog.csdn.net/qq_21201267/article/details/131989242 SDXL-Lightning :https://huggingface.co/ByteDance/SDXL-Light…

Window系统部署Z-blog并结合内网穿透实现远程访问本地博客站点

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…