探索未来-Sora

AI如何将静态图像转化为动态、逼真的视频？ OpenAI 的 Sora 通过时空片段（以下统称片段）的创新使用给出了答案。

Sora 展示与探讨

在快速发展的生成模型领域，OpenAI 的 Sora成为一个重要的里程碑，有望重塑我们对视频生成的理解和能力。我们揭示了Sora 背后的技术及其激发新一代图像、视频和 3D内容创建模型的潜力。

OpenAI Sora 演示 — 床上的猫

OpenAI Sora 演示 — 床上的猫图片来源：OpenAI

上面的演示是由 OpenAI 使用提示生成的：一只猫叫醒熟睡的主人，要求吃早餐。主人试图忽视这只猫，但猫尝试了新的策略，最后主人从枕头下拿出秘密藏匿的零食，让猫再呆一会儿。

OpenAI Sora 演示 — 纸飞机

OpenAI Sora 演示 — 纸飞机图片来源：OpenAI

上面的演示是由 OpenAI 使用提示生成的：纸飞机在茂密的丛林中飞舞，像迁徙的鸟儿一样在树木周围穿梭。

通过 Sora，可以在视频内容生成方面接近于几乎无法区分的现实主义。由于正在进行测试，其完整模型尚未完全向公众发布。

Sora 的独特方法如何改变视频生成

在生成模型的世界中，我们看到了从 GAN 到自回归和扩散模型的许多方法，它们都有自己的优点和局限性。Sora 现在引入了范式转变，采用了新的建模技术和灵活性，可以处理广泛的持续时间、宽高比和分辨率。

Sora 将扩散和变压器架构结合在一起创建扩散变压器模型，并能够提供以下功能：

·文本到视频：正如我们所见

·图像到视频：为静态图像带来活力

·视频到视频：将视频风格更改为其他内容

·及时延长视频：向前和向后

·创建无缝循环：平铺视频看起来永无止境

·图像生成：静止图像是一帧的电影（最大2048 x 2048）

·生成任何格式的视频：从 1920 x 1080 到 1080 x 1920 以及之间的所有格式

·模拟虚拟世界：如《我的世界》

·创建视频：长度不超过 1 分钟，包含多个短片

想象一下我们在厨房里。传统的视频生成模型（例如Pika和RunwayML中的模型）就像严格遵循菜谱的厨师。他们可以制作出精美的菜肴（视频），但受到他们所知道的食谱（算法）的限制。厨师可能专注于烘焙蛋糕（短片）或烹饪面食（特定类型的视频），使用特定的成分（数据格式）和技术（模型架构）。

Sora 是一位了解风味基础知识的新型厨师。这位厨师不仅遵循菜谱，而且遵循食谱。他们发明新的。Sora 的原料（数据）和技术（模型架构）的灵活性使得 Sora 能够制作各种高质量的视频，类似于大厨的多才多艺的烹饪创作。

Sora秘密成分的核心：探索时空片段（spacetime patches）

时空片段是 Sora 创新的核心，它建立在Google DeepMind 对 NaViT和 ViT（视觉变换器）的早期研究基础上，该研究基于 2021 年的论文An Image is Worth 16x16 Words。

“Vanilla”视觉变压器架构

传统上，对于视觉 Transformer，我们使用一系列图像“片段”来训练用于图像识别的 Transformer 模型，而不是用于语言 Transformer 的单词。这些片段使我们能够摆脱卷积神经网络进行图像处理。

帧/图像如何“补丁化”

视觉变换器受到大小和长宽比固定的图像训练数据的限制，这限制了质量并且需要大量的图像预处理。

切片视频时态数据的可视化

通过将视频视为片段序列，Sora 保持了原始的宽高比和分辨率，类似于 NaViT 对图像的处理。这种保存对于捕捉视觉数据的真正本质至关重要，使模型能够从更准确的世界表示中学习，从而赋予 Sora 近乎神奇的准确性。

时空修补（处理）的可视化 — 图片来源：OpenAI (Sora)

该方法使 Sora 能够有效地处理各种视觉数据，而无需调整大小或填充等预处理步骤。这种灵活性确保每条数据都有助于模型的理解，就像厨师如何使用各种原料来增强菜肴的风味一样。

通过时空片段对视频数据进行详细而灵活的处理，为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。这些功能对于创建不仅看起来逼真而且符合世界物理规则的视频至关重要，让我们一睹人工智能创建复杂、动态视觉内容的潜力。

喂养 Sora：多样化数据在训练中的作用

训练数据的质量和多样性对于生成模型的性能至关重要。现有的视频模型传统上是根据更严格的数据集、更短的长度和更窄的目标进行训练的。

Sora 利用庞大且多样化的数据集，包括不同时长、分辨率和宽高比的视频和图像。它能够重新创建像《我的世界》这样的数字世界，它的训练集中可能还包括来自虚幻或 Unity 等系统的游戏玩法和模拟世界镜头，以便捕获所有角度和各种风格的视频内容。这将 Sora 引入了“通才”模型，就像文本领域的 GPT-4 一样。

这种广泛的培训使 Sora 能够理解复杂的动态并生成多样化且高质量的内容。该方法模仿大型语言模型在不同文本数据上的训练方式，将类似的原理应用于视觉内容以实现通才能力。