Sora技术和影响分析

与现有生成工具比的优势

现有的文生图工具有Midjourney、Stable Diffusion、文心一格等，支持不同风格的内容生成，支持lora模型训练，此领域发展相对比较成熟。

而在文生视频领域，其难度相对更高，要求画面连续、清晰度高、时长、符合物理规律等。在sora出现之前，Runway和Pika都被认为是视频生成赛道的佼佼者。

Sora最牛的地方，是完整的理解这个世界的知识，以前文生图和文生视频，都是在2D平面上对图形元素进行操作，没有适应物理定律，而这次，Sora实现了现实世界的理解和对世界的模拟两层能力，这样的视频产生才是真实的，跳出了2D范围模拟真实的物理世界，这是大模型最大的功劳，这样可以创造各领域里面的超级工具。

技术原理

Sora: Creating video from text

ModelScope小助理：复刻Sora有多难？一张图带你读懂Sora的技术路径

技术要点，我理解可能包括以下三个方面：

（1）视频压缩网络：生成时空patch

（2）patch生成transformer：用于生成下一个patch的transformer

（3）patch扩散成视频的网络

这里的patch即chatgpt中的token，简单又可扩展，是成功的关键。同时sora也是多个技术的结合体，整体还是比较复杂的，技术报告也只说明了一小部分。

1、视频压缩网络

OpenAI在之前的Clip等工作中，充分实践了分块是视觉数据模型的一种有效表示（参考论文：An image is worth 16x16 words: Transformers for image recognition at scale.）这一技术路线。而视频压缩网络的工作就是将高维度的视频数据转换为patches，首先讲视频压缩到一个低纬的latent space，然后分解为spacetime patches。

2、用于视频生成的Scaling Transformers

Sora是一个diffusion模型；给定输入的噪声块+文本prompt，它被训练来预测原始的“干净”分块。重要的是，Sora是一个Scaling Transformers。Transformers在大语言模型上展示了显著的扩展性，我们相信OpenAI将很多在大语言模型的技术积累用在了Sora上。

3、语言理解

OpenAI发现训练文本到视频生成系统需要大量带有相应文本标题的视频。这里，OpenAI将DALL·E 3中介绍的标题生成技术用到了视频领域，训练了一个具备高度描述性的视频标题生成（video captioning）模型，使用这个模型为所有的视频训练数据生成了高质量文本标题，再将视频和高质量标题作为视频文本对进行训练。通过这样的高质量的训练数据，保障了文本（prompt）和视频数据之间高度的align。而在生成阶段，Sora会基于OpenAI的GPT模型对于用户的prompt进行改写，生成高质量且具备很好描述性的高质量prompt，再送到视频生成模型完成生成工作。

4、世界模型，涌现的模拟能力

当大规模训练时，sora同样也出现了有趣的“涌现的模拟能力”，这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面。这些属性没有任何明确的三维、物体等归纳特征信息——可以理解为由于模型参数足够大而产生的涌现现象。

这些能力包括：

三维一致性。Sora可以生成具有动态摄像机移动的视频。随着摄像机的移动和旋转，人物和场景元素在三维空间中一致地移动。
长距离连贯性和物体持久性。对于视频生成系统来说，一个重大挑战一直是在采样长视频时保持时间上的连续性。研究发现，Sora通常能够有效地模拟短距离和长距离依赖关系（不稳定）。例如，Sora可以在人物、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样，它可以在单个样本中生成同一角色的多个镜头，贯穿视频始终保持他们的外观。
与世界互动。 Sora可以模拟以简单方式影响世界状态的行为。例如，画家可以在画布上留下新的笔触，这些笔触随着时间的推移而持续存在，或者一个人可以吃汉堡并留下咬痕。
模拟数字世界。 Sora还能够模拟人工过程，一个例子是视频游戏。Sora可以通过基本策略控制《Minecraft》中的玩家，同时以高保真度渲染世界及其动态。这些能力可以通过prompt包含“Minecraft”，零样本激活这样的能力。

技术难点：“大”模型，“高”算力，“海量”数据。在报告中，OpenAI在不停提到“大力出奇迹”的效果。

其他功能

上面和我们的登录页中的所有结果都显示了文本到视频的示例。但Sora也可以被其他输入提示，例如预先存在的图像或视频。这一功能使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频、为静态图像设置动画、在时间上向前或向后扩展视频等。

我们还可以使用Sora在两个输入视频之间逐渐插值，在具有完全不同主题和场景组成的视频之间创建无缝过渡。在下面的示例中，中心的视频在左侧和右侧的相应视频之间进行插值。

Sora还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像，分辨率高达2048x2048。

技术进一步解读

相较于Runway、Stable Video Diffusion和PIKA等纯粹是基于扩散模型（Diffusion Model）架构的

技术路线相比，我觉得Sora最大的区别是使用了Diffusion-Transformer(DiT)架构。

传统的扩散模型（Diffusion Model）的训练过程是通过多个步骤逐渐向图片增加噪点，直到图片变成完全无结构的噪点图片，然后在生成图片的时候，基于一张完全噪点的图片，逐步减少噪点，直到还原出一张清晰的图片。

Sora 则是一个融合了Transformer Diffusion 两者的模型。通过 Transformer 的encoder- decoder架构处理含噪点的输入图像，并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码，而解码器则负责生成更清晰图像的预测。

DiT模型结构示意图

毫无疑问，从模型架构上来看，Sora使用的Diffusion-Transformer(DiT)架构，是将在LLM的Transformer架构和Text to Image领域的Diffusion架构做了一次融合。并且这项融合模型结构的提出者也不是openAI。而是发表在ICCV 2023的一篇论文《Scalable Diffusion Models with Transformers》中被提出的，但是openAI却是第一个使用这种架构在大规模数据上进行训练的。简单来说，Diffusion-Transformer(DiT)是一个带有Transformer Backbone骨干的扩散模型： DiT = [VAE编码器 + ViT + DDPM + VAE解码器]

本段参考：最强文生视频模型 SORA 超详细解读 - 知乎

技术局限

Sora目前作为一个模拟器表现出许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，比如玻璃破碎。其他相互作用，比如吃食物，并不总是能产生物体状态的正确变化。我们在登录页中列举了该模型的其他常见故障模式，如长时间样本中出现的不相干或对象的自发出现。

我们相信，Sora今天的能力表明，视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条很有前途的道路。