大家好,本资料库是全网集体智慧的结晶,通过这个资料库,我们希望能够为读者提供一个全方位、多角度了解和研究Sora大模型的平台。每一部分都旨在深入探讨Sora大模型的不同方面,从技术细节到社会影响,再到未来展望,以确保读者能够获得最全面的信息和洞见。
📁一. 概念和原理
-
💡Sora大模型简介
OpenAI 的官方解释了在视频数据基础上进行大规模训练生成模型的方法。
我们下面会摘取其中的关键部分罗列让大家快速get重点。
喜欢钻研的伙伴可以到官网查看技术报告:
https://openai.com/research/video-generation-models-as-world-simulators
1.1 技术特点
三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。
模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力
长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。
与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。
1.2 强在哪里
文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。
复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能 6 够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。
语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。
多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。
从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。
物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。
1.3 为什么是可作为世界模拟器的视频生成模型
统一的视觉数据表示:研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。
视频压缩网络:研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。
扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。
视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。
语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。
图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。
模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。
讨论:尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。
1.4 训练过程
Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。Sora实际上是一种扩散型变换器模型(diffusion transformer)。
首先将视频压缩到一个低维潜在空间中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。
训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。
对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。
随着 Sora 训练计算量的增加,样本质量有了显著提升。
Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。
针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。
训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。
与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。Video generation models as world simulators。
-
💡与其他视频大模型的比较分析
2.1 绘图能力 - 与MJ6对比
来源:https://twitter.com/doganuraldesign/status/1758444092328194217
2.2 视频效果 - 与Runway,Pika,Stable Video对比
去年,Pika Labs发布的文生视频大模型Pika 1.0曾轰动一时。该产品只需某张图片输入所需要的动态指令,或者框选某段视频的某个部位,输入指令,就能生成相应的视频。
当时,有不少网友都表示,该产品生成的视频质量属实很炸裂,但只能生成3秒以内的视频,这点有些影响体验。几个月时间不到,Sora已经能够生产60s级的稳定、连续、模拟真实世界的视频,而且效果上几乎碾压,我们来看看对比:
来源:闲人一坤
暂时无法在飞书文档外展示此内容
来源:爆肝博主ZHO
暂时无法在飞书文档外展示此内容
📂二. demo案例
-
通用应用领域
-
电影/动画制作
-
教学视频制作
-
自媒体短视频创意生成
-
广告营销
-
个人生活纪录片
-
几个代表性demo
放几个有代表性的视频案例,这些视频足以体现出Sora在处理相对复杂情境时目前可以做到的成绩:
单视频多角度镜头丝滑切换、60秒超级时长、理解现实世界、模拟现实世界。
更多的demo视频和提示词,直接学习第四章Sora提示词红宝书。
暂时无法在飞书文档外展示此内容
暂时无法在飞书文档外展示此内容
暂时无法在飞书文档外展示此内容
📁三. 商业变现场景
💡Sora可能带来的影响
如果Sora能够真正意义上实现文生视频,可能会带来哪些影响呢?我们来听听Sora发布后业界的声音:
-
没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的“虚拟偶像”,此前的二次元人物并没有真正达到“偶像”的级别。
-
利好编剧行业,剧本、文本创作力成为核心竞争力。
-
Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。
-
OpenAI继续拉大领先程度,对众多还在进行大模型测试打分pk的厂商,构成压力。
-
直接的影响是影视行业,特别是特效行业。使用AI来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。
-
摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
-
短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替,可能会有很多视频剪辑师失业。
-
对于很多短视频创作者来说,用AI来替代繁琐的剪辑工作,可以大幅提高工作效率。
-
很多歌手拍摄MV都是大成本制作,如果可以用AI来生成所需要的MV画面,也可以省去很大一部分制作成本。
-
另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。不过,从Sora官网目前展示的视频画面效果来看,效果还没那么逼近真实,短期内不会产生让行业失业,但会有辅助作用,做个动画片应该问题不大。
-
影视业:加上人类的创意和策划,AI在影视业的应用势不可挡;
-
生产力工具:AI被视为传统饮食业的生产力工具,而不是颠覆者。它能够激发人们的创造力。
-
科技平权:AI技术为普通人提供了制作专业影片的可能性,降低了门槛。
- <