2月15日,OpenAI发布的Sora模型确实在文生视频领域取得了显著的进步,其特点和创新性表现在以下几个方面:
- 视频生成长度:Sora模型能够生成长达1分钟的视频,这相比之前的文生视频模型有了显著的提升。这一长度的视频已经足够涵盖许多实际应用场景,如短视频制作、广告、社交媒体分享等。
- 3D空间一致性:Sora模型能够在生成的视频中保持3D空间的一致性,这意味着随着摄像机的移动和旋转,人物和场景元素能够在三维空间中保持连贯运动。这一特性使得生成的视频更加自然和逼真,也拓宽了视频生成的可能性。
- 长期连续性和物体持久性:Sora模型能够在单个视频中生成同一物体的多个镜头,并且一个主题即使暂时离开视野也能保持不变。这一特性在视频编辑和制作中非常重要,可以确保视频内容的连贯性和一致性。
- 视频扩展能力:Sora模型不仅能够向前后扩展视频,还能够连接两个视频。这一特性使得用户可以轻松地将多个视频片段组合成一个完整的视频,提高了视频制作的灵活性和效率。
- 模拟数字世界:Sora模型还能够模拟人工操作,例如控制Minecraft游戏中的玩家。这一特性使得Sora模型不仅局限于静态图像的生成,还能够扩展到动态交互场景的模拟,进一步拓宽了文生视频模型的应用领域。
总的来说,Sora模型的发布标志着文生视频技术在实用生产力工具方面的重大突破。其1分钟长度的视频生成能力有望大规模应用在短视频领域,而其扩展视频的能力也有望制作长视频。这一技术的发展或将带来新一轮内容创作产业的革命,为创作者提供更多的创作手段和可能性。同时,我们也期待看到Sora模型在更多领域的应用和拓展。
先来了解一下官网公布的示例(以下是一些简单的翻译):
1、Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
提示:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。 她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。 她戴着太阳镜,涂着红色口红。 她走路自信又随意。 街道潮湿且反光,在彩色灯光的照射下形成镜面效果。 许多行人走来走去。
https://cdn.openai.com/sora/videos/tokyo-walk.mp4
01:00
2、Prompt: Historical footage of California during the gold rush.(提示:淘金热期间加利福尼亚州的历史镜头。)
https://cdn.openai.com/sora/videos/gold-rush.mp4
00:25
3、Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.(提示:穿过东京郊区的火车车窗上的倒影。)
https://cdn.openai.com/sora/videos/train-window.mp4
00:08
4、Prompt: Tour of an art gallery with many beautiful works of art in different styles.(提示:参观艺术画廊,里面有许多不同风格的美丽艺术品。)
https://cdn.openai.com/sora/videos/art-museum.mp4
00:20
5、Prompt: The camera directly faces colorful buildings in Burano Italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.(提示:相机正对意大利布拉诺岛色彩缤纷的建筑。 一只可爱的斑点狗透过一楼建筑的窗户向外张望。 许多人沿着建筑物前的运河街道步行和骑自行车。)
https://cdn.openai.com/sora/videos/italian-pup.mp4
00:10
6、Prompt: An adorable happy otter confidently stands on a surfboard wearing a yellow lifejacket, riding along turquoise tropical waters near lush tropical islands, 3D digital render art style.
提示:一只可爱的快乐水獭穿着黄色救生衣自信地站在冲浪板上,沿着郁郁葱葱的热带岛屿附近碧绿的热带水域骑行,3D 数字渲染艺术风格。
https://cdn.openai.com/sora/videos/otter-on-surfboard.mp4
0
7、Prompt: A corgi vlogging itself in tropical Maui.(提示:一只柯基犬在热带毛伊岛拍摄视频博客。)
https://cdn.openai.com/sora/videos/vlogger-corgi.mp4
0
8、Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.(提示:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并除尘。)
https://cdn.openai.com/sora/videos/chair-archaeology.mp4
0
下面是官网的一些解读:
我们正在教AI理解和模拟运动中的物理世界,目的是训练模型来帮助人们解决需要现实世界互动的问题。
该模型对语言有深入的理解,使其能够准确地解释提示并生成引人注目的字符来表达充满活力的情感。 Sora 还可以在单个生成的视频中创建多个镜头,准确地保留角色和视觉风格。
Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。 该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。
当前的模型存在弱点。 它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。 例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。该模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
安全
在 OpenAI 产品中使用 Sora 之前,我们将采取几个重要的安全措施。 我们正在与红队成员合作——“错误信息、仇恨内容和偏见等领域的领域专家”——他们将对模型进行对抗性测试。
我们还在构建工具来帮助检测误导性内容,例如检测分类器,可以判断 Sora 何时生成视频。 如果我们在 OpenAI 产品中部署模型,我们计划将来包含 C2PA 元数据。
除了开发新技术来准备部署之外,我们还利用为使用 DALL·E 3 的产品构建的现有安全方法,这些方法也适用于 Sora。
例如,在 OpenAI 产品中,我们的文本分类器将检查并拒绝违反我们的使用政策的文本输入提示,例如请求极端暴力、性内容、仇恨图像、名人肖像或他人 IP 的文本输入提示。 我们还开发了强大的图像分类器,用于检查生成的每个视频的帧,以帮助确保它在向用户显示之前符合我们的使用政策。
我们将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧并确定这项新技术的积极用例。 尽管进行了广泛的研究和测试,我们仍无法预测人们将使用我们的技术的所有有益方式,也无法预测人们将滥用我们的技术的所有方式。 这就是为什么我们相信,随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键组成部分。
不得不说,太强了!至于是否能代替一些职业,目前看对视频剪辑、短视频行业、设计师行业冲击会比较大。
期待公开注册的一天。