本文原文来自DataLearnerAI官方网站:
OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定 | 数据学习者官方网站(Datalearner)https://www.datalearner.com/blog/1051708046782555
OpenAI宣布发布全新的Diffusion大模型Sora,这是一个可以生成最长60秒视频的视频生成大模型,最大的特点是可以生成非常逼真的电影画面版的视频。
- OpenAI的视频生成模型Sora模型介绍和特点
- OpenAI的Sora模型的实际效果
- 实例1:在东京街头行走
- 实例2:淘金热期间加利福尼亚州的历史录像
- 实例3:飞奔的SUV
- OpenAI Sora模型技术报告总结
- OpenAI Sora当前的情况
OpenAI的视频生成模型Sora模型介绍和特点
Sora是OpenAI开发的一款先进AI模型,它能根据文本指令创造出高质量、逼真的视频,不仅拓宽了创作的边界,还融合了安全措施和社区的反馈。它主要的技术特点如下:
-
利用扩散模型和Transformer架构,Sora具备了从文本、静态图片或扩展已有视频中生成视频的能力,也就是说Sora可以基于文本或者图片或者视频来生成或者扩展。因此,OpenAI的Sora是一个可以接受任意模态输入并生成视频的模型。
-
此模型被训练以理解和模拟物理世界的动态,助力于解决现实世界互动问题的挑战。因此,OpenAI的Sora可以生成更加逼真的视频。
-
Sora能制作长达一分钟的视频,不仅视觉质量上乘,而且能精确响应用户的指令,内容涵盖从都市风光到动漫人物等多种场景。时间上更长意味着视频更加连贯。
OpenAI的Sora模型的实际效果
官方公布了OpenAI Sora的实际测试结果,非常令人惊叹。OpenAI的Sora生成的视频合集地址:https://www.douyin.com/user/self?modal_id=7336019234973109515
实例1:在东京街头行走
下图是视频截图,
实例2:淘金热期间加利福尼亚州的历史录像
下面这个视频的Prompt是“Prompt: Historical footage of California during the gold rush.”,就这样简单一句话生成的视频非常具有年代感,似乎是电影纪录片。
实例3:飞奔的SUV
输入的Prompt:The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
视频截图:
这是生成一个跟随行驶SUV的镜头,除了运动、真实以外,SUV的细节也非常好。Prompt描述的是黑色车顶的行李架的复古SUV,被松树包围的陡峭土路,都十分准确。
OpenAI Sora模型技术报告总结
本次OpenAI还公布了Sora模型的一些技术细节,相比较GPT-4,这次公布了稍微多一点点的内容。
首先,OpenAI是在在不同持续时间、分辨率和宽高比的视频和图像上联合训练conditional diffusion models。OpenAI利用了一种在视频和图像潜在代码的时空patches上操作的transformer架构。最大的模型就是Sora,能够生成一分钟的高保真视频。OpenAI认为,扩大视频生成模型的规模是朝向构建物理世界的通用目的模拟器的有希望的路径。
上图展示了更高层次的Sora方法的原理,通过首先将视频压缩到低维的潜在空间,然后将这些表示分解为时空patches,OpenAI Sora实现了视频到patches的转换。
OpenAI Sora当前的情况
虽然OpenAI官方宣布了Sora模型,但是目前并没有开放给大众使用。
关于OpenAI的Sora模型更多技术介绍参考原文博客:OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定 | 数据学习者官方网站(Datalearner)
OpenAI的Sora生成的视频合集地址:https://www.douyin.com/user/self?modal_id=7336019234973109515