欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第8篇分享!
近期sora在科技届引发不小的轰动,虽然这是openai并未对外发布的相关产品,目前如同小米汽车的技术发布会,但是确实引发了不小的震撼,因此特地到官方网站阅读了它的所有介绍,包括技术资料,这里简单记录下, 并聊聊我个人的看法。
1 Sora简介
Sora是由OpenAl在2024年2月16日推出的文本生成视频模型。Sora继承DALL·E 3的画质和遵循指令能力,可以根据用户的文本提示快速制作长达一分钟的高保真视频,呈现复杂场景与角色。还可以根据提示、静止图像填补现有视频中的缺失帧来生成视频。
Sora能够深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃。
2 Sora技术原理
Sora 是视觉数据的通用模型,它可以生成不同时长、长宽比和分辨率的视频和图像,最多可达一分钟的高清视频。
openai官方声称从大型语言模型中获得灵感,这些模型通过互联网规模数据的训练来获得通用能力。 LLM 范式的成功部分归功于令牌的使用,这些令牌优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,openai技术团队考虑视觉数据的生成模型如何继承这些好处。 LLM 有文本标记,而 Sora 有视觉补丁。此前,补丁已被证明是视觉数据模型的有效表示。他们发现补丁是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。
官方文档上对于sora的解释是Sora是⼀个扩散模型,给定输⼊噪声补丁(以及⽂本提示等调节信息),它被训练来预测原始的“⼲净”补丁。重要的是,Sora 是⼀个扩散变压器。Transformer 在多个领域展示了卓越的扩展特性,包括语⾔建模、计算机视觉和图像⽣成。
视频和图像是被称为“补丁”的较小数据单位集合,每个“补丁”都类似于GPT中的一个标记(Token),通过统一的数据表达方式,可以在更广泛的视觉数据上训练和扩散变化,包括不同的时间、分辨率和纵横比。
Sora基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好的遵循文本指令。
3 Sora局限性
Sora ⽬前作为模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作⽤的物理过程,例如玻璃破碎。其他交互(例如吃⻝物)并不总是会产⽣对象状态的正确变化。openai在登陆⻚⾯中列举了模型的其他常⻅故障模式,例如⻓时间样本中出现的不连贯性或对象的⾃发出现。
4 大佬Sora看法
2月16日,360创始人周鸿祎发布微博提到自己对Sora的看法,周鸿祎认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。以下是博主在网络上摘取的一些笔记截图:
5 相关资料
官方技术文档:Video generation models as world simulators
抖音百科介绍:抖音百科
6 文思ai笔记
想到大年初一采用各种提示词生成的团年饭图片的场景,感觉sora让人满怀憧憬,而且官方发布的细节确实足够细腻和逼真,合乎逻辑又细节满满。
下面是文首视频截图官方给出的提示词,非常简单,如果真如官方所说,那这确实是革命性的ai进展之一。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
提示:一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
Sora对于故事创作者和我们这些对视频制作感兴趣的普通人绝对是很大的利好,它大幅跨过了之前人们理解的生成式ai的上限,但对于某些职业的颠覆当然也可想而知。目前这些还是概念阶段,好比小米的技术发布会,真实情况还未可知,是驼子是马,拉出来溜溜才知道,总之值得期待! 后续随着其产品的发布,博主再作进一步的研究!