探索未来-Sora

AI如何将静态图像转化为动态、逼真的视频? OpenAI 的 Sora 通过时空片段(以下统称片段)的创新使用给出了答案。

Sora 展示与探讨

在快速发展的生成模型领域,OpenAI 的 Sora成为一个重要的里程碑,有望重塑我们对视频生成的理解和能力。我们揭示了Sora 背后的技术及其激发新一代图像、视频和 3D内容创建模型的潜力。

OpenAI Sora 演示 — 床上的猫 

OpenAI Sora 演示 — 床上的猫 图片来源:OpenAI

上面的演示是由 OpenAI 使用提示生成的:一只猫叫醒熟睡的主人,要求吃早餐。主人试图忽视这只猫,但猫尝试了新的策略,最后主人从枕头下拿出秘密藏匿的零食,让猫再呆一会儿。 

OpenAI Sora 演示 — 纸飞机

OpenAI Sora 演示 — 纸飞机 图片来源:OpenAI

上面的演示是由 OpenAI 使用提示生成的:纸飞机在茂密的丛林中飞舞,像迁徙的鸟儿一样在树木周围穿梭。

通过 Sora,可以在视频内容生成方面接近于几乎无法区分的现实主义。由于正在进行测试,其完整模型尚未完全向公众发布。

Sora 的独特方法如何改变视频生成

在生成模型的世界中,我们看到了从 GAN 到自回归和扩散模型的许多方法,它们都有自己的优点和局限性。Sora 现在引入了范式转变,采用了新的建模技术和灵活性,可以处理广泛的持续时间、宽高比和分辨率。

Sora 将扩散和变压器架构结合在一起创建扩散变压器模型,并能够提供以下功能:

·文本到视频:正如我们所见

·图像到视频:为静态图像带来活力

·视频到视频:将视频风格更改为其他内容

·及时延长视频:向前和向后

·创建无缝循环:平铺视频看起来永无止境

·图像生成:静止图像是一帧的电影(最大2048 x 2048

·生成任何格式的视频:从 1920 x 1080 到 1080 x 1920 以及之间的所有格式

·模拟虚拟世界:如《我的世界》

·创建视频:长度不超过 1 分钟,包含多个短片

想象一下我们在厨房里。传统的视频生成模型(例如Pika和RunwayML中的模型)就像严格遵循菜谱的厨师。他们可以制作出精美的菜肴(视频),但受到他们所知道的食谱(算法)的限制。厨师可能专注于烘焙蛋糕(短片)或烹饪面食(特定类型的视频),使用特定的成分(数据格式)和技术(模型架构)。

Sora 是一位了解风味基础知识的新型厨师。这位厨师不仅遵循菜谱,而且遵循食谱。他们发明新的。Sora 的原料(数据)和技术(模型架构)的灵活性使得 Sora 能够制作各种高质量的视频,类似于大厨的多才多艺的烹饪创作。

Sora秘密成分的核心:探索时空片段(spacetime patches)

时空片段是 Sora 创新的核心,它建立在Google DeepMind 对 NaViT和 ViT(视觉变换器)的早期研究基础上,该研究基于 2021 年的论文An Image is Worth 16x16 Words。

“Vanilla”视觉变压器架构 

传统上,对于视觉 Transformer,我们使用一系列图像“片段”来训练用于图像识别的 Transformer 模型,而不是用于语言 Transformer 的单词。这些片段使我们能够摆脱卷积神经网络进行图像处理。

帧/图像如何“补丁化”

视觉变换器受到大小和长宽比固定的图像训练数据的限制,这限制了质量并且需要大量的图像预处理。

切片视频时态数据的可视化

通过将视频视为片段序列,Sora 保持了原始的宽高比和分辨率,类似于 NaViT 对图像的处理。这种保存对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的世界表示中学习,从而赋予 Sora 近乎神奇的准确性。

时空修补(处理)的可视化 — 图片来源:OpenAI (Sora)

该方法使 Sora 能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。这种灵活性确保每条数据都有助于模型的理解,就像厨师如何使用各种原料来增强菜肴的风味一样。

通过时空片段对视频数据进行详细而灵活的处理,为精确的物理模拟和 3D 一致性等复杂功能奠定了基础。这些功能对于创建不仅看起来逼真而且符合世界物理规则的视频至关重要,让我们一睹人工智能创建复杂、动态视觉内容的潜力。

喂养 Sora:多样化数据在训练中的作用

训练数据的质量和多样性对于生成模型的性能至关重要。现有的视频模型传统上是根据更严格的数据集、更短的长度和更窄的目标进行训练的。

Sora 利用庞大且多样化的数据集,包括不同时长、分辨率和宽高比的视频和图像。它能够重新创建像《我的世界》这样的数字世界,它的训练集中可能还包括来自虚幻或 Unity 等系统的游戏玩法和模拟世界镜头,以便捕获所有角度和各种风格的视频内容。这将 Sora 引入了“通才”模型,就像文本领域的 GPT-4 一样。

这种广泛的培训使 Sora 能够理解复杂的动态并生成多样化且高质量的内容。该方法模仿大型语言模型在不同文本数据上的训练方式,将类似的原理应用于视觉内容以实现通才能力。

可变“补丁”NaVit 与传统视觉

正如 NaViT 模型通过将不同图像的多个片段打包到单个序列中展示了显着的训练效率和性能增益一样,Sora 利用时空片段在视频生成中实现类似的效率。这种方法允许从庞大的数据集中更有效地学习,提高模型生成高保真视频的能力,同时与现有建模架构相比降低所需的计算量。

将物理世界带入生活:Sora 对 3D 和连续性的掌握

3D 空间和物体持久性是 Sora 演示中的关键亮点之一。通过对各种视频数据进行训练,无需调整或预处理视频,Sora 学会了以令人印象深刻的精度对物理世界进行建模,能够以原始形式使用训练数据。

它可以生成数字世界和视频,其中对象和角色在三维空间中令人信服地移动和交互,即使被遮挡或离开框架也能保持连贯性。

展望未来:Sora 的未来影响

Sora 为生成模型的可能性设立了新标准。这种方法很可能会激发开源社区尝试和推进视觉模式的能力,推动新一代生成模型的发展,突破创造力和现实主义的界限。

Sora 的旅程才刚刚开始,正如 OpenAI 所说,“扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路”。

Sora 的方法将最新的人工智能研究与实际应用相结合,预示着生成模型的光明未来。随着这些技术的不断发展,有望重新定义我们与数字内容的交互,使高保真、动态视频的创建变得更加容易和多功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/397578.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

uniapp离线打包(使用Android studio打包)

一、准备工作 安装HbuilderX,记住版本号下载对应HbuilderX版本的Android离线SDK,如我使用3.6.18版本打包,则对应应下载3.6.18版本的SDK(官网不提供旧版本的SDK,有些需要自己找)官网下载地址:ht…

亚马逊鲲鹏系统一键注册亚马逊买家号的软件

在如今的电商世界中,自动注册亚马逊买家号已经成为了一种必要的操作需求。为了规避关联性问题,许多用户选择借助专门设计的软件工具,其中最为流行的就是亚马逊鲲鹏系统。这款软件以其自带防指纹浏览器和全自动化操作功能而闻名。 亚马逊鲲鹏系…

《摔跤吧爸爸》19岁女星突患皮肌炎离世

从确诊到离世仅10天……罕见病“皮肌炎”! 曾凭借在知名电影《摔跤吧!爸爸》中饰演童年时期“小芭比塔”一角而广受喜爱的年轻演员苏哈尼巴特纳格尔不幸离世,年仅19岁。她的突然逝世引发了全球关注,据苏哈妮的家人表示&#xff0…

基于docker安装HDFS

1.docker一键安装见 docker一键安装 2.拉取镜像 sudo docker pull kiwenlau/hadoop:1.03.下载启动脚本 git clone https://github.com/kiwenlau/hadoop-cluster-docker4.创建网桥 由于 Hadoop 的 master 节点需要与 slave 节点通信,需要在各个主机节点配置节点…

ACE 中的Active Object模式

Active Object 设计模式: 1) 根据对象被调用的方式,可以将对象分为两类: Passive Object和Active Object。Passive 和 Object和调用者在同一个线程中,这就是我们通常所用的函数调用。而Active Object和调用在不同的线程中&#xf…

漏洞挖掘 | 编辑器漏洞之kindeditor

本文由掌控安全学院 - master666 投稿 今天呢给大家复现一个kindeditor<4.1.5上传漏洞。小弟能力有限&#xff0c;还在坚持学习的路上&#xff0c;还请大佬多多指教。自我感觉编辑器漏洞很容易忽视。此文章作为记录本人学习的开始&#xff0c;丰富自己的阅历。我们共同进步…

TLS指纹校验原理和绕过

TLS指纹校验原理和绕过 1.指纹校验案例 当用浏览器访问时能够正常访问&#xff0c;而用代码请求却得不到相应结果 1.1 案例&#xff1a;ascii2d https://ascii2d.net/ 1.2 案例&#xff1a;investing https://cn.investing.com/equities/amazon-com-inc-historical-data 2.T…

【JavaScript】数组操作 遍历、修改、新增、删除等...

目录 一、数组是什么&#xff1f; 二、数组操作 2.1、遍历 2.2、数组求最大值和最小值 2.3、修改 2.4、新增 追加到数组末尾 添加到数组开头 2.5、删除 一、数组是什么&#xff1f; 数组是一种可以按顺序保存数据的数据类型。 二、数组操作 2.1、遍历 let arr [马…

14. UE5 RPG使用曲线表格设置回复血量值

之前的文章中&#xff0c;我使用的都是固定的数值来设置血量回复或者蓝量回复&#xff0c;在这篇文章里面&#xff0c;介绍一下使用曲线表格。通过曲线表格我们可以设置多个数值&#xff0c;然后通过去通过修改索引对应的数值去修改回复的血量或者蓝量。 创建曲线表格 首先创…

【Unity】【VRTK】【VR开发】同时保持高效打包和调试的VRTK项目设置方式

【背景】 开发功能时希望能够快速调试&#xff0c;在Preview和开发编辑器间流畅切换。后期又希望快速打包到目标安卓平台&#xff0c;感受头盔内部的画面和操作效果。麻烦在于&#xff0c;这两者往往不是明确区分的&#xff0c;很可能一会儿只是想快速验证一下某些功能动作&am…

安全名词解析-攻防演练

为方便您的阅读&#xff0c;可点击下方蓝色字体&#xff0c;进行跳转↓↓↓ 01 攻防演练 01 攻防演练 《网络安全法》中明确提出&#xff0c;“定期组织关键信息基础设施的运营者进行网络安全应急演练&#xff0c;提高应对网络安全事件的水平和协同配合能力。”攻防演练目前已经…

机器视觉【3】非线性求解相机几何参数

线性求解相机几何参数的缺点 上一章节介绍学习了&#xff08;DLT&#xff09;线性求解相机几何参数&#xff0c;了解到线性求解法当中比较明显的缺点&#xff1a; 没有考虑到镜头畸变的影响不能引入更多的约束条件融入到DLT算法当中优化最关键的是&#xff0c;代数距离并不是…

OpenCV中inRange函数

在OpenCV中&#xff0c;inRange函数用于根据颜色范围从图像中提取特定的颜色区域。这个函数检查输入图像中的每个像素&#xff0c;如果像素值位于指定的范围内&#xff0c;则在输出图像&#xff08;或掩码&#xff09;中对应位置的像素被设置为白色&#xff08;或者说是255&…

QT中事件过滤器

Qt添加事件过滤器&#xff0c;设置拖放listWidget、TreeWidget、TableWidget控件。 #include "mainwindow.h" #include "ui_mainwindow.h"MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainWindow) {ui->setupUi(this)…

Lightfm学习记录

推荐参考资料 官方文档仓库地址论文地址LightFM推荐系统框架学习笔记LightFM推荐模型库(利于入门)how-i-would-explain-building-lightfm-hybrid-recommenders-to-a-5-year-old(用处不大)协同推荐 lightfm 根据用户已读诗词推荐(可能有用)Recommendation System in Python: L…

Learn HTML in 1 hour

website address https://www.youtube.com/watch?vHD13eq_Pmp8 excerpt All right, what’s going on? everybody. It’s your Bro, hope you’re doing well, and in this video I’m going to help you started with html; so sit back, relax and enjoy the show. If y…

Vue3自定义全局指令批量注册

指令封装代码&#xff1a; import type { App } from "vue";const content {mounted(el : any, binding : any) {console.dir(binding.value);el.remove();} };const operate {mounted(el : any, binding : any) {console.dir(binding.value);el.remove();} };cons…

01_02_mysql06_视图-存储过程-函数

视图 使用 视图一方面可以帮我们使用表的一部分而不是所有的表&#xff0c;另一方面也可以针对不同的用户制定不同的查询视图。比如&#xff0c;针对一个公司的销售人员&#xff0c;我们只想给他看部分数据&#xff0c;而某些特殊的数据&#xff0c;比如采购的价格&#xff0…

助力精准可信时空智能:卫星授时安全隔离装置

随着信息化、数字化、智能化发展浪潮的不断推进&#xff0c;各行业对卫星导航授时信息的精准可信度需求也越来越高。面对有意/无意的导航信号欺骗干扰&#xff0c;一旦发生时间信息错误&#xff0c;将导致巨大的经济损失甚至严重的安全事故。在复杂的电磁环境下&#xff0c;亟需…

【Web前端笔记08】CSS盒子模型

08 CSS盒子模型 1、盒子模型 2、border&#xff08;边框&#xff09; 3、padding&#xff08;内边距&#xff09; 4、margin&#xff08;外边距&#xff09; 5、怪异盒子 6、弹性盒模型练习 08 CSS盒子模型 1、盒子模型 标准盒子&#xff1a; 内容&#xff08;content…