OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?

Sora大模型简介

OpenAI 的官方解释了在视频数据基础上进行大规模训练生成模型的方法。

我们下面会摘取其中的关键部分罗列让大家快速get重点。

喜欢钻研的伙伴可以到官网查看技术报告:

https://openai.com/research/video-generation-models-as-world-simulators

技术特点

  • 三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。

  • 模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力

  • 长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。

  • 与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。

强在哪里

  • 文本到视频生成能力:Sora能够根据用户提供的文本描述生成长达60S的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示语。

  • 复杂场景和角色生成能力:Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。

  • 语言理解能力:Sora拥有深入的语言理解能力,能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令,并在生成的视频内容中忠实地反映这些指令。

  • 多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

  • 从静态图像生成视频能力:Sora不仅能够从文本生成视频,还能够从现有的静态图像开始,准确地动画化图像内容,或者扩展现有视频,填补视频中的缺失帧。

  • 物理世界模拟能力:Sora展示了人工智能在理解真实世界场景并与之互动的能力,这是朝着实现通用人工智能(AGI)的重要一步。它能够模拟真实物理世界的运动,如物体的移动和相互作用。

为什么是可作为世界模拟器的视频生成模型

  • 统一的视觉数据表示:研究者们将所有类型的视觉数据转换为统一的表示,以便进行大规模的生成模型训练。Sora 使用视觉补丁(patches)作为其表示方式,类似于大型语言模型(LLM)中的文本标记。

  • 视频压缩网络:研究者们训练了一个网络,将原始视频压缩到一个低维潜在空间,并将其表示分解为时空补丁。Sora 在这个压缩的潜在空间中进行训练,并生成视频。

  • 扩散模型:Sora 是一个扩散模型,它通过预测原始“干净”的补丁来从输入的噪声补丁中生成视频。扩散模型在语言建模、计算机视觉和图像生成等领域已经显示出了显著的扩展性。

  • 视频生成的可扩展性:Sora 能够生成不同分辨率、时长和宽高比的视频,包括全高清视频。这种灵活性使得 Sora 能够直接为不同设备生成内容,或者在生成全分辨率视频之前快速原型化内容。

  • 语言理解:为了训练文本到视频生成系统,需要大量的视频和相应的文本标题。研究者们应用了在 DALL·E 3 中引入的重新描述技术,首先训练一个高度描述性的标题生成器,然后为训练集中的所有视频生成文本标题。

  • 图像和视频编辑:Sora 不仅能够基于文本提示生成视频,还可以基于现有图像或视频进行提示。这使得 Sora 能够执行广泛的图像和视频编辑任务,如创建完美循环的视频、动画静态图像、向前或向后扩展视频等。

  • 模拟能力:当视频模型在大规模训练时,它们展现出了一些有趣的新兴能力,使得 Sora 能够模拟物理世界中的某些方面,如动态相机运动、长期一致性和对象持久性等。

  • 讨论:尽管 Sora 展示了作为模拟器的潜力,但它仍然存在许多局限性,例如在模拟基本物理交互(如玻璃破碎)时的准确性不足。研究者们认为,继续扩展视频模型是开发物理和数字世界模拟器的有前途的道路。

训练过程

Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。Sora实际上是一种扩散型变换器模型(diffusion transformer)。

  • 首先将视频压缩到一个低维潜在空间中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。

  • 训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。

  • 对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。

  • 随着 Sora 训练计算量的增加,样本质量有了显著提升。

  • Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。

  • 针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。

  • 训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。

  • 与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。Video generation models as world simulators。

与其他视频大模型的比较分析

绘图能力 - 与MJ6对比

来源:https://twitter.com/doganuraldesign/status/1758444092328194217

视频效果 - 与Runway,Pika,Stable Video对比

去年,Pika Labs发布的文生视频大模型Pika 1.0曾轰动一时。该产品只需某张图片输入所需要的动态指令,或者框选某段视频的某个部位,输入指令,就能生成相应的视频。

当时,有不少网友都表示,该产品生成的视频质量属实很炸裂,但只能生成3秒以内的视频,这点有些影响体验。几个月时间不到,Sora已经能够生产60s级的稳定、连续、模拟真实世界的视频,而且效果上几乎碾压,我们来看看对比:

Sora吊打其他

Sora吊打SD

商业变现场景

Sora可能带来的影响

如果Sora能够真正意义上实现文生视频,可能会带来哪些影响呢?我们来听听Sora发布后业界的声音:

  1. 没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的“虚拟偶像”,此前的二次元人物并没有真正达到“偶像”的级别。
  2. 利好编剧行业,剧本、文本创作力成为核心竞争力。
  3. Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。
  4. OpenAI继续拉大领先程度,对众多还在进行大模型测试打分pk的厂商,构成压力。
  5. 直接的影响是影视行业,特别是特效行业。使用AI来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。
  6. 摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
  7. 短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替,可能会有很多视频剪辑师失业。
  8. 对于很多短视频创作者来说,用AI来替代繁琐的剪辑工作,可以大幅提高工作效率。
  9. 很多歌手拍摄MV都是大成本制作,如果可以用AI来生成所需要的MV画面,也可以省去很大一部分制作成本。
  10. 另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。不过,从Sora官网目前展示的视频画面效果来看,效果还没那么逼近真实,短期内不会产生让行业失业,但会有辅助作用,做个动画片应该问题不大。

在Sora官网,OpenAI也表示,Sora是能够理解和模拟现实世界的模型的基础,OpenAI相信这一能力将是实现AGI的重要里程碑。

进一步落地后,可能的应用场景:

Sora+广告

  1. 个性化和定制化广告内容:根据目标受众的兴趣、习惯及互动历史,生成个性化的广告内容。例如,为每个观众提供定制的产品展示视频,以提高广告的吸引力和转化率。
  2. 高效率的广告制作:借助Sora的能力,广告制作过程可以大幅简化,从概念到成品的时间大大缩短,同时保持或提高广告的视觉质量。
  3. 虚拟场景和角色的创新应用:创建虚拟的场景和角色参与广告,无需实地拍摄或聘请演员,为广告创意提供几乎无限的可能性。
  4. 动态内容更新:针对不同的广告投放周期和受众反馈,实时更新广告内容和呈现方式,保持广告的新鲜感和相关性。
  5. 交互式和沉浸式广告体验:结合Sora的技术和交互式媒体(如AR/VR),为用户提供沉浸式的广告体验,增强品牌印象和用户参与度。
  6. 广告数据分析和优化:通过分析用户对AI生成广告内容的互动和反馈,优化广告策略和创意设计,实现更高的ROI。
  7. 品牌形象和故事叙述:Sora的出现让企业制作品牌视频的成本大幅下降,会反过来刺激企业品牌视频的需求,只需要一段文字就可以通过Sora生成的内容,塑造和传递品牌故事,加深品牌形象和价值观在目标受众心中的印象。

Sora+教育

  1. 历史和文化重现:通过Sora技术,历史事件、文化遗产和著名地标可以被逼真地重现,提供沉浸式的学习体验,帮助学生更好地理解和感受历史和文化。
  2. 语言学习与文化沉浸:Sora可以生成不同文化背景的虚拟场景和对话,帮助学习者在沉浸式环境中学习新语言,提高语言学习的效率和乐趣。
  3. 远程教育与在线课程:Sora技术可以为远程教育提供高质量的视频内容,使在线学习更加生动和吸引人,提高学习者的参与度和满意度。
  4. 互动式学习游戏和活动:结合游戏化学习理念,Sora可以创建互动式的学习游戏和活动,提高学习的趣味性和有效性。
  5. 特殊教育资源开发:为特殊需要的学生设计定制化的教育内容,例如为视障学生创建音频重点的教育材料,或为听障学生设计带有手语解释的视频。

Sora+大电影

  1. 虚拟演员和虚拟导演:开发虚拟演员和虚拟导演参与电影制作,不仅降低成本,还能创造出超越现实限制的表演和视觉效果。
  2. 个性化和定制电影制作:用户可以根据自己的喜好定制电影内容,包括剧情走向、角色设定甚至是结局。这种个性化服务可以作为高端娱乐产品向市场推出。
  3. 虚拟电影制作服务:为小型电影制作公司或独立电影制作者提供虚拟电影制作服务,包括虚拟场景构建、角色设计等,极大降低电影制作成本,加速电影制作进程。
  4. 电影内容的即时生成:根据观众的反馈和需求,实时调整和生成电影内容,为观众提供更加个性化和互动的观影体验。
  5. 云端电影制作平台:提供云端的电影制作和编辑平台,允许全球的创作者协同工作,共同参与电影项目的制作。
  6. 跨媒体内容创作:结合图书、游戏、虚拟现实(VR)等多种媒介,利用Sora技术创作跨媒体故事内容,吸引更广泛的受众。
  7. 电影营销和宣传新模式:通过Sora技术快速制作电影预告片、角色介绍等宣传材料,提高营销效率和吸引力。
  8. 版权和衍生品开发:AI创作的电影和角色可以开发出新的版权和衍生品市场,包括虚拟商品、角色授权等。
  9. AI影评和内容推荐:利用AI技术分析电影内容和用户偏好,提供个性化的影评和电影推荐服务。
  10. 电影制作教育和培训:制作结合Sora技术的电影制作的在线教育和培训课程,让更多的人学会以较低成本制作影视作品的相关技能。

总之,我们一直说的未来,好像真的要来了!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/396925.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(二)

上接:数据挖掘实战 —— 抖音用户浏览行为数据分析与挖掘(一) (六)模型选择与建立——聚类分析,关联规则 针对抖音用户浏览行为数据,我们可以选择使用各种适应的数据挖掘模型或算法,如关联规则…

TRS 2024 论文阅读 | 基于点云处理和点Transformer网络的人体活动连续识别

无线感知/雷达成像部分最新工作<持续更新>: 链接地址 注1:本文系“无线感知论文速递”系列之一,致力于简洁清晰完整地介绍、解读无线感知领域最新的顶会/顶刊论文(包括但不限于 Nature/Science及其子刊; MobiCom, Sigcom, MobiSys, NSDI, SenSys, Ubicomp; JSAC, 雷达学…

【机器学习笔记】 9 集成学习

集成学习方法概述 Bagging 从训练集中进行子抽样组成每个基模型所需要的子训练集&#xff0c;对所有基模型预测的结果进行综合产生最终的预测结果&#xff1a; 假设一个班级每个人的成绩都不太好&#xff0c;每个人单独做的考卷分数都不高&#xff0c;但每个人都把自己会做的…

一键彻底清理!解密如何清理电脑C盘垃圾的绝佳方法

随着我们在电脑上进行各种活动&#xff0c;C盘往往会逐渐积累大量的垃圾文件&#xff0c;这可能导致系统运行缓慢、启动时间延长以及存储空间被占用。对于许多用户而言&#xff0c;如何高效而一键地清理电脑C盘的垃圾成为一个备受关注的问题。如何清理电脑c盘垃圾&#xff1f;在…

树与二叉树

树与二叉树 文章目录 树与二叉树一、树的概念及结构1.、树的概念2、树的相关概念1.3 树的表示 二、二叉树1.概念2、特殊的二叉树3、二叉树的性质4、二叉树的存储结构 三、二叉树的顺序结构及实现1、二叉树的顺序结构2、堆的概念及结构3、堆的实现 四、二叉树链式结构的实现1、遍…

【Unity2019.4.35f1】配置JDK、NDK、SDK、Gradle

目录 JDK NDK SDK 环境变量 Gradle JDK JDK&#xff1a;jdk-1.8版本Java Downloads | Oracle 下载要登录&#xff0c;搜索JDK下载公用账号&#xff1a;Oracle官网 JDK下载 注册登录公共账号和密码_oracle下载账号-CSDN博客 路径&#xff1a;C:\Program Files\Java\jd…

RichAF 中文版(下)

原文&#xff1a;Rich AF : The Winning Money Mindset That Will Change Your Life 译者&#xff1a;飞龙 协议&#xff1a;CC BY-NC-SA 4.0 五、我出生时不是富人&#xff0c;但我的孩子会是 投资部分 当涉及投资时&#xff0c;我有三个关于致富的真相要分享&#xff1a; …

外贸人大部分都复工了吧

这几天是属于国家规定的节后上班时间&#xff0c;估计大部分人都已经开始复工了。作为粤西地区小伙伴中的一员&#xff0c;表示虽然身在广州&#xff0c;心却还在高州&#xff0c;毕竟年例在这些天才刚刚开始&#xff0c;我们那边每年最热闹的时候就是年例了&#xff01; 由于…

AI破局俱乐部,你要了解的都在这里

您好&#xff0c;我是码农飞哥&#xff08;wei158556&#xff09;&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。&#x1f4aa;&#x1f3fb; 1. Python基础专栏&#xff0c;基础知识一网打尽&#xff0c;9.9元买不了吃亏&#xff0c;买不了上当。 Python从入门到精通…

【Linux | C++ 】基于环形队列的多生产者多消费者模型(Linux系统下C++ 代码模拟实现)

阅读导航 引言一、生产者消费者模型二、环形队列简介三、基于环形队列的生产者消费者模型&#xff08;C 代码模拟实现&#xff09;⭕Makefile文件⭕ . h 头文件✅sem.hpp✅ringQueue.hpp ⭕ . cpp 文件✅testMain.cpp 温馨提示 引言 在上一篇文章中&#xff0c;我们深入探讨了…

S32 Design Studio PE工具配置Watch Dog

配置操作 在一个component下面可以创建多个看门狗&#xff0c;一般会有个限制&#xff0c;就是不能创建多个 看门狗比较简单&#xff0c;在configurations list里面新建软件看门狗&#xff0c;配置里面的名字、超时时间等配置即可。 代码对应 生成的代码在watchdog1.c和 wat…

CV论文--2024.2.19

1、Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation 中文标题&#xff1a;自我对弈微调扩散模型&#xff0c;用于文本到图像生成 简介&#xff1a;在生成人工智能&#xff08;GenAI&#xff09;领域&#xff0c;微调扩散模型仍然是一个未被充分探索的…

搭建本地git仓库 gogs本地大家 CentOS搭建本地git仓库 CentOS部署gogs

运行环境 操作系统:CentOS7.8 64位 使用mysql5.7.44数据库 选用依赖 yum install vim wget unzip -y本文选择使用WLNMP集成环境 第一步 配置epel源(必须) yum install epel-release第二步 添加wlnmp源 这里选择自动脚本 curl -fsSL "https://sh.wlnmp.com/wlnmp…

算法模板 7.拓扑排序

拓扑排序 用来解决循环依赖相关问题&#xff01;&#xff01;&#xff01; 一个有向无环图一定存在一个拓扑序列&#xff01;一定存在至少一个入度为0的点 有向无环图也被称作拓扑图 先把入度为0的点压入队列&#xff0c;然后进行广度优先搜索&#xff08;找到队头&#xf…

遥感影像数据处理分析软件与ChatGPT集成、多光谱数据分析与实践、高光谱数据分析与实践

目录 第一章 遥感科学与AI基础 第二章 遥感影像数据处理分析软件与ChatGPT集成 第三章 多光谱数据分析与实践专题 第四章 高光谱分析与实践专题 更多应用 将最新的人工智能技术与实际的遥感应用相结合&#xff0c;提供不仅是理论上的&#xff0c;而且是适用和可靠的工具和…

【天锐绿盾】| 数据防泄漏软件——防止公司核心文件数据\资料外泄、泄露!

数据防泄漏软件 数据防泄漏&#xff08;DLP&#xff09;软件是一种专门设计用于保护企业和组织内部敏感信息的网络安全工具。 PC端&#xff1a;https://isite.baidu.com/site/wjz012xr/2eae091d-1b97-4276-90bc-6757c5dfedee 它们通常包含以下核心功能&#xff1a; 文件加密…

2、windows环境下vscode开发c/c++环境配置(一)

前言&#xff1a;VSCode是微软出的一款轻量级编辑器&#xff0c;它本身只是一款文本编辑器而已&#xff0c;并不是一个集成开发环境(IDE)&#xff0c;几乎所有功能都是以插件扩展的形式所存在的。因此&#xff0c;我们想用它编程&#xff0c;不只是把vscode下载下来就行&#x…

C语言系列(所需基础:大学C语言及格)-3-字符串/ASCII码表

文章目录 一、字符串二、ASCII码表 一、字符串 用" "来定义字符串&#xff1a; #include <stdio.h>int main() {"";//空字符串"hkl";//由""定义的字符串return(0); }用数组来存储字符串&#xff0c;并打印&#xff1a; #incl…

深度学习系列——“试错”发展直觉

试错法以发展直觉&#xff1a;面对复杂的深度学习问题时&#xff0c;学习者可以通过不断尝试不同解决方案&#xff0c;并观察其对模型性能的影响&#xff0c;逐渐形成一套针对特定任务的有效策略。这些经验有助于提升对深度学习模型工作原理的直观理解。 那么试错法是如何发展直…

专修戴尔R730xd服务器闪电灯 心跳亮黄灯故障

2024年开年第二天接到一个用户反馈说他公司有一台DELL PowerEdge R730xd服务器春节前由于市电问题意外断电关机了&#xff0c;刚好碰上春节就没去开机了&#xff0c;今天工厂开工服务器通电发现开不了机&#xff0c;且机器过了一会后报了2个黄灯错误&#xff0c;如下图&#xf…