深入浅出熟悉OpenAI最新大作Sora文生视频大模型

蠢蠢欲动,惴惴不安,朋友们我又来了,这个春节真的过的是像过山车,Gemini1.5 PRO还没过劲,OpenAI又放大招,人类真的要认输了吗,让我忍不住想要再探究竟,到底是什么让文生视频发生了质的跃迁,再次不仅止不住唏嘘,那些老板们辛辛苦苦创起来的业,恐怕又被降维打击了一波!

这里主要介绍一下OpenAI的又一大作Sora,之所以不做产品体验,是目前人家还没全量开放,我们就先研究研究人家的开放内容!

💡 报告链接:https://openai.com/research/video-generation-models-as-world-simulators

零、科技前沿资讯

刚刚也就是2月16日,奥特曼发布OpenAI首个视频生成模型Sora,完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。一石激起千层浪,我们先看看Sora能做到什么程度,再看看技术界大佬的回复!!!

对此,特斯拉CEO马斯克发推表示:gg人类,要愿赌服输。
在这里插入图片描述
360集团董事长周鸿祎认为:AGI可能已经不远了,从此前预测的10年缩短到2~3年内。
影眸科技的CTO张启煊则评价:Sora是我目前看到唯一能跳脱出空镜头生成真正有意义片段的视频生成工具。在他看来,Sora跟Pika、Runway产生了代差,视频生成领域终于被OpenAI支配。
网友们更是被震惊到失语——

  • 「一切都结束了,我的饭碗要丢了。」
    在这里插入图片描述
  • 「整个电影工业都会随着这次发布的成果而消亡。」
    在这里插入图片描述
  • 「AI电影制作人和他们正在制作的项目Be Like」……
    在这里插入图片描述

一、产品简介

文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

二、效果演示

48个视频Demo:动漫电影、逼真自然、魔幻大片:OpenAI一共放出了48个视频来展示Sora模型的强大之处。这里我剪辑了一个视频,完整呈现这些生成视频的视觉效果。

OpenAI发布革命性视频生成工具Sora:48段视频搭配提示词展示,效果令人震撼!!!

三、技术剖析

总的来说,Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型,同时采用了Transformer架构,也就是一种“扩散型Transformer”。

技术报告解读:

关于技术细节,官方报告简单提了以下6点(深入的细节尚未公开):

1. 视觉数据的“创新转化”。

与大语言模型中的token不同,Sora采用的是“Patches(补片)”来统一不同的视觉数据表现形式。如下图所示,在具体操作中,模型先将视频压缩到低维潜空间中,然后将它们表示分解为时空补片,从而将视频转换为补片。

2. 训练了一个视频压缩网络。

它可以降低视觉数据维度,输入视频,输出时空上压缩的潜表示。Sora就在这上面完成训练。相应地,OpenAI也训练了一个专门的解码器。

3. 时空补片技术(Spacetime latent patches)。

给定一个压缩的输入视频,模型提取一系列时空补片,充当Transformer的token。正是这个基于补片的表示让Sora能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,模型则通过在适当大小的网格中排列随机初始化的补片来控制生成视频的大小。

在“ChatGPT是第一个真正意义的人工通用智能”中,笔者总结过大语言模型借助Embedding将人类的语言 “编码”成自己的语言,然后通过注意力Attention从中提取各种丰富的知识和结构,加权积累与关联生成自己的语言,然后“编码”回人类的语言。

与ChatGPT首先引入Token Embedding 思路一致,针对视觉数据的建模方法则作为构建Sora最重要的第一步。碎片Patch已经被证明是一个有效的视觉数据表征模型,且高度可扩展表征不同类型的视频和图像。将视频压缩到一个低维的潜变量空间,然后将其拆解为时空碎片Spacetime Latent Patches。笔者觉得时空碎片是时空建模的关键,统一了时空分割的"语言"。

有了时空碎片这一统一的语言,Sora 自然解锁了多种技能:

  • 自然语言理解,采用DALLE3 生成视频文本描述,用GPT丰富文本prompts ,作为合成数据训练Sora, 架起了GPT 与 Sora语言空间的更精确关联,等于在Token与Patch 之间统一了“文字”;
  • 图像视频作为prompts,用户提供的图像或视频可以自然的编码为时空碎片Patch,用于各种图像和视频编辑任务 – 静态图动画、扩展生成视频、视频连接或编辑等。

4. 扩展Transformer也适用于视频生成的发现

OpenAI在这项研究中发现,扩散型Transformer同样能在视频模型领域中完成高效扩展。

5. 视频多样化上的一些揭秘

和其他模型相比,Sora能够hold住各种尺寸的视频,包括不同分辨率、时长、宽高比等等。也在构图和布局上优化了更多,很多业内同类型模型都会盲目裁剪输出视频为正方形,造成主题元素只能部分展示,但Sora可以捕捉完整的场景,报告指出,这都要归功于OpenAI直接在视频数据的原始尺寸上进行了训练。

6. 语言理解方面上的功夫

OpenAI采用了DALL·E 3中引入的一种重新标注技术,将其应用于视频。除了使用描述性强的视频说明进行训练,OpenAI也用GPT来将用户简短的提示转换为更长的详细说明,然后发送给Sora。这一系列使得Sora的文字理解能力也相当给力。

关于技术的介绍报告没提太多,剩下的大篇幅都是围绕Sora的一系列效果展示,包括文转视频、视频转视频,以及图片生成。

四、总结

4.1 不足:难以模拟复杂场景,混淆提示词的空间细节

OpenAI坦言,当前Sora目前存在许多局限性,可能难以准确地模拟复杂场景的物理属性,比如玻璃破碎;也可能无法理解因果关系的具体实例。例如,一个人咬了一口饼干,但之后饼干上可能没有咬痕。

该模型还可能混淆提示的空间细节,例如,混淆左和右,并且可能难以精确描述随时间发生的事件,例如跟随特定的摄像机轨迹。

OpenAI强调说,在将Sora应用于OpenAI的产品之前,他们将采取一些重要的安全措施,包括与红队专家合作进行对抗性测试、构建检测分类器等工具来帮助检测误导性内容、计划在未来包含C2PA元数据等。

除了开发新技术为部署做准备外,OpenAI还利用了其为使用DALL·E 3的产品构建的现有安全方法,这些方法也适用于Sora。

4.2 未来:OpenAI终于下场,视频生成模型迎来重磅玩家!

随着OpenAI首款文生视频大模型Sora推出,去年已经如火如荼展开的文生视频大模型大战,今年俨然要通过卷向更强性能,开启落地之年。

其研究团队相信,Sora今天所拥有的能力表明,视频模型的持续扩展是一条很有前途的道路,可以开发出物理和数字世界的模拟器,以及生活在其中的物体、动物和人。

OpenAI承诺将与世界各地的政策制定者、教育工作者和艺术家接触,了解他们的担忧,并确定这项新技术的积极用例。

尽管进行了广泛的研究和测试,但OpenAI团队无法预测人们使用其技术的所有有益方式,也无法预测人们滥用它的所有方式。该团队相信随着时间的推移,从现实世界的使用中学习是创建和发布越来越安全的AI系统的关键组成部分。

如果Sora能够真正意义上实现文生视频,可能会带来哪些影响呢?

  1. 没有演员的影视作品出现,对演员来说是个小挑战,将出现真正的“虚拟偶像”,此前的二次元人物并没有真正达到“偶像”的级别。
  2. 利好编剧行业,剧本、文本创作力成为核心竞争力。
  3. Sora可能才是真正的文生视频,此前的文生视频大多只有2秒,仅仅是对象的小幅度移动。
  4. OpenAI继续拉大领先程度,对众多还在进行大模型测试打分pk的厂商,构成压力。
  5. 直接的影响是影视行业,特别是特效行业。使用AI来制作一些特效和高风险的镜头,可以大幅降低拍摄成本,也可以避免很多危险。
  6. 摄影师行业也会受到影响,用文本来生成一些视频,可以省去很多拍摄工作。
  7. 短视频流行开以后,视频剪辑师也随之成为一个热门职业。如果视频剪辑的工作可以用AI来代替,可能会有很多视频剪辑师失业。
  8. 对于很多短视频创作者来说,用AI来替代繁琐的剪辑工作,可以大幅提高工作效率。
  9. 很多歌手拍摄MV都是大成本制作,如果可以用AI来生成所需要的MV画面,也可以省去很大一部分制作成本。
  10. 另外,如果真正意义上的文生视频得以实现,可能会有不法份子利用这项技术实施新手段的违法犯罪。

不过,从Sora官网目前展示的视频画面效果来看,效果还没那么逼近真实,短期内不会产生让行业失业,但会有辅助作用,做个动画片应该问题不大。OpenAI表示,Sora是能够理解和模拟现实世界的模型的基础,OpenAI相信这一能力将是实现AGI的重要里程碑。

五、参考资料

  1. 刘润:OpenAI全新发布的Sora,到底意味着什么?

  2. 解读OpenAI Sora文生视频技术原理

  3. 人人都能看懂的Sora技术报告

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/393638.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言—指针

碎碎念:做指针题的时候我仿佛回到了原点&#xff0c;总觉得目的是为了把框架搭建起来&#xff0c;我胡说的哈31 1.利用指针变量将一个数组中的数据反向输出。 /*1.利用指针变量将一个数组中的数据反向输出。*/#include <stdio.h> #include <time.h> #include <…

常用类与基础API-String的理解和不可变性

1.String类的理解 1.1类的声明 public final class String >final &#xff1a;String是不可继承的。 >Serializable :可序列化的接口,凡是实现此接口的类的对象就可以通过网络或本地流进行数据的传输 >comparable:凡是实现此接口的类,其对象都可以比较大小. 1.…

【MySQL】多表关系的基本学习

&#x1f308;个人主页: Aileen_0v0 &#x1f525;热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​&#x1f4ab;个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-3oES1ZdkKIklfKzq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-siz…

基于8086单片机的数码管计时系统[proteus仿真]

基于8086单片机的数码管计时系统[proteus仿真] 8086仿真设计这个题目算是课程设计中常见的题目了&#xff0c;本期是一个基于8086单片机的数码管计时系统[proteus仿真] 需要的源文件和程序的小伙伴可以关注公众号【阿目分享嵌入式】&#xff0c;赞赏任意文章 2&#xffe5;&a…

Fiddler抓包(网页、手机、MUMU模拟器)

前置条件&#xff1a;电脑上下载安装好了Fiddler&#xff0c;有浏览器 一、网页抓包 1、fiddler下载安装证书 Tools-Options 勾选下面两个框 点击下面的选项&#xff0c;信任证书 会弹出弹窗&#xff0c;点击yes&#xff08;这个时候注意&#xff0c;DO_NOT_TRUST_FiddlerRo…

防御保护第五次作业

1,办公区设备可以通过电信链路和移动链路上网(多对多的NAT,并且需要保留一个公网IP不能用来转换) FW5&#xff1a; 2,分公司设备可以通过总公司的移动链路和电信链路访问到DMz区的http服务器 FW5&#xff1a; 注&#xff1a;记得通过安全策略放行 分公司FW3 注意&#xff1a…

Open CASCADE学习|曲线向曲面投影

在三维空间中&#xff0c;将曲线向曲面投影通常涉及复杂的几何计算。这个过程可以通过多种方法实现&#xff0c;但最常见的是使用数学和几何库&#xff0c;如OpenCASCADE&#xff0c;来处理这些计算。 在OpenCASCADE中&#xff0c;投影曲线到曲面通常涉及以下步骤&#xff1a;…

【plt.bar绘制条形图】:从入门到精通,只需一篇文章!【Matplotlib】

【&#x1f4ca;plt.bar绘制条形图】&#xff1a;从入门到精通&#xff0c;只需一篇文章&#xff01;【Matplotlib】 利用Matplotlib进行数据可视化示例 &#x1f335;文章目录&#x1f335; &#x1f50d; 一、初识plt.bar&#xff1a;条形图的基本概念&#x1f4a1; 二、plt.…

Spring Boot 笔记 025 主界面

1.1 路由搭建 1.1.1 安装vue router npm install vue-router4 1.1.2 在src/router/index.js中创建路由器&#xff0c;并导出 import { createRouter, createWebHistory } from vue-router//导入组件 import LoginVue from /views/Login.vue import LayoutVue from /views/La…

Eliminating Domain Bias for Federated Learning in Representation Space【文笔可参考】

文章及作者信息&#xff1a; NIPS2023 Jianqing Zhang 上海交通大学 之前中的NeurIPS23论文刚今天传到arxiv上&#xff0c;这次我把federated learning的每一轮看成是一次bi-directional knowledge transfer过程&#xff0c;提出了一种促进server和client之间bi-direction…

【机构vip教程】Requests(1):Requests模块简介与安装

Requests模块简介 在python的标准库中&#xff0c;虽然提供了urllib,utllib2,httplib&#xff0c;但是做接口测试&#xff0c;requests使用更加方便快捷&#xff0c;正如官方说的&#xff0c;“让HTTP服务人类”。 Requests是用python语言基于urllib编写的&#xff0c;采用的是…

【漏洞复现-通达OA】通达OA swfupload_new存在前台SQL注入漏洞

一、漏洞简介 通达OA(Office Anywhere网络智能办公系统)是由北京通达信科科技有限公司自主研发的协同办公自动化软件,是与中国企业管理实践相结合形成的综合管理办公平台。通达OA为各行业不同规模的众多用户提供信息化管理能力,包括流程审批、行政办公、日常事务、数据统计…

UVa1359/LA3491 Hills

题目链接 本题是2005年ICPC亚洲区域赛杭州欧赛区的H题 题意 平面上有 n&#xff08;n≤500&#xff09;条线段&#xff0c;其中每条线段的端点都不会在其他线段上。你的任务是数一数有多少个“没有被其他线段切到”的三角形&#xff08;即小山&#xff09;。如下图所示&#x…

初始树莓派 + VMware17 安装树莓派(Raspberry Pi 4B/5)

文章目录 树莓派入门 VMware17 安装树莓派(Raspberry Pi 4/5B)前言一、树莓派入门指南&#xff1a;从零开始探索树莓派树莓派4B和5对比 二、在VMware Workstation 17上安装树莓派4B/5操作系统&#xff1a;实现强大性能与便捷模拟工具准备开始安装树莓派1.创建一个虚拟机2. 选择…

[Docker实战] 旭日X3派上Docker Openwrt +Samba 实现局域网NAS 开启AP模式

​ &#x1f308; 博客个人主页&#xff1a;Chris在Coding &#x1f3a5; 本文所属专栏&#xff1a;[旭日X3派] [Docker实战] ❤️ 前置学习专栏&#xff1a;[Linux学习] ⏰ 我们仍在旅途 …

【C++】类与对象【定义、访问限定符、this指针】

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;http://t.csdnimg.cn/eCa5z 目录 面向过程和面向对象初步认识 类的引入 类的定义 成员变量命名规则的建议&#xff1a; 类的访问限定符及…

Java面试第一站:计算机网络基础知识

该系列会持续更新&#xff0c;关注我&#xff0c;第一时间获取我的最新动态哟 Java面试中&#xff0c;经常会问到跟计算机网络知识相关的考点&#xff0c;有的小伙伴不是很明白。考察网络知识有什么意义&#xff1f; 因为编程的时候&#xff0c;多数的情况下是不用我们来编写 …

单主模式和多主模式切换

1 组复制模式切换注意点 组复制有两种运行模式&#xff0c;一种是单主模式&#xff0c;一种是多主模式。这个模式是在整个组中设置的&#xff0c;由 group_replication_single_primary_mode 这个系统变量指定&#xff0c;而且在所有成员上必须保持一致。ON 表示单主模式&#…

OpenAI Sora视频生成机制:时空补丁

AI如何将静态图像转化为动态、逼真的视频&#xff1f;OpenAI 的 Sora 通过时空补丁&#xff08;spacetime patches&#xff09;的创新使用给出了答案。 独特的视频生成方法 在生成模型的世界中&#xff0c;我们看到了从 GAN 到自回归和扩散模型的许多方法&#xff0c;它们都有…

基于结点电压法的配电网状态估计算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 结点电压法的基本原理 4.2 结点电压法在配电网状态估计中的应用 5.完整程序 1.程序功能描述 基于结点电压法的配电网状态估计算法.对配电网实施有效控制和操作的前提是实时数据库中数据…