Sora技术和影响分析

与现有生成工具比的优势

现有的文生图工具有Midjourney、Stable Diffusion、文心一格等,支持不同风格的内容生成,支持lora模型训练,此领域发展相对比较成熟。

而在文生视频领域,其难度相对更高,要求画面连续、清晰度高、时长、符合物理规律等。在sora出现之前,Runway和Pika都被认为是视频生成赛道的佼佼者。

Sora最牛的地方,是完整的理解这个世界的知识,以前文生图和文生视频,都是在2D平面上对图形元素进行操作,没有适应物理定律,而这次,Sora实现了现实世界的理解和对世界的模拟两层能力,这样的视频产生才是真实的,跳出了2D范围模拟真实的物理世界,这是大模型最大的功劳,这样可以创造各领域里面的超级工具。

技术原理

Sora: Creating video from text

ModelScope小助理:复刻Sora有多难?一张图带你读懂Sora的技术路径

技术要点,我理解可能包括以下三个方面:

(1)视频压缩网络:生成时空patch

(2)patch生成transformer:用于生成下一个patch的transformer

(3)patch扩散成视频的网络

这里的patch即chatgpt中的token,简单又可扩展,是成功的关键。同时sora也是多个技术的结合体,整体还是比较复杂的,技术报告也只说明了一小部分。

1、视频压缩网络

OpenAI在之前的Clip等工作中,充分实践了分块是视觉数据模型的一种有效表示(参考论文:An image is worth 16x16 words: Transformers for image recognition at scale.)这一技术路线。而视频压缩网络的工作就是将高维度的视频数据转换为patches,首先讲视频压缩到一个低纬的latent space,然后分解为spacetime patches。

2、用于视频生成的Scaling Transformers

Sora是一个diffusion模型;给定输入的噪声块+文本prompt,它被训练来预测原始的“干净”分块。重要的是,Sora是一个Scaling Transformers。Transformers在大语言模型上展示了显著的扩展性,我们相信OpenAI将很多在大语言模型的技术积累用在了Sora上。

3、语言理解

OpenAI发现训练文本到视频生成系统需要大量带有相应文本标题的视频。这里,OpenAI将DALL·E 3中介绍的标题生成技术用到了视频领域,训练了一个具备高度描述性的视频标题生成(video captioning)模型,使用这个模型为所有的视频训练数据生成了高质量文本标题,再将视频和高质量标题作为视频文本对进行训练。通过这样的高质量的训练数据,保障了文本(prompt)和视频数据之间高度的align。而在生成阶段,Sora会基于OpenAI的GPT模型对于用户的prompt进行改写,生成高质量且具备很好描述性的高质量prompt,再送到视频生成模型完成生成工作。

4、世界模型,涌现的模拟能力

当大规模训练时,sora同样也出现了有趣的“涌现的模拟能力”,这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面。这些属性没有任何明确的三维、物体等归纳特征信息——可以理解为由于模型参数足够大而产生的涌现现象。

这些能力包括:

  • 三维一致性。Sora可以生成具有动态摄像机移动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中一致地移动。
  • 长距离连贯性和物体持久性。对于视频生成系统来说,一个重大挑战一直是在采样长视频时保持时间上的连续性。研究发现,Sora通常能够有效地模拟短距离和长距离依赖关系(不稳定)。例如,Sora可以在人物、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样,它可以在单个样本中生成同一角色的多个镜头,贯穿视频始终保持他们的外观。
  • 与世界互动。 Sora可以模拟以简单方式影响世界状态的行为。例如,画家可以在画布上留下新的笔触,这些笔触随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
  • 模拟数字世界。 Sora还能够模拟人工过程,一个例子是视频游戏。Sora可以通过基本策略控制《Minecraft》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过prompt包含“Minecraft”,零样本激活这样的能力。

技术难点:“大”模型,“高”算力,“海量”数据。在报告中,OpenAI在不停提到“大力出奇迹”的效果。

其他功能

上面和我们的登录页中的所有结果都显示了文本到视频的示例。但Sora也可以被其他输入提示,例如预先存在的图像或视频。这一功能使Sora能够执行广泛的图像和视频编辑任务——创建完美循环的视频、为静态图像设置动画、在时间上向前或向后扩展视频等。

我们还可以使用Sora在两个输入视频之间逐渐插值,在具有完全不同主题和场景组成的视频之间创建无缝过渡。在下面的示例中,中心的视频在左侧和右侧的相应视频之间进行插值。

Sora还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种尺寸的图像,分辨率高达2048x2048。

技术进一步解读

相较于Runway、Stable Video Diffusion和PIKA等纯粹是基于扩散模型(Diffusion Model)架构的

技术路线相比,我觉得Sora最大的区别是使用了Diffusion-Transformer(DiT)架构。

传统的扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

Sora 则是一个融合了Transformer Diffusion 两者的模型。通过 Transformer 的encoder- decoder架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

DiT模型结构示意图

毫无疑问,从模型架构上来看,Sora使用的Diffusion-Transformer(DiT)架构,是将在LLM的Transformer架构和Text to Image领域的Diffusion架构做了一次融合。并且这项融合模型结构的提出者也不是openAI。而是发表在ICCV 2023的一篇论文《Scalable Diffusion Models with Transformers》中被提出的,但是openAI却是第一个使用这种架构在大规模数据上进行训练的。简单来说,Diffusion-Transformer(DiT)是一个带有Transformer Backbone骨干的扩散模型: DiT = [VAE编码器 + ViT + DDPM + VAE解码器]

本段参考:最强文生视频模型 SORA 超详细解读 - 知乎

技术局限

Sora目前作为一个模拟器表现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化。我们在登录页中列举了该模型的其他常见故障模式,如长时间样本中出现的不相干或对象的自发出现。

我们相信,Sora今天的能力表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条很有前途的道路。

对影视行业的影响

从功能介绍中可以看出,可以文生视频、视频衔接、视频前后续写等。无疑会降低创作成本,在各个层面都有很好的应用。但对于文生成视频而言,由于生成后的内容修改成本大,所以只适用于对视频要求不那么高或者无能力制作的小影视公司或自媒体从业者。对于他们而言是一个利好,甚至对于色情行业,这都是一个机会

而视频衔接、视频前后续写等功能,则商业大片也可以直接用,降低动效制作成本。甚至改变原有后期的制作模式。

对AGI的发展贡献

CHatGPT和Sora都表明,当模型到一定规模之后,具备涌现能力,在语言方面表现出逻辑推理能力,在视频方面表现出对物理世界的模拟能力

这是一个不错的方向,但不一定是正确的方向,看起来离AGI越来越近,但可能由于技术路径问题永远无法达到。正如ChatGPT出现以来的幻觉问题,实际上是一个概率问题,你永远无法通过模型本身修复

AI方面的核心竞争力

是数据积累吗?是芯片算力限制吗?都不是

我比较认同周鸿祎的一个观点是人才的密度和技术深度的积累。

以下来自Pika创始人关于“现在技术突破上最大的一个难题是什么?“问题的回答,也证实了这一点。

郭文景:我觉得视频跟语言模型不太一样,关于语言模型大家已经知道大概的方法,算法其实已经比较成熟了。但视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的GPU不够多,很多时候其实是算法上还没有很好的一个思路

举例子来说,比如现在大部分常用的视频模型,根据设计来讲,它就不可能生成很长的视频,因为它每一帧的图片是一起生成的。它有一些算法上的瓶颈,无法做出我们想象的那种非常长、非常好的视频。它其实还需要一些算法知识上的突破。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/393291.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OpenMVG(特征匹配、照片组重建点云、GPS位置信息、GMS)

目录 1 图像的特征匹配 2 图像中提取GPS位置信息 2.1 写入GPS信息到图像中 2.2 读取带有GPS的图像 3 SIFT/AKAZE/AKAZE_MLDB特征提取对比 4 GMS Filter 5 将球形全景图转换为6个透视视图 6 照片组重建点云 1 图像的特征匹配 #include "openMVG/features/feature.…

BUGKU-WEB source

题目描述 题目截图如下: 进入场景看看: 解题思路 看源码,看F12网络请求没有东西只能老老实实按照提示用Linux去扫描目录 相关工具 kali虚拟机安装gobuster 或者dirsearch 解题步骤 先查看源码: flag{Zmxhz19ub3RfaGvyzS…

Ubuntu22.04LTS编译Frida历史版本,环境配制及细节调整

经常使用Frida的朋友们可能会遇到Frida的各种问题需要自定义的,而这时候Frida的本地编译就显得很重要了。 最近一位朋友发现使用Frida14/15/16版的server只能连拉一定数量的设备,超过了frida-device-manager便不能连接设备。 实现没有办法,…

vue创建项目报:Error: command failed: yarn

我的文件在:C:\Users\Administrator 下 原来里面 useTaobaoRegistry 是否使用淘宝源 是 false ,我改为true就好了 也可以 packageManager 默认安装工具 改为 npm 或 cnpm 原文连接:vue创建项目报:Error: command failed: yarn-阿…

Stable Diffusion教程——常用插件安装与测试(一)

前言 随着Stable Diffusion不断演进,越来越多的开发者开始涉足插件开发。尽管网络上存在大量教程,但它们通常零散分布,逐个学习和查找非常耗时,使人感觉每天都在劳累思考。这里总结了Stable Diffusion常用的插件安装与测试方法。…

搭建智能调度系统:同城代驾小程序的开发教学

当下,同城代驾服务越来越受到人们的青睐。为了满足市场需求,许多企业开始开发智能调度系统,以提高服务效率和用户体验。本文将介绍如何搭建一个智能调度系统,并以同城代驾小程序的开发为例进行详细教学。 第一步:需求…

科技守护大唐遗宝,预防保护传承千年

​ 一、“大唐遗宝——何家村窖藏出土文物展” 陕西历史博物馆的“唐朝遗宝——何家村窖藏出土文物展”算得上是博物馆展览的典范。展览不仅在于展现了数量之多、等级之高、种类之全,更在于对唐朝历史文化的深入揭露。 走入大唐财产展厅,好像穿越千年前…

The Captainz NFT 概览与数据分析

作者:stellafootprint.network 编译:cicifootprint.network 数据源:The Captainz NFT Collection Dashboard The Captainz 是 Memeland 的旗舰系列,由 9,999 个实用性极强的 PFP 组成。持有者在 Memeland 宇宙中展开了一场神…

【Python】测量WAV文件播放时长

问题 windows播放WAV音频文件,一般使用API函数,如PlaySound。实际使用发现,从调用PlaySound到实际开始播放存在200ms以上的延时,在游戏编程中音效实时性是个需要解决的问题。 本文主要讨论,windows播放WAV文件的衍生…

2024 VNCTF----misc---sqlshark sql盲注+流量分析

流量分析 wireshark 可以看到很多 any/**/Or/**/(iF(((((Ord(sUbstr((sElect(grOup_cOncat(password))frOm(users)) frOm 1 fOr 1))))in(80))),1,0))# P any/**/Or/**/(iF(((((Ord(sUbstr((sElect(grOup_cOncat(password))frOm(users)) frOm 1 fOr 1))))in(104))),1,0))#…

基于springboot智慧外贸平台源码和论文

网络的广泛应用给生活带来了十分的便利。所以把智慧外贸管理与现在网络相结合,利用java技术建设智慧外贸平台,实现智慧外贸的信息化。则对于进一步提高智慧外贸管理发展,丰富智慧外贸管理经验能起到不少的促进作用。 智慧外贸平台能够通过互…

Vue3

目录 一、 Vue3简介 1. 性能的提升 2. 源码的升级 3. 拥抱TypeScript 4. 新的特性 二、 创建Vue3工程 1. 基于 vue-cli 创建 2. 基于 vite 创建(推荐) 3. 一个简单的效果 三、Vue3核心语法 1. OptionsAPI 与 CompositionAPI (1)Options API …

前端vue金额用逗号分隔

实现效果 代码 template部分 <el-input v-model"state.val"></el-input><div>{{ priceFor(state.val) }}</div> js部分 const state reactive({ val: });const priceFor (val)> {if(!val){return }else if(val.length<4){return…

IP定位技术助力网络安全保护

随着网络技术的不断发展&#xff0c;网络安全问题日益凸显&#xff0c;如何有效保护网络安全已成为亟待解决的问题。IP定位技术作为一种前沿的网络安全防护手段&#xff0c;正在逐步成为网络安全保护的重要工具。 首先&#xff0c;我们要明确什么是IP定位技术。IP定位技术是一…

Instagram 账号被封如何申诉?ins账号解封经验分享

不知道各位在玩转海外社媒平台时有没有遇到过Instagram账号异常的情况&#xff0c;比如会出现账号受限、帖子发不出去、账号被封号等情况?Instagram账号如果被封不用马上弃用&#xff0c;我们可以先尝试一下申诉&#xff0c;看看能不能把账号解封。所以今天将会出一篇Instagra…

OpenAI视频生成模型Sora背后的技术及其深远的影响

前言 Sora的视频生成技术在保真度、长度、稳定性、一致性、分辨率和文字理解等方面都达到了当前最优水平。其核心技术包括使用视觉块编码将不同格式的视频统一编码成Transformer可训练的嵌入向量&#xff0c;以及类似于扩散过程的UNet方法进行降维和升维的加噪与去噪操作。通过…

19.Qt 组合框的实现和应用

目录 前言&#xff1a; 技能&#xff1a; 内容&#xff1a; 1. 界面 2.槽 3.样式表 参考&#xff1a; 前言&#xff1a; 学习QCombox控件的使用 技能&#xff1a; 简单实现组合框效果 内容&#xff1a; 1. 界面 在ui编辑界面找到input widget里面的comboBox&#xff…

Cesium 问题——加载 gltf 格式的模型之后太小,如何让相机视角拉近

文章目录 问题分析问题 刚加载的模型太小,如何拉近视角放大 分析 在这里有两种方式进行拉近视角, 一种是点击复位进行视角拉近一种是刚加载就直接拉近视角// 模型三加载 this.damModel = new Cesium.Entity({name: "gltf模型",position:</

【HarmonyOS】鸿蒙开发之TextInput组件——第3.3章

textInput属性 代码展示 Column(){Row(){Text("默认类型").margin({right:10})TextInput().width(60%).height(45)}.margin({bottom:10})Row(){Text("自定义样式").margin({right:10})TextInput().width(60%).height(45).fontColor(Color.Brown).enterKe…

LabVIEW轨道交通列车牵引制动试验平台

LabVIEW轨道交通列车牵引制动试验平台 概述 面对城市轨道交通领域对于高效、准确牵引制动系统的迫切需求&#xff0c;开发了一套基于LabVIEW软件与硬件相结合的试验平台。该平台模拟列车的牵引、制动等工况&#xff0c;通过高精度的数据采集与实时图形化展示&#xff0c;提升…