大模型之SORA技术学习

文章目录

  • sora的技术原理
  • 文字生成视频过程
  • sora的技术优势
    • 量大质优的视频预训练库
    • 算力多,采样步骤多,更精细。
    • GPT解释力更强,提示词(Prompt)表现更好
  • 使用场景
  • 参考

Sora改变AI认知方式,开启走向【世界模拟器】的史诗级的漫漫征途,才是未来暴风眼,真正的重点。

Sora并没有理解整个世界和诸多物理细节,常识及定律,而是根据GPT语义解释能力、丰富的联想和丰富度,基于海量的视频库,抄写视频片段并猜视频下一帧,并使用Diffusion、GAN(对抗式生成网络技术)将多个视频片段混合在一起,产生稳定且连续的短视频。

Yann LeCun(ACM图灵奖得主,纽约大学教授。Meta首席人工智能科学家)针对Sora的评论。大意是:

让我在这里澄清一个巨大的误解。从提示文字,生成看起来相当逼真的视频,并不意味着,这个系统理解物理世界。生成一个视频,和基于世界模型的因果预测,大不相同。目前这种生成式的方向,代价高昂,可能还有更好的法子。
在这里插入图片描述

sora的技术原理

结合了 Diffusion model(扩散模型)和 Transformer 技术,以确保视频内容与文本描述紧密相连
Sora的官方技术报告详见:
Sora官方的技术报告:Video generation models as world simulators

  1. 主要功能和目标
    • 目前,Sora 的主要功能是将文本输入转换成视频输出。这包括但不限于将故事、说明或命令转化为相应的视频。
    • Sora 的目标是创建一个能够理解复杂文本描述并将其转化为高质量视频内容的系统。
    • 官方的声明指出,Sora 的最终目标是向一个“通用物理世界模拟器”的方向迈进,即成为一个能够模拟真实世界的复杂互动和动态环境的强大工具。
  2. 训练流程包括以下步骤:
    • 收集视频数据与标注信息。
    • 训练图片字幕模型。
    • 利用 GPT-4 丰富视频描述。
    • 切分视频为 Patches。
    • 应用视频压缩模型。
    • 在潜在空间中处理视频数据。
    • 应用扩散模型与 Transformer 进行训练。
    • 最终恢复高清视频。
  3. 核心模块
    • Transformer 结构:这是一种深度学习模型的架构,最初用于自然语言处理,现在被广泛应用于各种领域,包括 Sora 的几个组件。
    • Diffusion model:用于逐步去除视频中的噪声,从而生成清晰的图像场景。

文字生成视频过程

  • 提供一段文字:依靠GPT语义解释能力、丰富的联想和丰富度,产生针对视频内容详细的描述。如文本是:“散步在夜晚东京街道上”,GPT发挥想象力,联想出一堆词和关联“高楼”、“繁华夜景”等等。它联想力越丰富,Sora能关联到的时空碎块就越多越准。
  • Diffusion:作为一个画师,根据关键词特征值对应的可能性概率,在海量视频库到处翻,看看抄哪一个碎块比较像,看哪个像,就猜对应的下一笔要落在什么地方。重复很多步
  • 通过Diffusion和Transformer共同联想,死记硬背,从巨大视频库里生拉硬拽,配合GAN(对抗式生成网络技术),把这些一张张碎块拼成图,再拼接成一个序列,每秒播放几十张,视频就出来了
    在这里插入图片描述

sora的技术优势

Sora实际上对于Pika等,只是量变,都是差不多的技术和原理,没有质变。但几乎达到了近似质变的效果了。原因在于:

量大质优的视频预训练库

大力出奇迹,是OpenAI的基因。

到底花了多少钱在高质量的视频素材上,搜集了多少的视频库,只有OpenAI自己知道。但可以肯定的是,远远不是Pika等创业团队所能比的。

记得多,才能抄的好,混得妙。

甚至,现在的视频量已经不能满足OpenAI的需求了。已经被爆料,OpenAI的视频库,大量使用了UE5生成的视频来做补充和训练。我们看到的赛车那个视频就是。

Pika、Runway、Stable Video和Sora有时候会撞车:都使用了同一个素材加到库中。那么使用一样类似的关键词,可能就能调出一模一样的元素。

算力多,采样步骤多,更精细。

不同采样和计算步骤后,通过同一个视频库“猜”的步骤越多,加的东西越细,效果越好。做32倍运算的效果,就明显好于4倍的效果。
还是大力出奇迹,OpenAI不变的配方和味道。

那么请问,Pika等创业公司能有多少张GPU卡呢?
Sora能土豪的用32倍,1080p,渲染1分钟的视频。创业公司能用多少,4倍,360p,4-8秒,已经足够把钱烧光了…
画面精致度怎么比?时长怎么比?不公平。

Diffusion的不稳定性通病,在Pika等产品中已经表现无疑。
Sora和他们完全不在一个层次上,稳定性很好。已经不能完全用数据和算力来解释了。一定是采用了GAN(对抗式生成网络技术)这个增强连续性的技术。

生成的视频效果比较见下图:
在这里插入图片描述

GPT解释力更强,提示词(Prompt)表现更好

对一段提示词或提示句子,GPT能展开的联想和丰富度,是决定了Sora抄什么,能猜多准的。
OpenAI的GPT能力天下第一,开源模型无能撼动。
所以,不幸的是,Pika等创业公司大多还是要依靠OpenAI的GPT能力

那么,问题来了,亲儿子能用的,一定胜过外部客户能用到的深度和广度
第二个点,就是外部公司的视频库和GPT联想能力不能首尾配对;但是Sora可以啊,GPT是自家的,视频库也是自家的,两者直接****关联的精准度以及调取的效率,完全是外部客户不能比的。

使用场景

  • 生成创意素材。通过剪辑和局部使用,做出自己的成品。对于自媒体行业是一大利好。
  • 生成概念片和内部讨论稿,极大的加快创意沟通的效率。
  • 利用它的连续性,结合一些3D工具,快速建模。已经有人在做了,但效果还待改进。推荐大家看看B站UP主设计师的AI工具箱的Sora建模实践, 调试的好,是个路子。

参考

3原理+1揭秘,将Sora拉下神坛

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/427344.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Arduino应用开发——使用GUI-Guider制作LVGL UI并导入ESP32运行

Arduino应用开发——使用GUI-Guider制作LVGL UI并导入ESP32运行 目录 Arduino应用开发——使用GUI-Guider制作LVGL UI并导入ESP32运行前言1 使用GUI-Guider设计UI1.1 创建工程1.2 设计UI 2 ESP工程导入UI2.1 移植LVGL2.2 移植UI文件2.3 调用UI文件2.4 烧录测试 结束语 前言 GU…

(UE4升级UE5)Selected Level Actor节点升级到UE5

本问所用工具为: UE5 UE4 插件AssetDeveTool包含:快速选择功能自动化批量LOD功能自动化批量展UV功能自动化批量减面功能自动化批量修改查找替换材质功能批量重命名工具碰撞器修改工具资源整理工具支持4.26 - 5.3版本https://mbd.pub/o/bread/mbd-ZZubkp…

Manomotion 实现AR手势互动-解决手势无效的问题

之前就玩过 Manomotion ,现在有新需求,重新接入发现不能用了,不管什么办法,都识别不了手势,我记得当初是直接调用就可以的。 经过研究发现,新版本SDK改了写法。下边就写一下新版本的调用,并且实…

Windows如何安装docker-desktop

下载 docker-desktop设置环境安装wsl可能遇到的错误 下载 docker-desktop 下载官网:https://www.docker.com/products/docker-desktop/ 设置环境 如果没有Hyper-V选项的,按照以下步骤 添加一个文件Hyper-V.bat 添加以下内容,并双击运行后重启电脑 pushd "%~…

Android sutdio 4.1.2版本Gradle 构建和打包慢解决方法,亲测有效

1在设置里面的Gradle 找到这个目录 进入后 新建文件, gradle.properties 输入设置 并保存 org.gradle.daemontrue 项目第一次加载构建过程比较慢,需要等,完成后,修改下面的配置 gradle-3.3-all.zip 这个文件可以先提前下载好&am…

AI日报:埃隆·马斯克起诉OpenAI

埃隆马斯克(ElonMusk)正在起诉OpenAI涉嫌违约,声称这位ChatGPT的创建者违反了其成为非营利组织的创始承诺,这位科技亿万富翁表示,他资助并培育了这一承诺。 在一份长达46页的爆炸性投诉中,马斯克将OpenAI首…

分布式ID生成算法|雪花算法 Snowflake | Go实现

写在前面 在分布式领域中,不可避免的需要生成一个全局唯一ID。而在近几年的发展中有许多分布式ID生成算法,比较经典的就是 Twitter 的雪花算法(Snowflake Algorithm)。当然国内也有美团的基于snowflake改进的Leaf算法。那么今天我们就来介绍一下雪花算法…

图书管理系统的设计与实现

** 🍅点赞收藏关注 → 私信领取本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅** 一 、设计说明 1.1 课题…

数据结构之树结构(下)

各种各样的大树 平衡二叉树 (AVL树) 普通二叉树存在的问题 左子树全部为空,从形式上看,更像一个单链表 插入速度没有影响 查询速度明显降低(因为需要依次比较),不能发挥BST的优势,因为每次还需要比较左子…

Unity 脚本-生命周期常用函数

在Unity中,万物皆是由组件构成的。 右键创建C#脚本,拖动脚本到某物体的组件列表。 生命周期相关函数 using System.Collections; using System.Collections.Generic; using UnityEngine;// 必须要继承 MonoBehaviour 才是一个组件 // 类名…

AirPods Pro 2 耳机推送新固件,苹果Find My功能助力产品成长

苹果公司面向 AirPods Pro 2(包括 USB-C 和 Lightning 版本),推出了全新的测试版固件更新,版本号为 6E188,高于 12 月份发布的 6B34 固件。 苹果和往常一样,并没有提供详细的更新日志或者说明&#xff0c…

实战——dynamic TP 可视化动态修改线程池参数配置

背景 开发环境 springboot版本号&#xff1a;2.3.12.RELEASE 集成SpringBoot 1、使用apollo动态修改线程池配置 2、使用undertow容器 3、添加maven依赖 <!-- 动态线程池适配器&#xff0c;位置要在undertow依赖前&#xff0c;否则启动报错 --><dependency><g…

用pyinstaller打包python代码为exe可执行文件并在其他电脑运行的方法

本文介绍基于Python语言中的pyinstaller模块&#xff0c;将写好的.py格式的Python代码及其所用到的所有第三方库打包&#xff0c;生成.exe格式的可执行文件&#xff0c;从而方便地在其他环境、其他电脑中直接执行这一可执行文件的方法。 有时&#xff0c;我们希望将自己电脑上的…

【外汇天眼】外汇交易风险预警:吊销牌照与高风险平台一览

监管信息早知道&#xff01;外汇天眼将每周定期公布监管牌照状态发生变化的交易商&#xff0c;以供投资者参考&#xff0c;规避投资风险。如果平台天眼评分过高&#xff0c;建议投资者谨慎选择&#xff0c;因为在外汇天眼评分高不代表平台没问题&#xff01; 以下是监管牌照发生…

错误: 找不到或无法加载主类 com.zql.springbootTest.SpringbootTestApplication

首先查看application.properties是否出现问题 然后可以尝试 maven install

从基础到高级:Go 语言中 Base32 编码的全面指南

从基础到高级&#xff1a;Go 语言中 Base32 编码的全面指南 引言基础知识base32 编码简介为什么选择 base32 encoding/base32 包概览包的结构和主要类型基本概念 实战教程开始使用 encoding/base32设置开发环境基本的 base32 编码示例解码示例 深入编码细节使用不同的编码表 错…

重保利器,企业安全巡查!亚信安全外部攻击面管理服务可以试用啦

重大安全保障期间 信息系统的稳定与安全至关重要 守在明&#xff0c;攻在暗 传统的防护多始于已知资产的保护 而未知影子资产 则很可能成为攻击者长驱直入的攻击路径 号外号外&#xff01; 亚信安全“外部攻击面管理服务” 即日起&#xff0c;面向新用户 限时试用&…

上门家政服务APP如何开发?看这一篇文章就够了

当下生活节奏快&#xff0c;工作压力大&#xff0c;人们往往无暇处理家务。上门家政APP因此成为刚需&#xff0c;提供便捷、高效的家政服务&#xff0c;满足用户各类需求&#xff0c;解放时间精力。得益于其透明的价格、严格审核的服务人员及用户评价系统&#xff0c;上门家政A…

为什么要学习三维GIS开发?从技术层面告诉你答案

大家都知道GIS开发属于GIS行业中就业薪资较高的岗位&#xff0c;并且测绘、遥感以及城规等相关专业的毕业生纷纷转行做webgis开发。 那么&#xff0c;今天小编从技术层面探讨一下&#xff0c;为什么建议大家不要仅仅停留在webgis&#xff0c;而要继续往前学习三维GIS开发&…

PclSharp1.12.0--均匀采样

一、均匀采样 均匀采样的原理类似于体素化网格采样方法&#xff0c;同样是将点云空间进行划分&#xff0c;不过是以半径r的球体&#xff0c;在当前球体所有点中选择距离球体中心最近的点替代所有点&#xff0c;注意&#xff0c;此时点的位置是不发生移动的。 球体半径选取越大…