OpenAI 发布文生视频大模型 Sora,AI 视频要变天了,视频创作重新洗牌!AGI 还远吗?

一、一觉醒来,AI 视频已变天

早上一觉醒来,群里和朋友圈又被刷屏了。

今年开年 AI 界最大的震撼事件:OpenAI 发布了他们的文生视频大模型 Sora。

OpenAI 文生视频大模型 Sora 的横空出世,预示着 AI 视频要变天了,视频创作领域要重新洗牌!

啥都不说,先来感受一番:

OpenAI Sora 生成视频

再来看看其他由 Sora 生成的视频:

OpenAI Sora 示例视频 big-sur

你还能辨得出真假吗?

OpenAI Sora 示例视频 Kangroo

更多视频效果,大家可以去 OpenAI 的官网浏览。

传送门:https://openai.com/sora

看了 OpenAI 官网 Sora 做出的视频效果,说 Sora 目前是 「AI 视频领域的地表最强」,应该没有人反对吧。

二、OpenAI Sora 有哪些技术突破

一)视频时长的突破

之前更新了一个 AI 视频工具的系列专栏,有的小伙伴私信找我说,为什么推荐的这些 AI 视频工具,都只能生成几秒的视频呀。

确实,在 OpenAI 的 Sora 横空出世之前,AI 视频工具还没有突破视频时长的限制。基本都只能生成几秒的视频。

如果想通过 AI 视频工具生成视频,来做自媒体或其他用途,需要多次生成,再用一些剪辑、特效工具加工后,才能出片。

而 Sora 的出现,突破了 AI 视频领域的这一限制,可以直接生成长达一分钟的视频。

提到时长,瞬间觉得 Pika、Runway 等 AI 视频工具不香了。

二)世界模型

除了视频时长有突破外,Sora 模型不仅了解用户在提示词中要求的内容,还了解这些东西「在物理世界中的存在方式」。

之前听过卡兹克大佬一个关于 AI 视频的分享,在分享中,也提到了「物理规律」这个概念。

比如一拳抡到一个怪物的头上,它是有一个物体的交互的,整个视频的呈现,都是要符合物理世界的规律。

但在 Sora 之前的 AI 视频工具中,这块并没有突破。

而这块如果没有突破,AI 生成的视频,是很难应用到影视或者工业这块的。

但 Sora 的出现,让我们看到了可能性。

比如官网上的这个示例视频,枕头和被子的凹陷,都呈现得非常真实。

OpenAI Sora 官方示例视频 cat-on-bed

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

提示词:一只猫叫醒熟睡的主人要求吃早餐。主人试图无视猫,但猫尝试了新的策略,最后主人从枕头下掏出一个秘密的零食藏匿处,让猫多呆一会儿。

三)单视频多角度镜头

另外,Sora 还可以在单个生成的视频中创建多个角度的镜头,且「一致性」和「稳定性」强得惊人。

这在之前的 AI 视频工具中,是远远达不到的。

可以看官网的视频示例。

三、OpenAI Sora 目前有哪些缺陷

虽然 OpenAI 的 Sora 已经在技术上有了很大突破,但依然存在一些缺陷。

比如,它可能难以准确地模拟复杂场景的物理现象,也可能无法理解因果关系的具体实例。

官方也举了一个例子。

比如,一个人可能咬了一口饼干,但是之后,饼干上可能没有咬痕。

除此之外,该模型还可能混淆提示的空间细节。

例如,左右混淆,并且可能难以精确描述随时间推移发生的事件,比如遵循特定的相机轨迹。

四、OpenAI Sora 技术实现

Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。

Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧,解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。

与 GPT 模型类似,Sora 使用 transformer 架构,释放出卓越的扩展性能。

将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁都类似于 GPT 中的一个 token。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。

Sora建立在 DALL·E 和 GPT 模型上。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。

除了能够仅根据文本说明生成视频外,Sora 模型还能够获取现有的静止图像并从中生成视频,从而准确无误地对图像内容进行动画处理,并注重小细节。

该模型还可以拍摄现有视频并对其进行扩展或填充缺失的帧。

更多技术细节,请参考:

https://openai.com/research/video-generation-models-as-world-simulators

一觉醒来,Sora 已颠覆 AI 视频领域,视频、影视、广告等行业将重新洗牌,AGI 还远吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/391352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Google Gemini 1.5:引领跨模态AIGC信息分析理解与视频内容推理的新篇章,与 Open AI 决一高下!

Gemini 1.5具有100万token的上下文理解能力,是目前最强!具有跨模态理解和推理:能够对文本、代码、图像、音频和视频进行高度复杂的理解和推理。允许分析1小时视频、11小时音频、超过30,000行代码或超过700,000字的文本。不过谷歌这个Gemini 1…

简单聊聊k8s,和docker之间的关系

前言 随着云原生和微服务架构的快速发展,Kubernetes和Docker已经成为了两个重要的技术。但是有小伙伴通常对这两个技术的关系产生疑惑: 既然有了docker,为什么又出来一个k8s? 它俩之间是竞品的关系吗? 傻傻分不清。…

数据预处理 —— AI算法初识

一、预处理原因 AI算法对数据进行预处理的原因主要基于以下几个核心要点: 1. **数据清洗**: - 数据通常包含缺失值、异常值或错误记录,这些都会干扰模型训练和预测准确性。通过预处理可以识别并填充/删除这些不完整或有问题的数据。 2. **数…

问题记录——c++ sort 函数 和 严格弱序比较

引出 看下面这段cmp函数的定义 //按照vector第一个元素升序排序 static bool cmp(const vector<int>& a, const vector<int>& b){return a[0] < b[0]; }int eraseOverlapIntervals(vector<vector<int>>& intervals) {//按区间左端排序…

C语言strlen和sizeof的区别

strlen和sizeof没有联系 前者是库函数&#xff0c;统计长度的标志是是否有\0 后者是操作符。计算长度的标志是字节数量。

2024阿里云服务器租用价格表大全_1年费用_一个月_1小时收费

2024年最新阿里云服务器租用费用优惠价格表&#xff0c;轻量2核2G3M带宽轻量服务器一年61元&#xff0c;折合5元1个月&#xff0c;新老用户同享99元一年服务器&#xff0c;2核4G5M服务器ECS优惠价199元一年&#xff0c;2核4G4M轻量服务器165元一年&#xff0c;2核4G服务器30元3…

老师的“神秘武器”——教育战线的宝藏工具

每次考试成绩发布&#xff0c;是不是总让你头疼不已&#xff1f;面对一摞摞试卷&#xff0c;一个个需要手动输入的成绩&#xff0c;你是否也感到力不从心&#xff1f;别急&#xff0c;今天我就为大家揭秘老师们的“神秘武器”——那些在教育战线上&#xff0c;让老师们事半功倍…

CSDN如何获得更多勋章?

文章目录 前言一、如何找到自己的勋章&#xff1f;二、如何获得更多勋章&#xff1f;三、重点勋章、易得勋章介绍&推荐1.创作能手2.五一创作勋章3.创作纪念日IT一周年勋章4.新秀勋章5.话题达人6.128天创作纪念日&#xff08;IT博客专属&#xff09;7.GitHub绑定勋章8.其他 …

你逛过凌晨四点的校园吗?2023年终总结

前言&#xff1a; Hello大家好&#xff0c;我是Dream。 又是一年的年终总结&#xff0c;我也迎来了自己的毕业季&#xff0c;没错&#xff0c;我马上要毕业啦&#xff01;不知道大家是什么时候认识我的呢&#xff0c;又或者是第一次发现我~这一年&#xff0c;迎接过朝阳、拍下过…

【Webpack】处理字体图标和音视频资源

处理字体图标资源 1. 下载字体图标文件 打开阿里巴巴矢量图标库open in new window选择想要的图标添加到购物车&#xff0c;统一下载到本地 2. 添加字体图标资源 src/fonts/iconfont.ttf src/fonts/iconfont.woff src/fonts/iconfont.woff2 src/css/iconfont.css 注意字体…

C语言—函数

1.编写一个函数&#xff0c;通过输入一个数字字符&#xff0c;返回该数字29. /*1.编写一个函数&#xff0c;通过输入一个数字字符&#xff0c;返回该数字 */#include <stdio.h>//函数定义,返回类型为int int char_num(char c) {if(c > 0 && c < 9) //检查…

【Java程序员面试专栏 Java领域】Java集合 核心面试指引

关于Java 集合部分的核心知识进行一网打尽,主要包括Java各类集合以及Java的HashMap底层原理,通过一篇文章串联面试重点,并且帮助加强日常基础知识的理解,全局思维导图如下所示 集合基本概念和比较 关于集合的基本分类和知识 Java集合有哪些种类 Java 集合, 也叫作容器…

读书笔记之《神经科学讲什么》:神经科学的知与不知

《神经科学讲什么——我们究竟该如何理解心智、意识和语言》的作者是罗伯特伯顿 Robert A. Burton&#xff0c; 原作名: A Skeptics Guide to the Mind: What Neuroscience Can and Cannot Tell Us About Ourselves&#xff0c;于2017年出版。 罗伯特伯顿&#xff08;Robert A…

【刷题】牛客— NC21 链表内指定区间反转

链表内指定区间反转 题目描述思路一&#xff08;暴力破解版&#xff09;思路二&#xff08;技巧反转版&#xff09;思路三&#xff08;递归魔法版&#xff09;Thanks♪(&#xff65;ω&#xff65;)&#xff89;谢谢阅读&#xff01;&#xff01;&#xff01;下一篇文章见&…

SpringBoot整合GateWay(详细配置)

前言 在Spring Boot中整合Spring Cloud Gateway是一个常见的需求&#xff0c;尤其是当需要构建一个微服务架构的应用程序时。Spring Cloud Gateway是Spring Cloud生态系统中的一个项目&#xff0c;它提供了一个API网关&#xff0c;用于处理服务之间的请求路由、安全、监控和限流…

Dynamo批量修改多文件项目基点参数

Hello 大家好&#xff01;我是九哥~ 前几天群里有个小伙伴&#xff0c;咨询了我一个问题&#xff1a;如何批量修改多个 Revit 文件的项目基点&#xff1f; 本来是想帮忙改改程序&#xff0c;奈何打开以后&#xff0c;我看到了无数的节点和连线&#xff0c;而且这个问题&#x…

WordPress站点成功升级后的介绍页地址是什么?

我们一般在WordPress站点后台 >> 仪表盘 >> 更新中成功升级WordPress的话&#xff0c;最后打开的就是升级之后的版本介绍页。比如boke112百科前两天升级到WordPress 6.4.2后显示的介绍页如下图所示&#xff1a; 该介绍除了介绍当前版本修复了多少个问题及修补了多少…

爬虫-华为云空间备忘录导出到docx-selenium控制浏览器行为-python数据处理

背景适用情况介绍 老的荣耀手机属于华为云系统&#xff0c;家里人换了新荣耀手机属于荣耀云系统无法通过云空间将备忘录转移到新手机&#xff0c;不想让他们一个一个搞&#xff0c;于是整了一晚上想办法爬取下来。从网页抓取下来&#xff0c;然后存到docx文档中&#xff08;包…

WordPress主题YIA移动端文章页的面包屑不显示怎么办?

平时我们一般都会在文章页导航菜单下方显示面包屑&#xff0c;类似于“当前位置&#xff1a;boke112百科 WordPress 正文”。平时用浏览器调试站点的时候&#xff0c;在Edge浏览器的“切换设备仿真”中&#xff0c;不管是选择什么设备都会显示面包屑。具体如下图所示&#xf…

四种mfc140u.dll丢失的解决方法,有效恢复mfc140u.dll丢失

mfc140u.dll文件的重要性&#xff0c;当系统中出现mfc140u.dll丢失的情况时&#xff0c;可能会导致一系列问题和影响。因此&#xff0c;保持mfc140u.dll文件的完整性对于系统和应用程序的稳定运行至关重要。一旦出现mfc140u.dll文件丢失的情况&#xff0c;我们需要采取有效的方…