Sora 横空出世!国内一批创新公司要挂了吗?

2月16日凌晨,OpenAI 发布了自己的首个AI视频生成模型—Sora,这是一个历史性的里程碑,扩散模型结合OpenAI大获成功的transformer,在视觉领域实现了与大语言模型类似的突破。毫无疑问,视觉生成领域将有一次大的技术和商业革命。

前面我们已经从不同的视角对 sora 进行了分享,喜欢记得收藏、关注、点赞。也欢迎技术交流

  • 一文看懂大模型 Sora 技术推演
  • 复刻大模型 Sora 有多难?一张图带你读懂 Sora 的技术路径
  • 训练Sora模型,你可能需要这些开源代码,模型,数据集及算力评估

本文将分别讨论:

  1. Sora 是什么,怎么工作的
  2. Sora 引发的产业机会
  3. 是不是大树之下寸草不生,这个领域的创业公司都要"挂"了

文章目录

    • 技术交流
    • Sora是什么?怎么工作的
      • 它能生成更真实,一致性更强的多镜头长视频
      • 扩散模型+Transformer如何工作的
      • Sora 仍有很大缺陷
    • Sora 引发的产业机会
    • 国内外一批创新公司要挂了吗?

技术交流

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了 SORA 技术交流群, 想要进交流群、获取完整源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:技术交流
方式②、添加微信号:mlc2060,备注:技术交流

Sora是什么?怎么工作的

Sora在多个方面重新定义了AI视频生成模型的标准:

a.它将视频时长从当前的5-15秒,直接提升到了1分钟,这个长度完全可以应对短视频的创作需求。从OpenAI发表的文章看,如果需要,超过1分钟毫无任何悬念。

b.它可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性。

c.不仅可以用文字prompt生成视频,还支持视频到视频的编辑,当然也可以生成高质量的图片,Sora甚至还可以拼接完全不同的视频,使之合二为一、前后连贯。

d.它是扩散模型, 更是扩散+Transformer的视觉大模型,并且产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形。

它能生成更真实,一致性更强的多镜头长视频

OpenAI官方公布了数十个示例视频,充分展示了Sora模型的强大能力。

图片

人物的瞳孔、睫毛、皮肤纹理,都逼真到看不出一丝破绽,真实性与以往的AI生成视频是史诗级的提升,AI视频与现实的差距,更难辨认。

图片

无人机视角的东京街头景色,让Sora在复杂场景展现,人物动作自然度等方面的优势展露无遗。

图片

在山道上穿梭的复古SUV,可以看到真实性很高。

图片

Sora可以在两个输入视频之间逐渐进行转场,在完全不同主题和场景构成的视频之间创建无缝过渡。

扩散模型+Transformer如何工作的

OpenAI的团队从大语言模型的大规模训练中汲取了灵感,对应大语言模型的文本数据表示tokens,它们将视觉数据分割成数据块 ,首先将视频压缩到较低维的隐式特征,然后分解为时空数据块,这些数据块的作用就相当于token在大语言模型中的作用,用于训练Sora。

讲中文,就是Sora式把图片/视频都token化了。

图片

Sora是一个基于扩散模型(Diffusion Model)的视频模型,但是它是一个扩散Transformer模型,Transformer已经证明了把语言、视觉和图像生成一同实现的强大能力。

它基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过GPT的能力,使模型更加准确地遵循用户的文本指令生成视频。

所以,Sora是扩散模型+transformer的视觉大模型。

图片

除了能根据文本指令生成视频外,这款模型还能将现有的静态图像转化成视频,精确细致地赋予图像中内容以生动的动画。模型还能扩展现有视频或补全缺失的帧。

Sora的出现,进一步拉大了中美在AI方面的差距。

Sora 仍有很大缺陷

但是,尽管Sora在技术和性能表现上有了巨大的提升,它仍有不少的局限性,在理解复杂场景的物理原理、因果关系、空间细节、时间推移上存在弱点。例如它不能很好地表现玻璃碎裂。

图片

还有在吹蜡烛之前和吹蜡烛之后,火苗没有丝毫变化。

图片

它也搞反了人在跑步机上跑步的方向。

图片

OpenAI只是提供了生成的视频展示,随着Sora的发布,同时还引发了人们对滥用视频生成技术的担忧。为此,公司并未向外正式开放Sora的使用,而是精心挑选了一批"受信任"的专业人士做测试。

Sora 引发的产业机会

首先,这是一个里程碑式的技术进步。

其次,在视频应用的场景中,能展示不等于能实用。如果说实现商业化需要做到100分(60分技术+40分场景),以往人工能做到90分,Sora的出现只解决了那60分,甚至到75分,还是有一段商业化的路径,需要靠人工或技术+商业创新完成。

第一,可控性。无论是商业场景还是创作场景,视频要按照人的意志或规律完成动作,这无疑是个巨大的挑战。

举个例子,有人提出物理模型,实际上目前的Sora能精美生成和炫技,但如果要能展示特定场景,比如一个皮球掉到地上反复弹起来,是要一个物理模型支撑的,目前Diffusion+transformer还无法解决。

第二,prompt(提示词)的挑战本身仍然是个技术活儿,视觉领域,一般非专业人员很难用好视觉的生成,这既需要训练,更有待技术突破,让外行变内行。

所以,创作要面向实用场景,空间依旧很大。75分之上,都是场景创新的机会。

场景创新的机会,属于懂场景、懂模型的创造者。

对于好莱坞,大家看过《繁花》就知道了。面对王家卫那样的大导演,科技创新的工具,目前最多可以提高实现指定场景的效率。宝总、玲子、爷叔短时间内是机器替代不了的。

同样的爆发,很可能会在AI视频行业重演,我们看到的可能不是AI让电影人失业,而是AI让电影人们创造更好的作品。

国内外一批创新公司要挂了吗?

首先,赢家未必通吃。美国的商业生态有个显著特点,就是一流公司做平台,二流公司做全线产品,三流公司搞客户。

OpenAI 的 Sora,是一个伟大的工程进步,有一点像工业界走在了国家拨款支持科研的前面(整个LLM的出现就是这样,搞得学者们很被动),只是这个突破在工业界而不是学界最先实现,距离商业化还有一段路要走。

领先的公司要在关键领域确保自己的领导地位,突破技术,建立平台,也会做垂类应用,但更重视吸引广大开发者参与,而不是有点突破就摊大饼,把应用都做完。

所以,60分之上,仍有很大空间。这点,看看Salesforce的上千家应用就清楚了。

其次,根据OpenAI的论文看,支持60秒视频的路径讲的很清楚,帮助很多创业公司节约了数以千万计的探索成本(向OpenAI致敬!),但同时也给创业者提供了很大的想象空间。

如果只要15秒,如果提高视频主体的高度可控性,如果需要控制主体在视频中的路径,会不会有其它的选择?Diffusion transformer是不是有更好的用法?还是那句话,模型能力决定了一个创业团队的高度,60分之上,模型支撑的应用见分晓。会模型、懂应用的创业公司大有机会。

在美国这个市场里,跟跑的大公司喜欢选择通过兼并收购拉近差距,小团队跑得快,起跑快并进大公司价值高。

国内的兼并收购不那么活跃,大厂喜欢下场什么都做。但是OpenAI跑得这么快,这么大的赛道上机会层出不穷,大厂难免没别的想法。

还是那句话,这是一个让狮子和土狼一起奔向光明的大赛场。

参考文献

1.OpenAI. Video generation models as world simulators.

_https://openai.com/research/video-generation-models-as-world-simulators

2.MIT Technology review. OpenAI teases an amazing new generative video model called Sora.

https://www.technologyreview.com/2024/02/15/1088401/openai-amaz__ing-new-generative-ai-video-model-sora/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/408305.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

09 呼吸灯

呼吸灯简介 呼吸灯实际展示的效果就是一个 LED 灯的亮度由亮到暗,再由暗到亮的变化过程,并且该过程是循环往复的,像呼吸一样那么有节奏。 呼吸灯通常是采用 PWM(Pulse Width Modulation,即脉冲宽度调制) 的方式实现,在…

C语言实现直接插入排序

直接插入排序 其平均复杂度是 O(n2),因此应用场景较少。 接插入排序的思路是: 每次处理一个数据,将其插入到一个已经排好序的子序列中,直到数据处理完毕。 下面给出一个动画示例: 这里写图片描述:从上面来…

C#之WPF学习之路(5)

目录 内容控件(2) TextBlock文字块 TextBox文本框 TextBoxBase基类 TextBox控件 RichTextBox富文本框 ToolTip控件(提示工具) Popup弹出窗口 Image图像控件 属性成员 事件成员 内容控件(2) Tex…

基于SSM的车位租赁系统(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的车位租赁系统(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring Spri…

R3F(React Three Fiber)经验篇

之前一直在做ThreeJS方向,整理了两篇R3F(React Three Fiber)的文档,这是经验篇,如果您的业务场景需要使用R3F,可以参考一下这个文档。下面是目录,按照需求自取。 基础篇 ⬇️ R3F(…

港科夜闻|香港科大计划建立北部都会区卫星校园完善科大创新带,发展未来创新科技 未来医药发展及跨学科教育...

关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1、香港科大计划建立北部都会区卫星校园完善“科大创新带”,发展未来创新科技、未来医药发展及跨学科教育。香港科大校长叶玉如教授在2月22日的媒体会议上表示,香港科大将在北部都会区建立卫星校园&a…

模型上下文长度达到10000000,又一批创业者完蛋了?

没有疑问,Gemini 1.5 Pro的隆重推出被Sora抢了风头。 社交平台X上OpenAI介绍Sora的第一条动态,现在已经被浏览了超过9000万次,而关于Gemini 1.5 Pro热度最高的一条,来自谷歌首席科学家Jeff Dean,区区123万人。 或许J…

Vue3路由组件练习

Vue3 路由组件练习 演示效果代码分析 安装 vue-router创建路由文件创建路由实例使用 router-link 组件导航 代码实现 index.js 文件App 文件 1. 演示效果 2. 代码分析 2.1. 安装 vue-router 命令:npm i vue-router 应用插件:Vue.use(VueRouter) 2.2…

【Ubuntu】通过网线连接两台电脑以实现局域网连接的方法

有时我们需要将多台计算机连接在一起,以便实现数据共享、资源访问等功能。本文将介绍如何通过网线连接两台运行Ubuntu操作系统的电脑,以便它们能够直接通信,从而实现局域网连接。 1. 准备工作 在开始之前,请准备好: …

车载电子电器架构 —— 基础技术开发概述

车载电子电器架构 —— 基础技术开发概述 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明…

05 EXTI外部中断

一、中断系统 中断系统:管理和执行中断的逻辑结构。中断:在主程序运行过程中,出现了特定的中断触发条件——中断源,使得CPU暂停当前正在运行的程序,转而去处理中断程序,处理完成后又返回原来被暂停的位置继…

Linux配置jdk、tomcat、mysql离线安装与启动

目录 1.jdk安装 2.tomcat的安装(开机自启动) 3.MySQL的安装 4.连接项目 1.jdk安装 上传jdk安装包 jdk-8u151-linux-x64.tar.gz 进入opt目录,将安装包拖进去 解压安装包 这里需要解压到usr/local目录下,在这里我新建一个文件夹…

普中51单片机学习(DA转换)

DA数模转换 分辨率 分辨率是指输入数字量的最低有效位(LSB)发生变化时,所对应的输出模拟量(电压或电流)的变化量。它反映了输出模拟量的最小变化值。 分辨率与输入数字量的位数有确定的关系,可以表示成FS …

FariyGUI × Cocos Creator 3.x 弹窗制作

在fgui里制作一个弹窗 新建一个按钮,作为返回按钮 新建一个标签 做成这个样子 其中包含两个节点,名称分别为title和closeButton 可以阅读fgui的源码window.js得到,closeButton按钮只需要输入名称即可在contentPane设置时自动绑定。 且会…

使用 React 和 MUI 创建多选 Checkbox 树组件

在本篇博客中,我们将使用 React 和 MUI(Material-UI)库来创建一个多选 Checkbox 树组件。该组件可以用于展示树形结构的数据,并允许用户选择多个节点。 前提 在开始之前,确保你已经安装了以下依赖: Reac…

汇编反外挂

在软件保护领域,尤其是游戏保护中,反外挂是一个重要的议题。外挂通常指的是一种第三方软件,它可以修改游戏数据、操作游戏内存或提供其他作弊功能,从而给玩家带来不公平的优势。为了打击外挂,游戏开发者会采取一系列措…

计算机网络-网络互联

文章目录 网络互联网络互联方法LAN-LAN:网桥及其互连原理使用网桥实现LAN-LAN使用交换机扩展局域网使用路由器连接局域网 LAN-WANWAN-WAN路由选择算法非自适应路由选择算法自适应路由选择算法广播路由选择算法:分层路由选择算法 网络互联 网络互联是指利…

数据存储-文件存储

一、CSV文件存储 csv是python的标准库 列表数据写入csv文件 import csvheader [班级, 姓名, 性别, 手机号, QQ] # 二维数组 rows [[学习一班, 大娃, 男, a130111111122, 987456123],[学习二班, 二娃, 女, a130111111123, 987456155],[学习三班, 三娃, 男, a130111111124, …

Javase补充-Arrays类的常用方法汇总

文章目录 一 . 排序方法二 . 查找方法三 . 判断是否相等的方法四 . 拷贝方法五 . 填充方法 一 . 排序方法 我们第一个要介绍的就是sort方法 这个排序实现的底层逻辑应该是十分复杂的,以我们目前的水平体系应该无法理解,我们今天尝试用我们可以理解的一种排序算法,插入排序来模…

jQuery瀑布流画廊,瀑布流动态加载

jQuery瀑布流画廊&#xff0c;瀑布流动态加载 效果展示 手机布局 jQuery瀑布流动态加载 HTML代码片段 <!-- mediabanner --><div class"mediabanner"><img src"img/mediabanner.jpg" class"bg"/><div class"text&qu…