Sora到底有多强?

北京时间2月16日凌晨,OpenAI发布文本生成视频的AI模型Sora,瞬时刷屏科技圈,成为2024年开年“顶流”。

官方称,Sora只需文本就能自动生成高度逼真和高质量的视频,且时长突破1分钟。这是继文本模型ChatGPT和图片模型Dall-E之后,OpenAI在视频领域的另一个颠覆性创造。

Sora之前,并不是没有AI生成视频的应用,Runway、Pika、Stable Video Diffusion等公司百舸争流。但如今Sora横空出世,这些公司瞬间变得暗淡无光。

被称是“降维打击”的Sora到底有多强?

“一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。”

这是OpenAI在官网介绍视频模型 Sora出现的第一组提示词。这段由Sora自主生成的长达59秒的一镜到底的视频,也是其展现给公众的第一个成果,随即引爆全球网络,实现爆发式的传播发酵。

作为一款视频生成模型,Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频。

与其他视频生成模型相比,Sora能够根据提示词生成60s的连贯视频,这对于平均只能生成“4s”视频的全行业来说,造成了“碾压式”的冲击。

此外,Sora在采样的灵活性、视频拓展、镜头语言等方面,也远远领先于其他模型。

在对Sora生成的视频表示震惊之余,各路大佬们也开始纷纷表态:有人吃瓜感慨“gg humans”,竞争对手接受压力并参与“游戏”(game on);技术大牛深扒核心技术称Sora是一个“数据驱动的物理引擎”(Sora is a data-driven physics engine)......

尽管Sora生成的视频远远高出行业的平均水平,但依旧存在某些局限性。技术报告提到,Sora还存在不准确的物理建模和非自然物体“变形”的例子,以及在模拟对象和多个角色之间的复杂交互,对模型来说通常具有挑战性等。

自谷歌2017年发布Transformer网络结构以来,仅用五年多时间全球已迅速成长出庞大的大模型技术群,衍生出涵盖各种技术架构、各种模态、各种场景的大模型家族。

从文字工作者恐失业的文本大模型 ChatGPT,到设计师恐失业的图片生成模型 Stable Diffusion 和 Midjourney,技术的发展日新月异,大模型正在改变着各行各业。

如今,AI生成视频正迎来爆发期。

此次Sora横空出世,无疑是给AI生成视频添了一把火。

事实上,AI生成视频早已断断续续火了一段时间。2023 年可以看作是 AI 视频爆发的一年。年初,还没有公开的文本到视频模型。仅仅 12 个月后,数十种视频生成产品开始投入使用,全球数百万用户根据文本或图像提示创建短片。

根据美国VC机构a16z的统计,截止到去年11月,文生视频领域发布相关工具与产品达到了21种。

但此时发布产品的多为初创企业,拥有相机平移和变焦以及动作控制功能的在少数,这意味着无法生成拥有更多视觉深度和动态效果的复杂视频。

此外,生成视频的时间也较短,大多在3秒左右,与其说生成的是视频,不如说生成的是GIF动图。

Sora的发布,意味着新一轮人工智能革命的开端,我国AI科技处于怎样的水平,中美之间的差距有多大呢?

去年5月,科技部发布的《中国人工智能大模型地图研究报告》显示,中国研发的大模型数量排名全球第二,10亿参数规模以上的大模型已发布79个,目前与美国保持同步增长态势。

截至2023年6月底,全球人工智能领域独角兽中,108家来自中国,占全球总数的37%。

国内玩家也在积极下场布局AI生成视频。

字节跳动于去年11月18日推出了文生视频模型PixelDance。基础模式下,用户需要提供一张指导图片+文本描述,PixelDance 就可以生成有高度一致性且有丰富动态性的视频。

阿里紧随其后也上线了Animate Anyone模型,需要一张人物照片,再配合骨骼动画引导,就能生成自然的动画视频。

23年末,百度发布了文生视频工具“度加剪辑”,号称“可以一键获取最新热点、ai生成文案、一键生成视频”。百度文心大模型的类似功能则在内测中,不久后会以插件形式开放。

Sora的发布,能否鞭策中国企业进一步突破技术难关,我们不妨拭目以待。

Sora发布前,我国影视行业已经在应用文生视频,作为拍摄辅助。AI可以低成本快速产出分镜,用简单动画预演出演员走位、取景、摄影机角度与运动大方向,提高拍摄效率。而当AI的精细度可以直接参与后期制作,带给行业的冲击是颠覆性的。

关于相关从业者是否会被AI取代,网上争论不断。不过对于Sora这样的复杂系统,人是不可替代的生产力要素,未来,做“工具人”,不如做创造和使用工具的人。

据统计,全球1/7的人工智能顶尖人才在中国,不过相较于产业的迅猛发展,人工智能人才缺口还是非常大。根据中关村产业研究院测算,到2025年,预计北京AI人才需求量为54万人,缺口将达37万,特别是急缺计算理论、人机交互、安全与隐私、计算机系统等方面的顶尖学者。

人工智能也成为近年来新增开设数量最多的专业之一。2018年教育部批准设立人工智能本科专业。经过四轮增开,截至2023年共有499所高校设置人工智能本科专业,其中不乏清华、北大、浙大、复旦等顶尖院校。

AI技术大势滚滚而来,无论于国家,于企业,还是于个人,主动拥抱或许是最好的选择。

【专题】“王炸”模型Sora爆火,AI视频再次颠覆

特别声明

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/431839.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

三整数排序问题的解题逻辑

【题目描述】 输入3个整数,从小到大排序后输出。 【样例输入】 20 7 33 【样例输出】 7 20 33 【解析】 本题解法大概有3种: 1、穷举条件法。 此方法先判断a、b、c大小的所有可能,再根据各种可能性输出不同的排序。 思路是先判断a、…

3Dmax最全快捷键大全,赶紧收藏起来练习起来吧

3Dmax做为一款专业的建模软件,有很多快捷键能帮助我们更好地学习,提升自己的能力。 废话不多说,我们一起来看看。 以上就是3dmax最全快捷键大全,看着容易,但是想要掌握好还需要我们多多练习。 本地max跑图太慢的朋友可…

数据链路层----滑动窗口协议的相关计算

目录 1.窗口大小的相关计算 •停等协议: •后退N帧协议: •选择重传协议: 2.信道利用率相关计算 •停等协议的信道利用率: •连续ARQ(后退N帧协议,选择重传协议)的信道利用率:…

SAP PP学习笔记04 - BOM2 -通过Serial来做简单的BOM变式配置,副明细,BOM状态,BOM明细状态,项目种类,递归BOM

本章继续讲BOM。 本章讲通过Serial来做简单的BOM变式配置。还讲了BOM的相关概念:副明细,BOM状态,BOM明细状态,项目种类,递归BOM 等。 1,通过Serial(序列号)来做简单的 VC&#xff0…

软考信息系统项目管理师零基础怎么学习?

软考考信息系统项目管理师,零基础怎么入手高项? 要我说对于没有基础的人群来说零基础考信息系统项目管理师还是有一定的难度的,难就难在需要时间去了解基础,而相对于系统分析师、系统构架设计师、网络规划设计师、系统规划与管理…

C++多态详解

文章目录 多态概念定义及实现构成条件虚函数虚函数的重写override 和 final重载、覆盖、隐藏 抽象类纯虚函数接口继承与实现继承 多态的原理虚函数表原理动态绑定与静态绑定 多继承的虚函数表多继承中的虚函数表 多态 概念 多态是面向对象三大特性中相对复杂的一个&#xff0…

c语言网络编程学习整理 网络编程结构框架 一些常见协议的介绍

1.网络分层:osi体系结构 重点:网络层,传输层。 口诀:物数网传会表应。 可是osi体系过于理想,不过其为原型依旧通用: TCP/IP协议 是Internet事实上的工业标准 2.TCP/IP 4层模型 1)网络接口与…

Java生成 word报告

Java生成 word报告 一、方案比较二、Apache POI 生成三、FreeMarker 生成 在网上找了好多天将数据库信息导出到 word 中的解决方案,现在将这几天的总结分享一下。总的来说,Java 导出 word 大致有 5 种。 一、方案比较 1. Jacob Jacob 是 Java-COM Bri…

7款炫酷的前端动画特效分享(三)(附效果图及在线演示)

分享7款好玩的前端动画特效 其中有CSS动画、SVG动画、js小游戏等等 下方效果图可能不是特别的生动 那么你可以点击在线预览进行查看相应的动画特效 同时也是可以下载该资源的 CSS3模仿四季交替动画 基于HTML5CSS3实现的卡通风格一年四季交替动画特效 以下效果图只能体现框架的…

ThreadPoolExecutor 学习

ThreadPoolExecutor 是开发中最常用的线程池,今天来简单学习一下它的用法以及内部构造。 1、线程池存在的意义? 一般在jvm上,用户线程和操作系统内核线程是1:1的关系,也就是说,每次创建、销毁线程的时候&am…

10.WEB渗透测试-Linux基础知识-Linux用户权限管理(下)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:9.WEB渗透测试-Linux基础知识-Linux用户权限管理(上)-CSDN博客 ch…

Linux进程详细介绍

文章目录 Linux进程1、计算机体系结构和操作系统管理1.1、计算机体系结构 -- 硬件1.2、操作系统(Operator System) -- 软件 2、进程2.1、进程基本概念2.2、进程标识符2.2.1、获取当前进程标识符和当前进程的父进程标识符2.2.2、通过系统调用创建进程 -- …

微信小程序开发学习笔记《19》uni-app框架-配置小程序分包与轮播图跳转

微信小程序开发学习笔记《19》uni-app框架-配置小程序分包与轮播图跳转 博主正在学习微信小程序开发,希望记录自己学习过程同时与广大网友共同学习讨论。建议仔细阅读uni-app对应官方文档 一、配置小程序分包 分包可以减少小程序首次启动时的加载时间 为此&#…

Google Play上架:自查封号政策解析(高风险行为之不允许破坏Google Play生态系统中用户信任度的应用或应用内容)

本文章提供给近期被封号的开发者们,希望能带来帮助,有其他的自查方向后续也会发布出来。 ——————————————————————————————————————— 用户数据设备和网络滥用 用户数据 设备和网络滥用

前端学习之HTML(第二天)--多媒体标签和表格标签

注&#xff1a;里面的注释是对各个标签的解释 多媒体标签 <!DOCTYPE html> <html> <head><meta charset"utf-8"><title></title> </head> <body> <!-- audio是音频可以填写绝对路径也可填写相对路径 --> &l…

解决微软活动目录管理工作中常见问题

微软活动目录&#xff08;AD域&#xff09;是一种由微软的用于管理网络中用户、计算机、资源等的目录服务。活动目录被广泛应用于企业内部的网络管理中&#xff0c;尤其是对于使用微软产品的企业来说&#xff0c;活动目录是至关重要的基础设施之一。 因此&#xff0c;以微软为…

索引下推 INDEX CONDITION PUSHDOWN

索引下推 (INDEX CONDITION PUSHDOWN&#xff0c;简称ICP)是在 MySQL5.6 针对扫描索引下推二级索引的一项优化改进。 用来在范围查询时减少回表的次数。ICP适用于 MYISAM和INNODB.

ref和reactive用哪个?

ref和reactive用哪个? 1.&#x1f916;GPT&#x1f916;:ref和reactive用哪个根据数据类型而定 ref 用于将基本类型的数据&#xff08;如字符串、数字&#xff0c;布尔值等&#xff09;转换为响应式数据。使用 ref 定义的数据可以通过 .value 属性访问和修改。 reactive 用于…

JavaScript 学习笔记(7)

一模板字符串 1.用途 允许在字符串中嵌入表达式和变量&#xff0c;是一种方便的字符串语法 2.用法 模板字符串使用反引号 作为字符串的定界符分隔的字面量&#xff1b;模板字面量是用反引号&#xff08;&#xff09;分隔的字面量&#xff0c;允许多行字符串、带嵌入表达式…

ElasticSearch之分布式查询过程分析

写在前面 本文一起看下es分布式查询的过程。 1&#xff1a;分布式搜索过程 分布式搜索分为两个阶段&#xff0c;query和fetch,即query-then-fetch。 假定primary shard3,replica shard1&#xff0c;即3个主分片&#xff0c;1个副本分片。 1.1&#xff1a;query阶段 某data …