Sora会“杀死”剪映吗？

图片来源:pexels

▎留给张一鸣和张楠的时间不多了。

Sora的横空出世，对张一鸣来说，亦喜亦忧。

被OpenAI的ChatGPT震撼过一轮的AI大模型行业，又一次被这家公司推出的首个视频生成模型Sora震撼了一把。

不同于Runway、Pika等仅能生成不足10秒，且镜头视角单一、内容高度失真的视频，Sora的视频生成长度不仅突破到了60秒，且能实现单视频的多角度镜头切换，还能最大限度还原现实世界的真实场景。

在ChatGPT上被验证过的模型性能缩放法则（scaling laws），被OpenAI CEO阿尔特曼移植到视频领域后，被证明其“大力出奇迹”的策略仍然有效，即增加模型的大小将继续提高性能。ChatGPT所为人称赞的“智能涌现”特征，再一次出现在Sora身上。

OpenAI CEO阿尔特曼

面对来自Sora的“降维打击”，AI视频领域的创业者中，有的如Runway CEO克里斯托瓦尔·巴伦苏埃拉一样，做好了“Game On”的准备，有的如Pika创始人郭文景一样，开始筹备对标Sora的新产品，也有人如Stability AI CEO埃马德·莫斯塔克一样，不由感慨“阿尔特曼真是一个魔术师”，并将Sora视为AI视频界的GPT-3时刻。

但对字节跳动来说，这未必是个好消息，因为 Sora所处的视频生成赛道，正是眼下字节跳动旗下剪映所瞄准的AI创新方向。2月份从抖音转岗剪映后，据界面新闻报道，抖音前CEO张楠即将推出一个AI生图和视频的产品。

正打算在AI生成视频领域大干一番的张楠，还没等到产品落地的那一刻，其内部再创业的计划，便率先遭遇了Sora的当头一击。

OpenAI是张楠决心押注AI再创业的催化剂。2022年OpenAI旗下文生图模型DALL-E 2的发布，让张楠首次直观感受到AI图像生成，给传统内容创作方式所带来的颠覆式变革威力，这既是字节跳动全球CEO梁汝波口中“会产生新的创作平台”的机会，也是促成张楠转岗剪映的原因之一。

生成式AI，还是打开字节跳动增长天花板的一次必要尝试。2023年公开信中，张一鸣提到，字节跳动无法错过AGI（通用人工智能），并指出AGI是抖音、TikTok在全球发现新的增长机遇不可或缺的伙伴，“它可以解决字节跳动的第二曲线增长困境。”

2019年剪映的出现，帮助抖音内容生态从偏向PGC（专业机构生产内容）转向UGC（用户生产内容），大大降低用户创作门槛。如今，随着平台内容生态转向PUGC融合态，其对用户创作视频的成本和整体质量，又提出了新的要求。AI生成视频产品的出现，则对尽可能拉低每一个普通人创作视频的门槛，提供了一种现实可能性，抖音乃至TikTok，都有望借此在内容创作者数量上迎来新的爆发。

值得一提的是，AI视频生成更是一个颇具前景的创业赛道。截至2023年底，该赛道已经涌现出一批独角兽公司：Midjourney估值100亿美元，Stability AI估值40亿美元，Runway估值15亿美元。年初爆火出圈的新贵Pika，成立时间不足一年，其估值已经达到2.5亿美元。

但在Sora的突然袭击之下，留给张一鸣和张楠孵化下一个AI视频生成独角兽的时间，越发紧张了。

01

Sora亮相之前，字节内部也在研发AI生成视频产品。

1月份，字节跳动研究人员在arXiv上发表了一篇论文，其中介绍了字节正在开发的一款文本生成视频的模型，被命名为 MagicVideo-V2，其通过集成多个模块，包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块，实现从文字到视频的自动化生成。

MagicVideo-V2想要解决的问题，是Runway、Pika等在生成视频中所表现出来的保真度不高、运动不自然、分辨率不高、风格不多样等。

字节旗下产品剪映原有的“图文成片”功能模块，在进行文生视频转换过程中，同样面临上述难题的拷问。

在等待MagicVideo-V2完善研发，从demo走向量产上线之际，张楠在过去一个月多的用户访谈中，收集到了更多来自一线创作者对AI生成视频产品的不满和期待，其中之一就包括部分创作者“为了更好表达自己的想法，几乎无法用一个产品完成所有的创作，要横跨几个产品之间，用复杂的编辑和交互流程，才能完成他们的表达。”

去年8月，UP主数字生命卡兹克制作的一条爆款视频《流浪地球3预告片》，便先后运用了MidJourney和Runway等多款产品，且经历了长达5天的后期剪辑拼接。

造成UP主数字生命卡兹克创作困难的主要原因，便出在AI软件不够智能和便捷上。Sora出现之前，业内文生视频的默认方式是，只能输出单一、且往往是静止视角的短视频片段，画面背景还多呈现赛博朋克风。

Sora出现之后，文生视频领域的旧识被打破，不管多么复杂的视角、场景切换，都只用通过单一提示词便可生成，在兼顾便捷性的同时，最大限度保证了生成内容与真实物理世界的相关性。

Sora提示词示例图源：官网截图

字节和张楠规划中AI视频所应具备的更高保真度生成效果、更清晰生成画面、更顺畅自然的逻辑理解能力等，率先被Sora一一实现。

需要注意的是，尚未对外开放测试的Sora，眼下还存在诸多不完善之处，按其官方说法，“仍然处于世界模型研究应用的初期阶段。”

Meta首席科学家杨立昆便直接质疑Sora：“仅凭能够根据提示生成逼真的视频，并不能说明系统真正理解了物理世界。”

OpenAI在官网介绍中也提醒道，Sora可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系，还可能混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。这些缺陷可能导致Sora生成一些不合逻辑的视频，如一个人在跑步机上跑错方向。

这些尚未解决的Bug，是OpenAI决定暂未全面开放Sora的原因之一。如今，OpenAI正选取部分用户展开内测，以评估关键领域的潜在危害或风险，以期获得宝贵反馈，进而推动模型进步。

02

ChatGPT发布后，外界开始意识到AGI时代有了实现的可能性，Sora等视频生成模型，无疑是推动AGI到来的重要加速器。

OpenAI直接在官网上写道：“Sora为能够理解和模拟真实世界的模型提供了基础，我们相信这一能力将是实现AGI的重要里程碑。”

想要借助视频生成模型，推动AGI带来的不止OpenAI一家公司。去年12月，Runway提出要开发通用世界模型（General World Model），用旗下的视频生成Gen-2来模拟整个世界，“我们相信，人工智能的下一个重大进步将来自理解视觉世界及其动态的系统，这就是为什么我们要围绕通用世界模型开始一项新的长期研究工作。”

理解现实世界的物理法则，成为通往AGI的必经之路。360创始人周鸿祎在点评Sora时直言，一旦AI接上摄像头，把现存所有视频都看一遍，其对世界的理解能力将远远超过文字学习。“这就离AGI真的不远了，不是10年20年的问题，可能一两年很快就可以实现。”