聊聊国内「类Sora模型」发展现状,和 Sora 的差距到底有多大?

2024 年 2 月 16 日。

就在谷歌发布他新一代的多模态大模型 Gemini 1.5 Pro 的同一天,OpenAI 带着新一代的文生视频模型 Sora 再次抓住了全世界人们的眼球

“颠覆”、“炸裂”、“变天”、“疯狂”,类似的形容词一夜之间簇拥在 Sora 周围,可能不同于 ChatGPT,我们还需要与其“促膝长谈”才能惊觉它的与众不同,Sora 几乎是以一种所见即所得的方法将震撼输入到我们的眼眶

如果说从文本到文本的一问一答,从输入到输出模型为我们提供与增加的信息量我们尚且可以想象的话,Sora 这样从文本到视频的输入输出可能只有用“创造”一词可以概括。

而同时,已经被 ChatGPT 的成功培养过的 AI 创业者投资者们马上看到了隐藏在这意为“天空”的四个字母组合下巨大的商业机遇,风口之下,转回自身,我们可能马上会想到:“伴随着 Sora 的出现,国内的 AI 企业呢?有无类似 Sora 的产品?有无相应的技术积累?有无快速组建团队跟进文生视频技术的能力?

那么今天,我们就对国内视频生成模型的现状来一次“工业大摸底”,看看当下国内的视频生成模型究竟如何到底怎样,与 Sora 差距几何又有无亮眼之处。我们整体介绍了国内包含字节、腾讯、百度、阿里以及两家创业企业的 9 个视频生成模型,整体汇总如下:

OK,在介绍国产模型之前,让我们先从 Sora 开始讲起……

OpenAI:Sora

事实上,就像大语言模型,文生视频并不是一个 OpenAI “独创”的领域,而是伴随着如文生图技术的进步与发展衍生出的,具有更高技术难度与复杂度的“子领域”。在 Sora 之前,我们就已经报道过不少关于文生视频的工作,简单列举几个譬如:

  • 谷歌重磅发布零样本视频生成模型!效果惊艳,赶超扩散模型?

  • 字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2

  • 短视频界的变革者:上海 AI lab 发布 Vlogger,几句话生成分钟级视频

  • 文生视频 Pika 1.0 全面开放测试!

  • AI自导自演的电视剧,每个角色都是一个大模型,斯坦福25人小镇精神续作

  • ……

可以看到,在视频生成领域,很早就有 Pika、Runway、Gen-2 等等珠玉在前,那么面对这么多视频生成的工作,为什么只有 Sora 成功破圈了呢?

面对这个问题,就让我们首先来快速过一下 Sora 的技术报告,文章题为《Video generation models as world simulators》,在开篇伊始,OpenAI 强调的反而不是其卓越的视频生成能力,而是其作为“世界模拟器”的潜力

这里其实划重点,区别于以往的视频生成工作,Sora 在生成高清精美的视频背后,事实上为 AGI 探索了一条“模拟真实世界模型”的技术进路,Sora 生成的视频惊人的展现了模型对“物理世界”这个抽象概念的理解,复述英伟达人工智能研究院 Jim Fan 的评论:“如果你还是把Sora当做DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。”

从技术架构的角度,目前大部分学者仍然是认为 Sora 展现的 World Simulators 功能仍然是很有 OpenAI 风格的参数量增加导致的“涌现”的结果。其实先不说是大模型,哪怕是最先进的仿真软件在建模物理世界这件事上都面临着极大的困难,从视频生成的角度,模型理解物理世界需要做到比如三维一致性,物体持久性,长距离连贯性等等,而这一切是如何从目前技术报告中公布的 VAE编码器 + ViT + 条件扩散 + DiT模块 + VAE解码器中得到似乎还是一个未解之谜。

而除了充满科幻色彩的“世界模拟器”,作为一个“文生视频大模型”,Sora 最突出也是最令人震撼的一点在于,它可以根据 Prompt 文字直接生成 60 秒的连贯视频,60 秒看似不长,但是在 Sora 出现以前,AI 生成视频的平均长度仅仅在 4 秒左右,而如果再给这个数字一个参照物,人均单日使用时长超 2.5 小时的抖音短视频的平均长度仅仅在 20-30 秒之间,对于商业电影,60 秒意味着 15 个镜头,对于优秀导演而言甚至足够叙述一个完整的故事。

此外,在视频时长这个可以被量化对比的指标以外,Sora 给人更直观的感受是其绝佳的“连贯性”,

不是面向阅读论文关注量化指标的审稿人而是面向大众,高清连贯的视频更能给人带来以最为直观的视觉冲击。

同时,Sora 的“逼真度”也着将视频生成上升到了一个新的高度,如下图所示,如果不是央视特殊标注“模型生成视频”,有几个人可以从这个眼睛中看到一丝破绽?

而除了这些最直观的颠覆以外,Sora 还带来了诸如更强的语义理解能力、对不同宽高比和分辨率的适应能力、优秀的视频扩展能力等等,也无怪于 Sora 横空出世就可以为视频生成带来“ChatGPT 时刻”。

OK,先入为主看完 Sora 实现的神奇功能,那么再让我们站在更高的视角带着批判的眼光看看过去半年内国产视频生成模型现状!

字节:MagicVideo-V2/PixelDance

在国内大厂中,视频生成领域布局最多的还是当属靠短视频发家致富的字节跳动,事实上在 Sora 面世前的一个月,字节其实刚刚推出了一款文生视频模型 MagicVideo-V2,通过将文生图像、图像生成视频、视频到视频和视频帧插值四大模型集成在一个框架内,使得 MagicVideo-V2 有能力生成高清、流畅与连贯的视频。

在论文中字节强调这是一款在视频高清度、润滑度、连贯性、文本语义还原等方面击败主流的如 Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion 等的先进文生视频模型

从官网(https://magicvideov2.github.io)的例子中来看,视频的清晰度、逼真程度与动作的连贯性其实都相当不错,举例来看,让 MagicVideo-V2 生成一只弹吉他的北极熊,视频高清度、文本语义还原程度与连贯性都相当不错

▲A polar bear is playing guitar

而再如希望生成不是卡通而是更加真实一点的视频,一个小男孩在公园小路上骑自行车,这里我们可以看到对比 Sora “以假乱真” 式的结果,MagicVideo-V2 则略显“卡通”,仍然有不真实的感觉存在,并且一些细节部位的处理的仍然不到位:

当然,前面说的不够逼真与略显卡通事实都无伤大雅,对比 Sora 真正让 MagicVideo-V2 一败涂地的还是视频时长,从上面的例子中也可以看出,MagicVideo-V2 生成的视频时长仍然在 3-4 秒之内,我们往往只能看到“图片”确实动起来了,但远没有 Sora 带给我们大片式的震撼。

除了最新的 MagicVideo-V2,去年 11 月字节也发布了一款文字 + 首帧指导(图片)+ 尾帧指导(图片)生成视频的工具 PixelDance。

区别于完全的文本到视频的转换,PixelDance 的模式是从指导图片+文本描述到视频的转换,尽管也是 GIF 画风,但是清晰度与流畅度已经可以让人眼前一亮,比如下面这段“铜雕夫妻接吻并旋转”

但是视频整体风格仍然有点“虚假”,认人物动作有时候也比较僵硬,比如下面这个“女孩慢慢转过头,微笑,头发”:

而除却上面这些三四秒的动画,也许是得益于有“图片”信息的辅助,在官网(https://makepixelsdance.github.io)中,PixelDance 令人惊喜的制造了一部“超越” Sora 的三分钟微电影:

不过从上面这部“电影”来看,动作不自然、转场僵硬,角色突然的形变等等这类问题数不胜数,还远远未达到“颠覆短视频业”的程度。

而其实事实上在去年 11 月 PixelDance 面世之初,也就是三四个月前,视频生成业界的观点还停留在:“生成有高度一致性且有丰富动态性的视频,让视频内容真正地动起来,是目前视频生成领域中的最大挑战”。而对比当时的观点与这些“旧模型”,Sora 带给人们的震撼可能也并不难以理解。

除了 MagicVideo-V2 与 PixelDance 以外,这两天抖音旗下的剪映也宣布文生图工具 Dreamina 即将上线文生视频的功能,并且正在内测,当下 Sora 热度未减,不知道 Dreamina 能否带给大家不同于 MagicVideo-V2 的惊喜,让我们一起期待。

腾讯:VideoCrafter2

非常有意思的是,在字节发布 MagicVideo-V2 仅仅一天后(1 月 17 日),国内大厂像玩起萝卜蹲式的推出自己的视频生成模型,前有腾讯的 VideoCrafter2,后有百度的 UniVG,先来说说腾讯的 VideoCrafter2。

顾名思义,VideoCrafter2 是与 PixelDance 同期发布的 VideoCrafter 的续作,先来简单看看这个 VideoCrafter 的“成片”,比如“宇航员骑马”:

效果其实与同期的几个模型大同小异,不过 VideoCrafter 在个性化视频生成与视频生成控制上做了文章,支持在一组特定的视频片段或图像中对模型进行微调以迁移视频风格与更深度的控制生成结果的能力

值得注意的是,VideoCrafter 使用的是被 Sora 用Diffusion Transformer(DiT)“扬弃” 了的 U-net 网络,而这一点在 VideoCrafter2 中也没有改变。而事实上,VideoCrafter2 的主要贡献集中在了“如何用低质量视频和高质量图像数据生成高质量视频”上(https://github.com/AILab-CVC/VideoCrafter)。

当然,对比原始的 VideoCrafter,VideoCrafter2 在视频清晰度与动态效果上也有极大的提升,比如“一个孩子兴奋地在有点生锈的秋千上荡秋千”

再如:“一位戴眼镜的年轻女子戴着粉红色的头带在公园慢跑”

整体来看视频的清晰度,流畅程度其实都可圈可点,这种在低质量数据中训练高质量视频的方法也非常有可取之处。不过遗憾的是,如果我们先入为主首先看过了 Sora 生成的视频,无论是从视频长度、动作质量,还是人物形变等等方面,总会令人感觉这二者仿佛不在一个维度进行竞争。

百度:UniVG

说完了腾讯的 VideoCrafter2,再来看看百度同天上线的 UniVG(https://univg-baidu.github.io),区别于腾讯主要在从低质量数据到高质量数据上做文章,百度 UniVG 的卖点主要在于“Unified-Model”,期望构建一种文字与图片任意组合输入的更加灵活的视频生成模型

从生成结果来看,UniVG 的清晰度非常令人惊喜,比如“一只猫正在吃胡萝卜”

“小女孩与鱼”

整体来看清晰度、真实性都相当不错,但可能最大的问题仍然在“太短了”,生成的视频仍然像是多张图片的“拼凑”,而似乎没有一个构建统一故事的可能。UniVG 生成效果的整体演示如下面的视频所示:

阿里:I2VGen-XL/EMO

再来看阿里,其实在 Sora 面世前的五个月,阿里就在其魔搭社区上线了视频生成大模型 I2VGen-XL(https://i2vgen-xl.github.io),区别于文字生成视频,阿里 I2VGen-XL 的主要方向是图像生成视频,同样是基于 Latent Diffusion Models(LDM),阿里与腾讯一样也使用的是 U-net 网络,而在模型架构以外,I2VGen-XL 在数据集上也下了功夫,收集了约 3500 万单镜头文本-视频对与 60 亿文本-图像对优化模型。

从视频生成效果来看,I2VGen-XL 也确实对的起“High-Quality”的评价。比如输入一张这样的猫咪图片:

I2VGen-XL 生成的视频效果是这样的:

输入三只狼:

I2VGen-XL 也能让他们“跑起来”:

其实 I2VGen-XL 在问世之初也被冠以“里程碑”的名号,在视频的动作丰富度,还原度,流畅度等等方面也都做到了当时最佳,然而 I2VGen-XL 也仍然只是让图片“动了起来”,也远未达到 Sora “World Simulators”级别的震撼

除了 I2VGen-XL,也就是在最近几天,阿里又推出了其图片+声音生成视频的 EMO 框架 (Emote Portrait Alive,EMO)。相比 I2VGen-XL,不得不说阿里这个 EMO 要更为好玩一点:

如上图所示,对一张图片任意输入一段音频,就可以让蒙娜丽莎讲话,让赫本开口唱歌:

这里还有一个和 Sora 的小小联动,输入一个 Sora 生成的虚拟决策,再加一段 OpenAI 首席技术官 Mira Murari 接受访谈的音频,就可以惟妙惟肖的以假乱真:

除了单纯的从图像到视频,EMO 更令人惊喜的功能在于无论输入音频的长度如何,EMO 都可以生成相应时长的视频,并且保持角色的个性与特征。而从上面的视频中也可以看到,这次由 EMO 生成的视频超越了之前几家“GIF”的特征,面部表情和头部姿态都可以保持长时间的生动与稳定,也有大佬揪住细节甚至发现 EMO 生成的视频耳朵、眉毛与喉咙的还原度都非常之高:

创业公司:HiDream/PixVerse……

除了这些大厂巨头,国内也有不少创业公司在发力视频生成这一领域,比较有代表的有智象未来(HiDream.ai)的 HiDream 与爱诗科技的 PixVerse。这两款应用都可以方便的在线体验:

HiDream:https://hidreamai.com/ PixVerse:https://app.pixverse.ai/

先来看 HiDream,HiDream 可以直接通过微信进行登录,输入一段文字 HiDream 可以在一两分钟内生成出对应的视频,比如我们以“一只弹吉他的北极熊”进行测试:

HiDream 可以生成出 4 秒左右的视频,视频清晰度,动作流畅度也都相当不错

再来看 PixVerse,在输入提示词,选择各种风格之后,PixVerse 在几分钟内也可以生成对应的视频,不过其指令遵循能力似乎并不太能得到信赖,同样以 “一只弹吉他的北极熊” 为输入,当风格勾选“现实”时,PixVerse 生成了一个女生在弹吉他而没有北极熊的影子,而当风格勾选“动画”时,PixVerse 却生成了两只北极熊

其生成的视频质量如下所示,可以明显看出一些细节的处理仍然不到位:

Sora 之后

放在一个更大的视角,综合来看国产的视频生成模型与 Sora 的对比,尽管这些模型问世时都或多或少的为我们带来了惊喜,在论文与技术报告中宣称超越了各种 benchmark,在没有 Sora 的对比之前,或许我们都可以一个个赞美与表扬过去这里有创新那里有亮点

但是一旦当我们先行看过 Sora,再去审视这些年龄仅仅比 Sora 大一两月与两三月的模型,我们就会看到其实它们与我们想象中的,也是 OpenAI 带给我们的“真正变革”相距甚远。英国近代史大师艾瑞克·霍布斯鲍姆如此评价工业革命:“一旦工业化进程开始,变革就成为了常态”,而目光转向我们现在经历的这场 AI 革命,我们却总是发现国产模型在“常态的变革”中,完成最多的似乎又总是一些“小修小补”的工作,而一次又一次与里程碑式的进步失之交臂。

在国内一家又一家自诩或被人们称为“中国的 OpenAI”的公司中,在所谓“中美平分 AI 的半壁江山”的论调下,我们似乎总是在进行“赶超战略”,但是就像谷歌在发布它的 Gemini 1.5 Pro 当天 Sora 横空出世那样,如此继续在歌舞升平中“常态化变革”至“长期性平庸”,我们总会一次又一次的看着 ChatGPT、Sora 这样的技术不断重复着他们出现、我们追赶、他们打压、我们落后的循环

我们需要看到,在我们认为“视频生成最大的挑战在于‘让视频内容动起来’”时,Sora 瞄准的是视频生成背后的“世界模拟器”的功能,我们的视频生成模型与 Sora 的差距可能也不仅仅是我的 4 秒它的 60 秒。也许只有当我们的企业我们的创新不是单单瞄准一个领域圈定的范围画好的边界去集中力量办大事,而是抱着对“智能”而非“智能应用”真正的“好奇”去指导我们想象智能的边界,探索的未知的可能,我们才有可能不再紧随其后,而是弯道超车吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/428652.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络实验 基于ENSP的协议分析

实验二 基于eNSP的协议分析 一、实验目的: 1)熟悉VRP的基本操作命令 2)掌握ARP协议的基本工作原理 3)掌握IP协议的基本工作原理 4)掌握ICMP协议的基本工作原理 二、实验内容: 1、场景1:两台PC机…

【海贼王的数据航海:利用数据结构成为数据海洋的霸主】链表—双向链表

目录 往期 1 -> 带头双向循环链表(双链表) 1.1 -> 接口声明 1.2 -> 接口实现 1.2.1 -> 双向链表初始化 1.2.2 -> 动态申请一个结点 1.2.3 -> 双向链表销毁 1.2.4 -> 双向链表打印 1.2.5 -> 双向链表判空 1.2.6 -> 双向链表尾插 1.2.7 -&…

前端CSS常考问题总结

目录 CSS盒模型 CSS选择器的优先级 隐藏元素的方法 px和rem的区别是什么? 重绘重排有什么区别? 重排(回流): 重绘: 浏览器的渲染机制: 浏览器如何解析CSS? 元素水平垂直居中的方式 CSS的哪些属性哪些可以…

VMwareWorkstation17.0虚拟机安装搭建PcDos2000虚拟机(完整图文详细步骤教程)

VMwareWorkstation17.0虚拟机安装搭建PcDos2000虚拟机(完整图文详细步骤教程) 一、PcDos20001.PcDos2000简介2.PcDos2000下载 二、创建PcDos2000虚拟机1.新建虚拟机2.类型配置3.类型配置4.选择版本5.命名、存位置6.磁盘容量7.调整虚拟配置7.1 调整虚拟配…

嵌入式学习 Day 29

函数: 1.函数的定义 2.函数的调用 3.函数的声明 1.函数传参: 1.赋值传递(复制传递) 函数体内部想要使用函数体外部变量值的时候使用复制传递 2.全局变量传递 3.地址传递 函数体内部想要修改函数体外部变量值的时候使用地址传递 函数…

Java多态性的作用及解析

多态性是 Java 面向对象编程的一个重要特性,它的主要作用包括以下几个方面: 提高代码的可扩展性:多态性使得我们可以在不修改现有代码的情况下,通过继承和重写方法来添加新的行为。这意味着我们可以在不影响现有功能的前提下,对代码进行扩展和修改。 增强代码的可读性:使…

STM32F103--基于正点原子的 FreeRTOS 移植(完整教程)附测试代码

前言 在看正点原子的FreeRTOS开发手册移植的时候,发现开发手册的描述并不全面,有几处遗漏。下面我展示出完整的教程,希望大家在学习的时候能够轻松点。 一、准备工作 1、正点原子的FreeRTOS官方资料 大家可自行到官方下载,或者在…

基于springboot+vue的健身房管理系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

FPGA之加法逻辑运算

由于FPGA需要被反复烧写,它实现组合逻辑的基本结构不可能像ASIC 那样通过固定的与非门来完成,而只能采用一种易于反复配置的结构。查找表可以很好地满足这一要求,目前主流FPGA都采用了基于SRAM 工艺的查找表结构。LUT本质上就是一个RAM。它把…

leetcode 热题 100_找到字符串中所有字母异位词

题解一&#xff1a; 滑动窗口&#xff1a;类似于字符串匹配&#xff0c;但匹配异位词需要包含相同的字母及个数&#xff0c;可以分别用两个数组存储字符串s滑动窗口和字符串p的字母及个数&#xff0c;再用Array.equals()进行比对。对于s.length()<p.length()的情况需要特判。…

【Linux】线程概念|线程理解|线程控制

文章目录 线程概念Linux中线程是否存在的讨论线程创建和线程控制线程的终止和等待&#xff08;三种终止方式 pthread_join()的void**retval&#xff09; 线程概念 线程就是进程内部的一个执行流&#xff0c;线程在进程内运行&#xff0c;线程在进程的地址空间内运行&#xff0…

Redis集群(主从)

1.主从集群 集群结构: 一.单机安装redis 1.上传压缩包并解压&#xff0c;编译 tar -xzf redis-6.2.4.tar.gz cd redis-6.2.4 make && make install 2.修改redis.config的配置并启动redis # 绑定地址&#xff0c;默认是127.0.0.1&#xff0c;会导致只能在本地访问。…

SpringBoot源码解读与原理分析(四十)基于jar/war包的运行机制

文章目录 前言第14章 运行SpringBoot应用14.1 部署打包的两种方式14.1.1 以可独立运行jar包的方式14.1.2 以war包的方式 14.2 基于jar包的独立运行机制14.2.1 可独立运行jar包的相关知识14.2.2 SpringBoot的可独立运行jar包结构14.2.3 JarLauncher的设计及工作原理14.2.3.1 Jar…

2核4G云服务器租用价格_2核4G云主机优惠价格_2024年报价

租用2核4G服务器费用价格&#xff0c;2核4G云服务器多少钱一年&#xff1f;1个月费用多少&#xff1f;阿里云2核4G服务器30元3个月、轻量应用服务器2核4G4M带宽165元一年、企业用户2核4G5M带宽199元一年&#xff1b;腾讯云轻量2核4G服务器5M带宽165元一年、252元15个月、540元三…

毕业生信息招聘平台|基于springboot+ Mysql+Java的毕业生信息招聘平台设计与实现(源码+数据库+文档+PPT)

目录 论文参考 摘 要 数据库设计 系统详细设计 文末获取源码联系 论文参考 摘 要 随着社会的发展&#xff0c;社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。 毕业生信息招聘平台&#xff0c;主要的模块包括查看管理员&a…

力扣经典题目解析--最小覆盖子串

原题地址: . - 力扣&#xff08;LeetCode&#xff09; 给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串&#xff0c;则返回空字符串 "" 。 注意&#xff1a; 对于 t 中重复字符&#xff0c;我们寻找…

Finetuning Large Language Models: Sharon Zhou

Finetuning Large Language Models 课程地址&#xff1a;https://www.deeplearning.ai/short-courses/finetuning-large-language-models/ 本文是学习笔记。 Goal&#xff1a; Learn the fundamentals of finetuning a large language model (LLM). Understand how finetu…

Vue3:用vite创建Vue3项目

一、简介 vite是新一代前端构建工具&#xff0c;官网地址&#xff1a;https://vitejs.cn vite的优势如下&#xff1a; 轻量快速的热重载&#xff08;HMR&#xff09;&#xff0c;能实现极速的服务启动。对 TypeScript、JSX、CSS 等支持开箱即用。真正的按需编译&#xff0c;不…

【计算机那些事】

目录 【云计算】 【原神用的是UDP还是TCP】 【几个特殊地址】 【socket是什么】 【内网穿透是什么】 【为什么有HTTP协议&#xff0c;还要有websocket协议】 【科普路由器&#xff0c;集线器&#xff0c;交换机&#xff0c;网桥&#xff0c;光猫】 【USB接口那些事】 …

MacOS包管理工具homebrew使用教程

MacOS包管理工具homebrew使用教程 1.概述与安装2.基本使用3.其他常用命令 1.概述与安装 homebrew是Mac OS X上的强大的包管理工具&#xff0c;可以高效管理各种软件包 安装&#xff1a; 1、安装xcode&#xff1a; xcode-select --install2、一行命令下载&#xff1a; /bin…