字节、快手、Vidu“打野”升级,AI视频小步快跑

文|白    鸽

编|王一粟

继9月份版本更新之后,光锥智能从生数科技联合创始人兼CEO唐家渝朋友圈获悉,Vidu大模型将于本周再次进行版本升级,Vidu-1.5版本即将上线。

此版本更新方向仍是重点延伸大模型的泛化能力和主体一致性问题。上一版本重点是单一主体的一致性,而最新版本则能够理解和整合人物、物体、环境等多个概念,遵循用户指令30秒内生成多个主体融合的相关视频结果,率先实现视频创作中的多主体一致性生成。

除Vidu外,自今年9月份以来,据不完全统计,包括字节旗下即梦AI、快手可灵AI、Runway、智谱清影、爱诗科技PixVerse、Pika等主流的AI视频生成平台,都已经进行了版本更新。

当前,在爆火的AI视频生成赛道中,大模型创企、互联网大厂等纷纷入局,而在经过前期各家密集进行产品发布阶段后,如今已进入产品迭代升级比拼阶段。

通过各家版本更新的内容,不难发现,AI视频生成大模型能力迭代的大方向,仍是生成视频的时长、画面的稳定性、连续性和主体前后的一致性上。

但与此同时,各个玩家又在实际功能应用中,开始出现“分野”,各有侧重,部分中小玩家也开始找到自己的细分市场。

比如Runway最新版本中更新了可将真人面部表情精确复刻给AI角色的Act-One,以能够实现3D化的AI摄像头控件。PixVerse则上线了各种万圣节特效、毒液特效等。

对此轮各AI视频生成平台的更新,星贤文化创始人、AI原创玄幻IP《山海奇镜》制作人陈坤认为:“最大的更新应该是Act-One这种表情迁移,提供了人物表演的基础可能性。”而对于人物主体的一致性和稳定性,“有进步,但并没有代际型进步。”

在AI视频创作者尾鳍Vicky看来,相比上半年初代产品,最新更新的AI视频平台,除了在底层模型能力上的迭代之外,在功能上也进行了更新,比如首尾针、画质和帧率的补足、配音等功能,“这些功能的完善,实际上是比上半年更全面。”

如果说2024上半年,是AI视频生成赛道的军备竞赛,那么下半年则是进入小步快跑的版本更新周期。

而在此阶段,字节和快手的交锋仍在激烈进行中,中小厂商开始找到自己独特赛道,而一些企业专注走海外市场,也实现了“国内开花,墙外香”的效果。

无疑,这一阶段的厮杀,看似温和,但却实质性的影响平台自身的定位和未来发展的方向,以及后续用户群体和数量规模的可持续增长。

字节狂追,快手抢跑

“即梦有些掉队。”这是AI视频生成平台用户给出的客观评价。

作为去年第一批的AI视频生成平台,以及字节旗下的产品,即梦AI的视频生成效果一直备受使用者诟病,处于被Runway、Pika等同一批玩家吊打的状态。

今年6月,字节在短视频领域的直接竞争对手——快手,正式在官网上线了“可灵”视频生成大模型,并火速出圈。同时,越来越多AI视频生成平台如雨后春笋般推出,AI视频生成赛道彻底爆火。

在强大竞争压力之下,作为国内AI产品第一梯队,补上视频生成这一块短板,已成为字节跳动面临的当务之急,而其奋起直追的速度也超乎想象。

9月24日,2024火山引擎AI创新巡展深圳举办,原抖音艺术负责人陈欣然以即梦AI及剪映市场和运营负责人的身份亮相,并宣布即梦AI已经接入了豆包最新的视频生成模型。

同期,字节跳动发布豆包模型家族的两款视频生成模型Seaweed和Pixeldance,并通过即梦 AI、火山引擎分别面向创作者和企业客户小范围邀测。

11月8日,字节跳动旗下的AI内容平台即梦AI宣布,由字节跳动自研的视频生成模型Seaweed面向平台用户正式开放。

据字节跳动方面介绍,本次开放使用的豆包视频生成模型Seaweed是该款模型的标准版,仅需60秒即能生成时长5秒的高质量AI视频,领先国内业界3至5分钟的所需生成时间。

即梦AI还透露,近期Seaweed和Pixeldance两款视频生成模型的Pro版也将开放使用。Pro 版模型能实现自然连贯的多拍动作与多主体复杂交互,攻克了多镜头切换的一致性难题,在镜头切换时可同时保持主体、风格、氛围的一致性,适配电影、电视、电脑、手机等各种设备的比例。

字节抖音和快手,作为国内短视频平台的领军者,双方的竞争已经从短视频、电商转移至AI领域,客观来说,抖音在各方面都压快手一头。但唯独在AI领域,快手给出了漂亮的反击。

自6月一鸣惊人之后,快手可灵其实已经有数次的小版本的迭代。

但在底层大模型能力上,今年9月20日,快手发布可灵1.5版本,接入新一代模型,实现了画质和动态质量都大幅提升,原有的模型也加入了新功能——运动笔刷,生成效果可控性增强。

“可灵1.5很强,可以说是所有模型里面最真实的,吊打Runway,基本上已经克服了之前人物变形的问题。”AIGC创业者洋芋酱AIgen(艺名)如此对光锥智能说道。

在实际生成的视频效果中,对比可灵和Runway,可以看到,同一个提示词,两者在实际人物主体的稳定性上效果都很强,但可灵生成出的视频效果能够自动解锁面部表情。

“Runway其实也能自主生成面部表情,但效果非常诡异。”洋芋酱AIgen如此说道,不过,可灵AI和Runway这种能力是随机的,并不固定。

这其实也能够看到,可灵AI和Runway在实际生成效果上更胜一筹,而在对提示词的理解上,可灵AI也确实走在前列,但未来也仍需要不断迭代升级,才能将这一能力固化下来。

不过,此次即梦上线最新视频生成大模型之后,尾鳍Vicky则认为其在模型能力和UI设计上,与可灵差距不大。同时,在内测即梦平台Pro版模型的时候,其能够轻松控制画面的运动幅度和动作。

作为国内头部的短视频平台,快手和字节,在AI视频生成赛道的布局,终局目的是要吸引和留住用户的注意力,而这就需要不断生产出新颖、有质量、有创意的内容。

基于此,AI短剧,也成为字节即梦和快手可灵竞争的焦点之一。

今年7月份,由“可灵AI”创作出的AI短剧《山海奇镜之劈波斩浪》引发广泛关注,该短剧成为国内首部AIGC原创奇幻微短剧。

9月,快手星芒短剧联合“可灵AI”推出了“星有灵犀-AI短剧创作大赛”。据悉,大赛以流量奖励、荣誉奖励、内容签约等多项举措激励更多人加入AI短剧创作。

字节同样不甘示弱,即梦AI在联手博纳影业发布首部AIGC生成科幻短剧《三星堆:未来启示录》的同时,也在联手抖音平台多位“超级创作者”实现共创,邀请平台上有高质量粉丝及高影响力的达人,共同加入“超级创作者联盟”计划,希望借此打造国内最大的虚拟创作社群。

但现阶段不管是抖音,还是快手,其视频平台的影视创作者创作的内容,“很难破圈儿。”尾鳍Vicky如此说道,“因为现在整个市场尚未形成,C端用户并不知道用它来干嘛。头部会有一些商业化需求,但需求并不多,整体并不稳定。”

毕竟,现阶段全球的专业创作者还比较少,且AI视频生成大模型技术尚处于早期阶段。

因此,作为头部视频平台,字节和快手之间的竞争也日趋激烈,而除了底层AI技术、产品之争外,更重要的则在于谁能够率先探索出技术赋能内容之路。毕竟,平台如果能够聚集更多具有创新意识的内容创作者,就能够打造出一个更受用户关注和喜爱的社区生态。

当然,除了字节和快手之外,在AI视频生成赛道中的其他玩家,也开始出现“分野”,部分中小厂商,也开始探索并走出了一条属于自己的差异化竞争之路。

细分市场崛起,找准自身定位是王道

在抖音、快手等短视频平台上,一些创作者创作的内容可能破圈儿难度比较大,但一些包含鬼畜特效的视频,却异常的火爆,比如由AI生成的何炅和黄磊突然打架的视频。

对于AI视频生成赛道的玩家来说,如果字节和快手,是全方位的技术和内容生态体系的竞争,而其他中小玩家更多的则是聚焦在细分赛道,找准自身平台和产品定位,则成为生存发展的基础。

10月底,Runway的CEO在公开信中明确表示, Runway并不是一家AI公司,而是一家媒体和娱乐公司,“我认为 AI 公司的时代已经结束了。”

基于此,在各大公司争相卷AI视频生成长度、逼真度、流畅度的时候,Runway显然已经在AI视频赛道中走出了自己的特色——做专门服务于艺术、媒体和娱乐的AI。

从Runway的实际视频生成效果来看,其在人物稳定性、一致性上的效果可以说走在前列。而除了基础技术能力外,在最新的版本更新中,Runway上线的2个新功能虽小,但都将为动画师、游戏开发者和电影制作人提供非常大的便利、节约巨大的成本。

Runway可以说是最受影视从业者欢迎的产品之一,除技术实力之外,更重要的还在于性价比。

“ Runway实在是太香了,我们用可灵都是省着用,但是Runway是无限次数的,每天抽个几百次都无所谓。”洋芋酱AIgen表示,“AI视频的随机性还是很强的,如果按次收费,普通创作者可能很难承受起这个成本。”

反观可灵,如果用1000元购买积分,能够购买15000可灵值,每次用35可灵值,1000元只能生成428次。对于真正的创业者来说,基本不够用,“按照我在Runway每天要生成两百多次视频的频率来看,可灵1000元购买的积分基本2天就烧完了。”洋芋酱AIgen如此说道。

在光锥智能上一篇《爆“卷”的AI视频,大厂向左,创企向右》文章中也提到过,对于现阶段各平台采用的会员制收费方式,对于不能够商业化闭环的创业者而言,后续的付费率和付费意愿都不会很高。而现如今看来,对于即使能够实现商业化闭环的创业者而言,性价比也是影响其使用产品的关键因素。

而除了Runway之外,Pika和Pixverse也找到了自己的赛道。从他们最新更新的版本中可以看到,这两家重点是训练了一些用户能够直接使用的特效效果,“虽然比喻可能会不太恰当,但是有点接近之前抖音做的那种贴纸。”洋芋酱AIgen说道。

比如在10月底万圣节期间,PixVerse V3版本新增了不少万圣节主题的特效,包括僵尸模式、巫师帽和怪物入侵等主题效果,还有类似于Pika很火的AI捏捏特效,视频延长功能,用户可以为已有视频额外增加5-8秒的内容,并能精确控制新增片段的内容走向。

而随着最近《毒液:最后一舞》电影的上映,PixVerse基于最新视频模型PixVerse V3推出了新特效“我们是毒液”的视频效果,能够一键将图片生成酷炫毒液动画。

当前,在社交平台上,这种鬼畜特效非常受用户欢迎。此前Pika在1.5版本中,就推出了AI捏捏的特效,一经推出,就备受用户喜爱,其也靠着这一波特效,实现了弯道超车。而和Pika差不多时间开始增长的海螺AI,其实也是靠人物表演和meme表情包直接拉爆了海外舆论,弯道超车。

Pika的AI捏捏特效

事实上,尽管海螺AI推出时间较晚,但行业从业者对海螺AI的评价并不低。“海螺AI在人物动作上的表现很厉害,最近何炅和黄磊打架的AI生成视频,就是通过海螺AI生成。”洋芋酱AIgen说道。

不过,海螺AI更重要的是实现了“国内开花,墙外香”的效果。作为国内AI公司MiniMax在海外推出的AI视频生成平台,其一经推出,搜索热度持续攀升。

据“AI产品榜”统计,海螺AI网页版9月访问量大涨860%,登顶9月全球及国内增速榜首。海外用户纷纷在社交平台分享使用体验,普遍认为海螺AI是目前市面上最出色的AI视频生成工具之一。

而凭借产品在海外市场的爆火,MiniMax在商业化能力上,已经走在大模型六小虎的前列。

相比较来说,像Vidu和智谱清影这一类的平台,在主体一致性和人物稳定性中,视频生成时长等方向上正在不断进化,但尚未形成专属于自己风格的赛道和独特的竞争优势。

尽管AI视频生成技术正不断进化,并衍生出具有特色的细分赛道。但信达证券研报也显示,AI视频生成技术在人物一致性、所需时长、画面质量等方面仍需进一步提升,以满足商业化水准。

同时,目前主流AI视频工具还处在视频生成竞争的阶段,且大多数为单一功能产品,仍需要多种不同的视频创作工具串联使用才能达到直接输出可商业化视频的效果。

未来,AI视频生成大模型平台,仍需要不断迭代进化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/914833.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

分享 pdf 转 word 的免费平台

背景 找了很多 pdf 转 word 的平台都骗进去要会员,终于找到一个真正免费的,遂分享。 网址 PDF转Word转换器 - 100%免费市面上最优质的PDF转Word转换器 - 免费且易于使用。无附加水印 - 快速将PDF转成Word。https://smallpdf.com/cn/pdf-to-word

CentOS下如何安装Nginx

1、下载nginx 官方网站 http://nginx.org 下载链接:http://nginx.org/download/ 下载完成后的安装包: 2、使用解压命令进行解压 tar -zxvf nginx-1.13.7.tar.gz3、在安装所需的安装环境 安装gcc环境 yum install gcc-c安装第三方开发包 - PCRE(P…

Springboot 不同版本的配置文件怎么知道差异

起因 今天配置一个 Springboot-3.3.5 的 redis-starter,结果一直提示链接不上 redis java.net.ConnectException: Connection refused我反复对比了新项目和老项目的 redis 配置文件格式,是一模一样的! Debug 过程 配置中增加了如下配置 …

Diffusion Policy——斯坦福机器人UMI所用的扩散策略:从原理到其编码实现(含Diff-Control、ControlNet详解)

前言 本文一开始是属于此文《UMI——斯坦福刷盘机器人:从手持夹持器到动作预测Diffusion Policy(含代码解读)》的第三部分,考虑后Diffusion Policy的重要性很高,加之后续还有一系列基于其的改进工作 故独立成本文,且写的过程中 …

计算机新手练级攻略——写博客

目录 计算机新手练级攻略——写博客计算机新手写博客的好处加深知识点建立个人IP可能有额外的收入 如何写博客确定博客主题方向选择博客平台学习基础技能一定要有互动性持之以恒,克服惰性Just do it!!! 计算机新手练级攻略——写博…

哥德巴赫猜想渐行渐远

我现在的工作,表明经典分析可能出了问题,如此则连Vinogradov的三素数定理都不成立了,更别说基于L-函数方程的陈氏定理“12”了。事实上即使L-函数方程成立,由于我指出Siegel定理不成立,陈景润和张益唐的工作就不成立。…

Linux探秘坊-------1.系统核心的低语:基础指令的奥秘解析(1)

1.Linux的背景介绍 Linux 操作系统的发展历程充满了激情与创新喵~🎀 萌芽期 (1983 - 1991):Linux 的历史可追溯到 1983 年,理查德斯托曼 (Richard Stallman) 发起 GNU 计划,目标是创建一个自由软件操作系统。1987 年发…

Angular 和 Vue2.0 对比

前言 :“业精于勤,荒于嬉;行成于思,毁于随” 很久没写博客了,大多记录少进一步探查。 Angular 和 Vue2.0 对比: 一.概念 1.1 Angular 框架: 是一款由谷歌开发的开源web前端框架(核…

【Python】轻松实现机器翻译:Transformers库使用教程

轻松实现机器翻译:Transformers库使用教程 近年来,机器翻译技术飞速发展,从传统的基于规则的翻译到统计机器翻译,再到如今流行的神经网络翻译模型,尤其是基于Transformer架构的模型,翻译效果已经有了质的飞…

[2024最新] macOS 发起 Bilibili 直播(不使用 OBS)

文章目录 1、B站账号 主播认证2、开启直播3、直播设置添加素材、隐私设置指定窗口添加/删除 窗口 4、其它说明官方直播帮助中心直播工具教程 目前搜到的 macOS 直播教程都比较古早,大部分都使用 OBS,一番探索下来,发现目前已经不需要 OBS了&a…

前端 性能优化 (图片与样式篇)

文章目录 前端能够做哪些图片优化?1、减小图片体积2、图片缓存服务工作线程 (Service Workers)缓存IndexDB缓存图片LocalStorage缓存 3、图片懒加载使用 loading"lazy" 属性 4、不同分辨率下使用不同的图片5、使用webp格式的图片6、配置图片CDN7、减少图片和动图的使…

【MySQL 保姆级教学】事务的自动提交和手动提交(重点)--上(13)

目录 1. 什么是事务?2. 事务的版本支持3. 事务提交的方式3.1 事务提交方式的分类3.2 演示的准备的工作3.2.1 创建表3.2.2 MySQL的服务端和客户端3.2.3 调低事务的隔离级别 4. 手动提交4.1 手动提交的命令说明4.2 示例一4.3 示例二4.4 示例三4.5 示例四 5. 自动提交5…

C++ | Leetcode C++题解之第546题移除盒子

题目&#xff1a; 题解&#xff1a; class Solution { public:int dp[100][100][100];int removeBoxes(vector<int>& boxes) {memset(dp, 0, sizeof dp);return calculatePoints(boxes, 0, boxes.size() - 1, 0);}int calculatePoints(vector<int>& boxes…

RK3588部署ppocr流程及安装环境_笔记1

前言&#xff1a; RK3588部署ppocr流程及ubuntu安装环境 目录 一、NoMachine安装使用 二、把ubuntu系统从英文修改为中文界面 三、安装conda 没有报错说明没有问题&#xff0c;如果source的时候报错&#xff0c;查看 ​编辑 报这种错&#xff1a; 5、需要添加国内镜像源…

二分查找习题篇(下)

二分查找习题篇(下) 1.山脉数组的峰顶索引 题目描述&#xff1a; 给定一个长度为 n 的整数 山脉 数组 arr &#xff0c;其中的值递增到一个 峰值元素 然后递减。 返回峰值元素的下标。 你必须设计并实现时间复杂度为 O(log(n)) 的解决方案。 示例 1&#xff1a; 输入&#xf…

Linux学习笔记之shell快速入门及相关变量

Shell是什么 Shell是一个命令解释器&#xff0c;它为用户提供了一个向Linux内核发送请求以便运行程序的界面系统级程序&#xff0c;用户可以通过Shell来启动、挂起甚至编写一些程序。 Shell脚本执行方式 脚本格式要求 脚本以#!/bin/bash开头脚本需要有可执行权限 脚本的常…

el-table 行列文字悬浮超出屏幕宽度不换行的问题

修改前的效果 修改后的效果 ui框架 element-plus 在网上找了很多例子都没找到合适的 然后这个东西鼠标挪走就不显示 控制台也不好调试 看了一下El-table的源码 他这个悬浮文字用的el-prpper 包着的 所以直接改 .el-table .el-propper 设置为max-width:1000px 就可以了 吐槽一…

ApiSmart x Qwen2.5-Coder 开源旗舰编程模型媲美 GPT-4o, ApiSmart 实测!

通义千问代码模型开源版。Qwen2.5-Coder相比CodeQwen1.5有了实质性的改进。Qwen2.5-Coder在包含5.5万亿Token的编程相关数据上进行了训练&#xff0c;使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。 阿里云-2024年11月12日 Qwen2.5-Coder …

Java项目实战II基于微信小程序的个人行政复议在线预约系统微信小程序(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 基于微信小…

MyBatis xml 文件中 SQL 语句的小于号未转义导致报错

问题现象 在 MyBatis 的 xml 文件中添加了一个 SQL 语句 <select id"countXxx" resultType"int">select count(*) from t1 where count < 3 </select>启动 Spring Boot 应用程序后报错&#xff1a; Caused by: org.apache.ibatis.builde…