为什么说 2023 年是 AI 视频生成的突破年?2024 年的 AI 视频生成有哪些值得期待的地方?

Diffusion Models视频生成-博客汇总

前言:2023年是 AI 视频生成的突破年,AI视频已经达到GPT-2级别了。去年我们取得了长足的进步,但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来?

目录

前言

现在哪里可以生成 AI 视频?

产品

研究和大型科技公司

AI视频的下一步是什么?

未解决的问题


前言

2023 年是 AI 视频爆发的一年。今年年初,还没有公开的文本到视频模型。仅仅 12 个月后,数十种视频生成产品开始投入使用,全球数百万用户根据文本或图像提示创建短片。 

这些产品仍然相对有限——大多数生成 3 到 4 秒的视频,输出的质量往往参差不齐,而且字符一致性等问题尚未得到解决。我们距离能够用单个文本提示(甚至多个提示!)创建皮克斯级别的短片还很遥远。 

然而,过去一年我们在视频生成方面看到的进展表明,我们正处于大规模变革的早期阶段——类似于我们在图像生成方面看到的情况。我们看到文本到视频模型的持续改进,以及图像到视频和视频到视频等分支的发展。

为了帮助了解创新的爆炸式增长,我们跟踪了迄今为止最大的发展、需要关注的公司以及该领域中剩余的基本问题。

现在哪里可以生成 AI 视频?

产品

今年到目前为止,我们已经跟踪了 21 个公共产品。虽然您可能听说过 Runway、Pika、Genmo 和 Stable Video Diffusion,但还有一长串其他功能有待发现。

些产品大多数来自初创公司——其中许多都是从 Discord 机器人开始的,它有一些优势:

  • 您不需要构建自己的面向消费者的界面,并且可以专注于模型质量
  • 您可以利用 Discord 每月 1.5 亿活跃用户的基础进行分发 - 特别是如果您在该平台的“发现”页面上获得推荐
  • 公共渠道为新用户提供了一种简单的方法来获得创作灵感(通过查看其他人生成的内容)并为产品提供社会证明

然而,我们开始看到更多的视频产品建立自己的网站甚至移动应用程序,特别是当它们成熟时。虽然 Discord 提供了一个很好的启动板,但它在纯生成之上添加的工作流程方面受到限制,并且团队对消费者体验的控制很少。还值得注意的是,有很大一部分人使用 Discord,可能会发现界面令人困惑或不经常返回它。

研究和大型科技公司

Google、Meta 和其他公司在哪里?它们在公共产品列表中明显缺失——尽管您可能已经看到了它们发布的引人注目的模型,例如 Meta 的Emu Video、Google 的VideoPoet和Lumiere以及字节跳动的MagicVideo。

到目前为止,除阿里巴巴之外的大型科技公司都选择不公开发布其视频生成产品。相反,他们发表了有关各种形式的视频生成的论文,并发布了演示视频,但没有宣布他们的模型是否或何时公开。

这些公司都拥有巨大的分销优势,其产品拥有数十亿用户。当他们的演示看起来很强大并且他们有机会在这个新兴类别中占领有意义的市场份额时,为什么不放弃他们的视频模型呢? 

重要的是要记住,这些公司行动缓慢。尽管 Instagram去年年底为 Stories推出了AI 背景生成器,而 TikTok 也已悄然推出了 AI 滤镜,但大多数公司仍未发布文本转图像产品。法律、安全和版权问题往往导致这些公司难以将研究成果转化为产品,从而导致产品推广延迟,从而让新来者有机会获得先发优势。

AI视频的下一步是什么?

如果您曾经使用过其中一款产品,您就会知道在人工智能视频进入黄金时段之前,还有很多需要改进的地方。模型生成与您的提示相匹配的精美剪辑的“神奇时刻”是可能的,但相对较少。更常见的是,您需要点击“重新生成”几次并裁剪或编辑输出才能获得专业级剪辑。

该领域的大多数公司都专注于解决一些核心(尚未解决)问题:

  • 控制——你能控制场景中发生的事情(例如,如果你提示“男人向前走”,运动是否如描述的那样?)以及“相机”如何移动?对于后一点,许多产品都添加了功能,允许您缩放或平移相机,甚至添加特殊效果。 

前一点——运动是否如描述的那样? - 更难解决。这是一个潜在的模型质量问题(模型是否理解并且可以根据您的提示执行),尽管一些公司正在尝试为用户提供更多的预生成控制权。 Runway 的运动画笔就是一个很好的例子,因为它允许您突出显示图像的特定区域并确定它们的移动方式。

  • 时间连贯性——如何使角色、物体和背景在帧之间保持一致而不变形或变形?这是所有公开可用模型中非常常见的问题。如果您今天看到一个时间连贯的视频,长度超过几秒,则很可能是视频到视频,拍摄视频并使用AnimateDiff 提示旅行之类的工具转换风格。
  • 长度——你能制作超过几秒的剪辑吗?这与时间一致性密切相关。许多公司限制您可以生成的视频的长度,因为他们无法确保几秒钟后的任何一致性。如果您看到长篇 AI 视频(如下所示),您会注意到它由一堆短片组成,并且需要数十(如果不是数百)提示!

未解决的问题

感觉AI视频已经达到GPT-2级别了。去年我们取得了长足的进步,但距离普通消费者每天使用这些产品还有很长的路要走。视频的“ChatGPT时刻”何时到来?该领域的研究人员和创始人之间尚未达成广泛共识,还有一些问题有待回答:

  • 当前的扩散架构适用于视频吗?今天的视频模型是基于扩散的:它们本质上生成帧并尝试在它们之间创建时间一致的动画(有多种策略可以做到这一点)。他们对 3D 空间以及对象如何交互没有内在的理解,这解释了扭曲/变形。例如,在剪辑的前半部分中看到一个人沿着街道行走,然后在后半部分中融入地面的情况并不少见 - 该模型没有“硬”表面的概念。由于缺乏场景的 3D 概念化,从不同角度生成相同的剪辑也很困难(如果不是不可能的话)。 

有些人认为视频模型从根本上不需要了解 3D 空间。如果他们接受足够高质量数据的训练,他们将能够学习对象之间的关系以及如何从不同角度表示场景。其他人相信这些模型需要 3D 引擎来生成时间上连贯的内容,特别是在几秒钟之后。 

  • 高质量的训练数据从哪里来?训练视频模型比其他内容模式更难,很大程度上是因为没有那么多高质量的、有标签的训练数据供这些模型学习。语言模型通常在Common Crawl等公共数据集上进行训练,而图像模型则在LAION和ImageNet等标记数据集(文本图像对)上进行训练。

视频数据更难获得。虽然 YouTube 和 TikTok 等平台上不乏可公开访问的视频,但这些视频没有标签,而且可能不够多样化(猫剪辑和有影响力的道歉之类的内容在数据集中可能过多!)。视频数据的“圣杯”可能来自工作室或制作公司,它们拥有从多个角度拍摄的长视频,并附有脚本和指导。然而,他们是否愿意授权这些数据进行训练还有待确定。 

  • 这些用例将如何在平台/模型之间进行细分?我们在几乎所有内容模式中看到的是,一种模型并不能“胜任”所有用例。例如,Midjourney、Ideogram 和 DALL-E 都具有不同的风格,并且擅长生成不同类型的图像。

我们预计视频也会有类似的动态。如果您测试当今的文本到视频和图像到视频模型,您会发现它们擅长不同的风格、运动类型和场景构成(我们将在下面展示两个示例)。围绕这些模型构建的产品可能会在工作流程方面进一步分化,并服务于不同的终端市场。这甚至不包括不进行纯文本到视频的相邻产品,而是处理诸如动画人类头像(例如HeyGen)、VFX(例如Wonder Dynamics)和视频到视频(例如,DomoAI)。

提示:“雪落在城市街道上,逼真”

玄武

跑道

稳定的视频扩散

皮卡实验室

提示:“小男孩玩老虎,动漫风格”

玄武

稳定的视频扩散

皮卡实验室

  • 谁将拥有工作流程?除了纯粹的视频生成之外,制作一个好的剪辑或电影通常需要编辑,特别是在当前的范例中,许多创作者正在使用视频模型来为在另一个平台上创建的照片制作动画。以中途图像开始、在 Runway 或 Pika 上进行动画处理、然后在 Topaz 中进行升级的视频并不罕见。然后,创作者会将视频带到 Capcut 或 Kapwing 等编辑平台,并添加配乐和画外音(通常在 Suno 和 ElevenLabs 等其他产品上生成)。 

在这么多产品之间来回切换是没有意义的。我们期望看到视频生成平台开始自行添加其中一些功能。例如,Pika 现在允许您在其网站上升级视频。然而,我们也看好人工智能原生编辑平台,它可以轻松地在一个地方从不同模型跨模式生成内容并将这些内容拼凑在一起。 

原文链接:https://a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024/#:~:text=2023%20was%20a%20breakout%20year,from%20text%20or%20image%20prompts. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/383926.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络——06分组延时、丢失和吞吐量

分组延时、丢失和吞吐量 分组丢失和延时是怎样发生的 在路由器缓冲区的分组队列 分组到达链路的速率超过了链路输出的能力分组等待排到队头、被传输 延时原因: 当当前链路有别的分组进行传输,分组没有到达队首,就会进行排队,从…

SHA-512在Go中的实战应用: 性能优化和安全最佳实践

SHA-512在Go中的实战应用: 性能优化和安全最佳实践 简介深入理解SHA-512算法SHA-512的工作原理安全性分析SHA-512与SHA-256的比较结论 实际案例分析数据完整性验证用户密码存储数字签名总结 性能优化技巧1. 利用并发处理2. 避免不必要的内存分配3. 适当的数据块大小总结 与其他…

【JavaEE】_传输层协议UDP与TCP

目录 1. 开发中常见的数据组织格式 1.1 XML 1.2 JSON 1.3 Protobuf 2. 端口号 3. UDP协议 4. TCP协议 4.1 特点 4.2 TCP报文格式 4.3 TCP可靠性机制 4.3.1 确认应答机制 4.3.2 超时重传机制 4.3.2.1 丢包的两种情况 4.3.2.2 重传时间 4.3.3 连接管理机制 4.3.3…

分享88个文字特效,总有一款适合您

分享88个文字特效,总有一款适合您 88个文字特效下载链接:https://pan.baidu.com/s/1Y0JCf4vLyxIJR6lfT9VHvg?pwd8888 提取码:8888 Python采集代码下载链接:采集代码.zip - 蓝奏云 学习知识费力气,收集整理更不…

160基于matlab的负熵和峭度信号的盲分离

基于matlab的负熵和峭度信号的盲分离。基于峭度的FastICA算法的收敛速度要快,迭代次数比基于负熵的FastICA算法少四倍以上。SMSE随信噪比增大两种判据下的FastICA算法都逐渐变小,但是基于峭度的算法的SMSE更小,因此基于峭度的FastICA算法性能…

H12-821_26

26.下列选项中,哪些路由前缀满足下面的IP-Prefix条件? A.20.0.1.0/24 B.20.0.1.0/23 C.20.0.1.0/25 D.20.0.1.0/28 答案:ACD 注释: 前缀列表可以匹配路由前缀和网络掩码。 ip ip-prefix test index 10 permit 20.0.0.0 16 greater-equal 24 less-equal…

【开源】SpringBoot框架开发个人健康管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 健康档案模块2.2 体检档案模块2.3 健康咨询模块 三、系统展示四、核心代码4.1 查询健康档案4.2 新增健康档案4.3 查询体检档案4.4 新增体检档案4.5 新增健康咨询 五、免责说明 一、摘要 1.1 项目介绍 基于JAVAVueSpri…

ZigBee学习——在官方例程实现组网

✨Z-Stack版本:3.0.2 ✨IAR版本:10.10.1 ✨这篇博客是在善学坊BDB组网实验的基础上进行完善,并指出实现的过程中会出现的各种各样的问题! 善学坊教程地址: ZigBee3.0 BDB组网实验 文章目录 一、基础工程选择二、可能遇…

Linux笔记之Docker进行镜像备份与迁移

Linux笔记之Docker进行镜像备份与迁移 ——2024-02-11 code review! 文章目录 Linux笔记之Docker进行镜像备份与迁移1. 导出容器文件系统为 tar 归档文件2. 将 tar 归档文件导入为新的 Docker 镜像3. 运行新的 Docker 镜像并创建容器 1. 导出容器文件系统为 tar 归档文件 要导…

【前端web入门第五天】03 清除默认样式与外边距问题【附综合案例产品卡片与新闻列表】

文章目录: 1.清除默认样式 1.1清除内外边距1.2清除列表圆点(项目符号) 3.外边距问题-合并现象4.外边距问题–塌陷问题5.行内元素垂直内外边距6.圆角与盒子阴影 6.1圆角 6.2 盒子模型-阴影(拓展) 综合案例一 产品卡片 综合案例二 新闻列表 1.清除默认样式 在实际设计开发中,要…

OpenCV-36 多边形逼近与凸包

目录 一、多边形的逼近 二、凸包 一、多边形的逼近 findContours后的轮廓信息countours可能过于复杂不平滑,可以用approxPolyDP函数对该多边形曲线做适当近似,这就是轮廓的多边形逼近。 apporxPolyDP就是以多边形去逼近轮廓,采用的是Doug…

带特效喝酒神器小程序源码-多种游戏支持流量主

由多个游戏组合而成,每一个小程序都基本带特效~~ 功能如下 1.小马快跑(支持竞选模式和个人单选模式,PS马是真的在跑哟) 2.彩票智能选号(支持多个彩种选号,快来选你的专属号码吧) 3.整蛊鳄鱼(少了一颗牙自动往酒杯加酒,看你和几杯) 4.真心话大冒险(这个就不多做解释啦) 5.…

【数学建模】【2024年】【第40届】【MCM/ICM】【F题 减少非法野生动物贸易】【解题思路】

一、题目 (一) 赛题原文 2024 ICM Problem F: Reducing Illegal Wildlife Trade Illegal wildlife trade negatively impacts our environment and threatens global biodiversity. It is estimated to involve up to 26.5 billion US dollars per y…

PyCharm2023.3.2配置conda环境

重点在于Path to conda这一步,需要找到conda.bat这个文件,PyCharm才能识别出现有的conda环境。

分享76个文字特效,总有一款适合您

分享76个文字特效,总有一款适合您 76个文字特效下载链接:https://pan.baidu.com/s/1rIiUdCMQScoRVKhFhXQYpw?pwd8888 提取码:8888 Python采集代码下载链接:采集代码.zip - 蓝奏云 学习知识费力气,收集整理更不…

操作系统(14)----文件系统的结构

目录 一.文件系统的层次结构 1.用户接口: 2.文件目录系统: 3.存取控制模块: 4.逻辑文件系统与文件信息缓冲区: 5.物理文件系统: 二.文件系统的全局结构 1.文件系统在外存中的结构 (1)物…

Linux nohup命令和

参考资料 linux后台运行nohup命令的使用及2>&1字符详解 目录 前期准备一. 基本语法二. 执行时不指定日志文件三. 执行后不想要日志文件四. nohup命令的执行与kill4.1 执行4.2 kill 前期准备 📄handle_file.sh #!/bin/bashecho "文件复制开始..."…

2.11 运算符

1、选择题 1.1、若有以下程序 main() { char a1,b2; printf("%c,",b); printf("%d\n",b-a); } 程序运行后的输出结果是 C A)3,2 B)50,2 C)2,2 D)2,50 解析:b是先赋值后自加&#…

MacOS - M1芯片 Mac 在“恢复”模式中启用系统扩展教程

部分软件需要开启系统扩展才能正常使用,但是默然M1芯片的Mac不能直接打开系统扩展,如下两图。 若要启用系统扩展,您需要在“恢复”环境中修改安全性设置。 若要执行此操作,请将系统关机,然后按住触控ID或电源按钮以开…

寻找最优的路测线 - 华为OD统一考试

OD统一考试(C卷) 分值: 200分 题解: Java / Python / C 题目描述 评估一个网络的信号质量,其中一个做法是将网络划分为栅格,然后对每个栅格的信号质量计算。 路测的时候,希望选择一条信号最好…