每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
上个月,当OpenAI揭晓了它的新一代视频生成模型Sora时,它邀请了一些电影制作人来试用。本周,该公司发布了结果:七部超现实的短片,毫无疑问地显示出生成视频的未来正以迅雷不及掩耳之势到来。
早在2022年末,包括Meta、谷歌以及视频技术初创公司Runway在内的一些公司就推出了能够将文本转换成视频的模型。这个小把戏看起来很酷,但结果却是粗糙、错误百出,而且只有几秒钟长。
快进到18个月后,Sora的高清、逼真的输出成果如此惊人,以至于一些激动人心的观察家预言好莱坞的末日即将来临。Runway的最新模型能够生成与大型动画工作室制作的短片相媲美的视频。Midjourney和Stability AI,这两家背后最受欢迎的文本到图片模型的公司,现在也在研究视频领域。
许多公司都在争先恐后地利用这些突破创造商机。大多数公司还在摸索中。Vyond的CEO Gary Lipkowitz说:“我常常在玩这些工具时尖叫,‘天哪,这太酷了’。但你怎么能在工作中使用它呢?”
不管这个问题的答案是什么,它可能会彻底颠覆广泛的业务并改变许多专业人士的角色,从动画师到广告商。滥用的担忧也在增长。生成假视频的广泛能力将比以往任何时候都更容易在互联网上散布宣传和非自愿色情内容。我们看到了这一点来临。问题是,没有人有一个好的解决方案。
随着我们继续探索未来的好与坏,这里有四件事情需要考虑。我们还精选了一些使用这项技术制作的最佳视频,包括洛杉矶制作公司Myles的实验短片《Somme Requiem》的独家首映。继续阅读,了解AI电影制作的发展方向。
1. Sora只是开始
OpenAI的Sora在视频生成领域目前遥遥领先于竞争对手。但其他公司也在努力追赶。市场在接下来的几个月内将变得异常拥挤,因为更多公司完善他们的技术并开始推出Sora的竞争对手。
英国初创公司Haiper本月走出隐秘状态。它由前谷歌DeepMind和TikTok研究员于2021年创立,他们想要研究一种叫做神经辐射场(NeRF)的技术,可以将2D图片转换成3D虚拟环境。他们认为,将快照转换成用户可以进入的场景的工具对于制作视频游戏将是有用的。
但是六个月前,Haiper从虚拟环境转向视频剪辑,调整其技术以适应CEO Yishu Miao认为将会是比游戏市场更大的市场。“我们意识到视频生成是最佳选择,”Miao说。“对它的需求将会非常高。”
就像OpenAI的Sora一样,Haiper的生成视频技术使用扩散模型来管理视觉效果,使用变压器(像GPT-4这样的大型语言模型中的组件,使它们擅长预测接下来会发生什么)来管理帧之间的一致性。“视频是数据序列,变压器是学习序列的最佳模型,”Miao说。
一致性对于生成视频来说是一个大挑战,也是现有工具一次只产生几秒视频的主要原因。视频生成的变压器可以提高剪辑的质量和长度。缺点是变压器会编造东西,或者幻觉。在文本中,这并不总是显而易见的。在视频中,这可能导致,比如说,一个人有多个头。保持变压器在正确轨道上需要大量的训练数据和充满电脑的仓库。
这就是为什么Irreverent Labs,由前微软研究员创立的公司,采取了不同的方法。像Haiper一样,Irreverent Labs最初是为游戏生成环境,然后转向完整的视频生成。但该公司不想跟随群体复制OpenAI和其他公司的做法。“因为那样就是一场计算的战斗,一场GPU战争,”Irreverent的联合创始人兼CTO David Raskino说。“在那种情况下只有一个赢家,他穿着皮夹克。”(他指的是价值万亿美元的芯片巨头Nvidia的CEO Jensen Huang。)
而不是使用变压器,Irreverent的技术将扩散模型与一个模型结合在一起,这个模型基于常识物理学(比如球如何弹跳或水如何在地板上溅开)来预测下一帧中有什么。Raskino说,这种方法降低了训练成本和幻觉的数量。模型仍然会产生故障,但它们是物理扭曲(比如,弹跳的球不遵循平滑的曲线,例如)的故障,可以在生成视频后应用已知的数学修正。
哪种方法会持续下去还有待观察。Miao将今天的技术比作大约GPT-2时期的大型语言模型。五年前,OpenAI的开创性早期模型让人们惊叹,因为它展示了可能性。但技术成为游戏改变者还需要几年时间。
视频也是如此,Miao说:“我们都在山脚下。”
2. 人们将如何使用生成视频?
视频是互联网的媒介。YouTube、TikTok、新闻片段、广告:期待在已有视频的每个地方看到合成视频的出现。
营销行业是生成技术最热衷的采用者之一。根据Adobe在美国进行的一项最近调查,三分之二的营销专业人士在工作中已经尝试使用生成AI,超过一半的人说他们已经使用这项技术产生图像。
生成视频接下来。一些营销公司已经发布了短片,以展示这项技术的潜力。最新的例子是由Myles制作的长达2.5分钟的《Somme Requiem》。你可以在下面的MIT Technology Review独家揭晓中观看这部电影。
《Somme Requiem》是由洛杉矶制作公司Myles制作的短片。每个镜头都是使用Runway的Gen 2模型生成的。然后,Myles的视频编辑团队将这些剪辑拼接在一起,进行了色彩校正,并配上了音乐。
《Somme Requiem》描绘了1914年圣诞休战期间雪地中的士兵。这部电影由使用Runway的生成视频模型制作的数十个不同镜头组成,然后由Myles的人类视频编辑拼接、调色并配上音乐。“故事讲述的未来将是混合工作流程,”创始人兼CEO Josh Kahn说。
Kahn选择了这个战时背景来表达一个观点。他指出,Apple TV+系列《Masters of the Air》,讲述了一群第二次世界大战飞行员的故事,耗资2.5亿美元。彼得·杰克逊的第一次世界大战纪录片《他们不会变老》背后的团队花了四年时间策划并恢复了100多小时的档案影片。“大多数电影制作人只能梦想有机会在这个类型中讲述一个故事,”Kahn说。
“独立电影制作已经有点在死去,”他补充说。“我认为这将创造一个令人难以置信的复兴。”
Raskino希望如此。“恐怖电影类型是人们测试新事物的地方,尝试新事物直到它们破裂,”他说。“我认为我们将会看到一个由大约四个人在某个地下室里使用AI创造的大片恐怖电影。”
那么生成视频是好莱坞的杀手吗?还不是。《Somme Requiem》中的场景设置镜头——空旷的树林,荒凉的军营——看起来很棒。但其中的人物仍然受到扭曲的手指和畸形的脸的困扰,这是这项技术的标志。生成视频最擅长的是宽角镜头或长时间的特写,这创造了一种怪异的氛围但很少有动作。如果《Somme Requiem》更长,它会变得乏味。
但是,在故事长度的电影中,场景设置镜头一直在出现。大多数只有几秒钟长,但拍摄它们可能需要几个小时。Raskino建议,生成视频模型很快可以用来以极低的成本生产这些中间镜头。这也可以在生产的后期阶段即兴完成,无需重新拍摄。
Gen Digital的CTO Michal Pechoucek同意。“我认为这就是技术的发展方向,”他说。“我们将看到许多不同的模型,每个模型都在电影制作的某个特定领域接受特定训练。这些只是有才华的视频制作团队使用的工具。”
我们还没有到达那里。生成视频的一个大问题是用户对输出的控制不足。产生静态图像可能是一种碰运气的事;产生几秒钟的视频甚至更加冒险。
“现在它仍然很有趣,你会得到啊哈时刻,”Miao说。“但生成完全是你想要的视频是一个非常困难的技术问题。我们距离从单一提示生成长时间、一致的视频还有一段距离。”
这就是为什么Vyond的Lipkowitz认为这项技术还没有
为大多数企业客户准备好。这些用户希望对视频的外观有更多控制,而不是当前工具给予他们的。“运行一个生成模型就像掷骰子,”Lipkowitz说。“对大多数视频制作团队来说,这是一个硬性否定,特别是在企业领域,一切都必须是像素完美和品牌一致的。如果视频出现问题——也许角色有太多手指,或者有一个公司标志是错误的颜色——那么,不走运,这就是gen AI的工作方式。”
解决方案?更多数据,更多训练,重复。“我希望我可以指向一些复杂的算法,”Miao说。“但不,这只是更多的学习。”
3. 虚假信息并不新鲜,但深度伪造将使其变得更糟。
在线虚假信息多年来一直在破坏我们对媒体、机构和彼此的信任。一些人担心,添加假视频到混合中将会摧毁我们剩下的共享现实的任何支柱。
“我们正在用不信任、困惑、恐惧和仇恨替代信任,”Pechoucek说。“没有基本事实的社会将会退化。”