未来画卷:当AI短片撼动视界,虚拟与现实的界限模糊

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

上个月,当OpenAI揭晓了它的新一代视频生成模型Sora时,它邀请了一些电影制作人来试用。本周,该公司发布了结果:七部超现实的短片,毫无疑问地显示出生成视频的未来正以迅雷不及掩耳之势到来。

早在2022年末,包括Meta、谷歌以及视频技术初创公司Runway在内的一些公司就推出了能够将文本转换成视频的模型。这个小把戏看起来很酷,但结果却是粗糙、错误百出,而且只有几秒钟长。

快进到18个月后,Sora的高清、逼真的输出成果如此惊人,以至于一些激动人心的观察家预言好莱坞的末日即将来临。Runway的最新模型能够生成与大型动画工作室制作的短片相媲美的视频。Midjourney和Stability AI,这两家背后最受欢迎的文本到图片模型的公司,现在也在研究视频领域。

许多公司都在争先恐后地利用这些突破创造商机。大多数公司还在摸索中。Vyond的CEO Gary Lipkowitz说:“我常常在玩这些工具时尖叫,‘天哪,这太酷了’。但你怎么能在工作中使用它呢?”

不管这个问题的答案是什么,它可能会彻底颠覆广泛的业务并改变许多专业人士的角色,从动画师到广告商。滥用的担忧也在增长。生成假视频的广泛能力将比以往任何时候都更容易在互联网上散布宣传和非自愿色情内容。我们看到了这一点来临。问题是,没有人有一个好的解决方案。

随着我们继续探索未来的好与坏,这里有四件事情需要考虑。我们还精选了一些使用这项技术制作的最佳视频,包括洛杉矶制作公司Myles的实验短片《Somme Requiem》的独家首映。继续阅读,了解AI电影制作的发展方向。

1. Sora只是开始
OpenAI的Sora在视频生成领域目前遥遥领先于竞争对手。但其他公司也在努力追赶。市场在接下来的几个月内将变得异常拥挤,因为更多公司完善他们的技术并开始推出Sora的竞争对手。

英国初创公司Haiper本月走出隐秘状态。它由前谷歌DeepMind和TikTok研究员于2021年创立,他们想要研究一种叫做神经辐射场(NeRF)的技术,可以将2D图片转换成3D虚拟环境。他们认为,将快照转换成用户可以进入的场景的工具对于制作视频游戏将是有用的。

但是六个月前,Haiper从虚拟环境转向视频剪辑,调整其技术以适应CEO Yishu Miao认为将会是比游戏市场更大的市场。“我们意识到视频生成是最佳选择,”Miao说。“对它的需求将会非常高。”

就像OpenAI的Sora一样,Haiper的生成视频技术使用扩散模型来管理视觉效果,使用变压器(像GPT-4这样的大型语言模型中的组件,使它们擅长预测接下来会发生什么)来管理帧之间的一致性。“视频是数据序列,变压器是学习序列的最佳模型,”Miao说。

一致性对于生成视频来说是一个大挑战,也是现有工具一次只产生几秒视频的主要原因。视频生成的变压器可以提高剪辑的质量和长度。缺点是变压器会编造东西,或者幻觉。在文本中,这并不总是显而易见的。在视频中,这可能导致,比如说,一个人有多个头。保持变压器在正确轨道上需要大量的训练数据和充满电脑的仓库。

这就是为什么Irreverent Labs,由前微软研究员创立的公司,采取了不同的方法。像Haiper一样,Irreverent Labs最初是为游戏生成环境,然后转向完整的视频生成。但该公司不想跟随群体复制OpenAI和其他公司的做法。“因为那样就是一场计算的战斗,一场GPU战争,”Irreverent的联合创始人兼CTO David Raskino说。“在那种情况下只有一个赢家,他穿着皮夹克。”(他指的是价值万亿美元的芯片巨头Nvidia的CEO Jensen Huang。)

而不是使用变压器,Irreverent的技术将扩散模型与一个模型结合在一起,这个模型基于常识物理学(比如球如何弹跳或水如何在地板上溅开)来预测下一帧中有什么。Raskino说,这种方法降低了训练成本和幻觉的数量。模型仍然会产生故障,但它们是物理扭曲(比如,弹跳的球不遵循平滑的曲线,例如)的故障,可以在生成视频后应用已知的数学修正。

哪种方法会持续下去还有待观察。Miao将今天的技术比作大约GPT-2时期的大型语言模型。五年前,OpenAI的开创性早期模型让人们惊叹,因为它展示了可能性。但技术成为游戏改变者还需要几年时间。

视频也是如此,Miao说:“我们都在山脚下。”

2. 人们将如何使用生成视频?
视频是互联网的媒介。YouTube、TikTok、新闻片段、广告:期待在已有视频的每个地方看到合成视频的出现。

营销行业是生成技术最热衷的采用者之一。根据Adobe在美国进行的一项最近调查,三分之二的营销专业人士在工作中已经尝试使用生成AI,超过一半的人说他们已经使用这项技术产生图像。

生成视频接下来。一些营销公司已经发布了短片,以展示这项技术的潜力。最新的例子是由Myles制作的长达2.5分钟的《Somme Requiem》。你可以在下面的MIT Technology Review独家揭晓中观看这部电影。

《Somme Requiem》是由洛杉矶制作公司Myles制作的短片。每个镜头都是使用Runway的Gen 2模型生成的。然后,Myles的视频编辑团队将这些剪辑拼接在一起,进行了色彩校正,并配上了音乐。
《Somme Requiem》描绘了1914年圣诞休战期间雪地中的士兵。这部电影由使用Runway的生成视频模型制作的数十个不同镜头组成,然后由Myles的人类视频编辑拼接、调色并配上音乐。“故事讲述的未来将是混合工作流程,”创始人兼CEO Josh Kahn说。

Kahn选择了这个战时背景来表达一个观点。他指出,Apple TV+系列《Masters of the Air》,讲述了一群第二次世界大战飞行员的故事,耗资2.5亿美元。彼得·杰克逊的第一次世界大战纪录片《他们不会变老》背后的团队花了四年时间策划并恢复了100多小时的档案影片。“大多数电影制作人只能梦想有机会在这个类型中讲述一个故事,”Kahn说。

“独立电影制作已经有点在死去,”他补充说。“我认为这将创造一个令人难以置信的复兴。”

Raskino希望如此。“恐怖电影类型是人们测试新事物的地方,尝试新事物直到它们破裂,”他说。“我认为我们将会看到一个由大约四个人在某个地下室里使用AI创造的大片恐怖电影。”

那么生成视频是好莱坞的杀手吗?还不是。《Somme Requiem》中的场景设置镜头——空旷的树林,荒凉的军营——看起来很棒。但其中的人物仍然受到扭曲的手指和畸形的脸的困扰,这是这项技术的标志。生成视频最擅长的是宽角镜头或长时间的特写,这创造了一种怪异的氛围但很少有动作。如果《Somme Requiem》更长,它会变得乏味。

但是,在故事长度的电影中,场景设置镜头一直在出现。大多数只有几秒钟长,但拍摄它们可能需要几个小时。Raskino建议,生成视频模型很快可以用来以极低的成本生产这些中间镜头。这也可以在生产的后期阶段即兴完成,无需重新拍摄。

Gen Digital的CTO Michal Pechoucek同意。“我认为这就是技术的发展方向,”他说。“我们将看到许多不同的模型,每个模型都在电影制作的某个特定领域接受特定训练。这些只是有才华的视频制作团队使用的工具。”

我们还没有到达那里。生成视频的一个大问题是用户对输出的控制不足。产生静态图像可能是一种碰运气的事;产生几秒钟的视频甚至更加冒险。

“现在它仍然很有趣,你会得到啊哈时刻,”Miao说。“但生成完全是你想要的视频是一个非常困难的技术问题。我们距离从单一提示生成长时间、一致的视频还有一段距离。”

这就是为什么Vyond的Lipkowitz认为这项技术还没有

为大多数企业客户准备好。这些用户希望对视频的外观有更多控制,而不是当前工具给予他们的。“运行一个生成模型就像掷骰子,”Lipkowitz说。“对大多数视频制作团队来说,这是一个硬性否定,特别是在企业领域,一切都必须是像素完美和品牌一致的。如果视频出现问题——也许角色有太多手指,或者有一个公司标志是错误的颜色——那么,不走运,这就是gen AI的工作方式。”

解决方案?更多数据,更多训练,重复。“我希望我可以指向一些复杂的算法,”Miao说。“但不,这只是更多的学习。”

3. 虚假信息并不新鲜,但深度伪造将使其变得更糟。
在线虚假信息多年来一直在破坏我们对媒体、机构和彼此的信任。一些人担心,添加假视频到混合中将会摧毁我们剩下的共享现实的任何支柱。

“我们正在用不信任、困惑、恐惧和仇恨替代信任,”Pechoucek说。“没有基本事实的社会将会退化。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/511779.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

IDEA中连接SQLserver数据库(DataGrip相同连接)

IDEA中连接SQLserver数据库(DataGrip相同连接) 1. 打开IDEA-database组件 2. 新建SQL server连接 3. 填写信息进行连接 填写连接名称,连接主机IP,端口,默认端口1433,数据库用户名密码,默认数据库用户名是sa 第一次连接…

Spark 部署与应用程序交互简单使用说明

文章目录 前言步骤一:下载安装包Spark的目录和文件 步骤二:使用Scala或PySpark Shell本地 shell 运行 步骤3:理解Spark应用中的概念Spark Application and SparkSessionSpark JobsSpark StagesSpark Tasks 转换、立即执行操作和延迟求值窄变换和宽变换 S…

Redis高可用与持久化

一、Redis高可用 在web服务器中,高可用是指服务器可以正常访问的时间,衡量的标准是在多长时间内可以提供正常服务(99.9%、99.99%、99.999%等等)。 但是在Redis语境中,高可用的含义似乎要宽泛一些,除了保证…

智能视频翻译和配音处理工具:Pyvideotrans

pyVideoTrans:一键字幕识别翻译配音带新语言字幕和配音的视频 - 精选真开源,释放新价值。 概览 Pyvideotrans是一款卓著的智能化视频处理系统,专精于视频翻译与配音艺术,以其卓越的技术实力实现对原始视频中音频信息的精准捕捉、…

笔记本电脑win7 Wireless-AC 7265连不上wifi6

1.背景介绍 旧路由器连接人数有限,老旧,信号不稳定更换了新路由器,如 TL-XDR5430易展版用户电脑连不上新的WIFI网络了,比较着急 核心问题:有效解决笔记本连接wifi上网问题,方法不限 2.环境信息 Windows…

4.2总结(快速幂 || 抽象方法,抽象类,接口)

JAVA学习小结 一.抽象方法和抽象类 抽象类不一定有抽象方法,但有抽象方法的一定是抽象类 格式:public abstract 返回值类型 方法名(参数列表) public abstract class 类名 {} 抽象类和抽象方法的意义:统一子类具有相…

Android 的网络加载

发起网络请求的过程 当用户在应用程序中输入网址或关键字时,应用程序会发起网络请求。这个过程大致如下: 应用程序将请求发送到服务器,服务器返回响应数据。应用程序接收到响应数据后,将其转换为应用程序可识别的数据格式。应用…

单片机中的RAM vs ROM

其实,单片机就是个小计算机。大计算机少不了的数据存储系统,单片机一样有,而且往往和CPU集成在一起,显得更加小巧灵活。 直到90年代初,国内容易得到的单片机是8031:不带存储器的芯片,要想工作&a…

Spark 的结构化 APIs——RDD,DataFrame, Dataset, SparkSQL 使用和原理总结

前言 在本文中,我们将探索 Spark 的结构化 APIs(DataFrames and Datasets)。我们还将看下 Spark SQL 引擎是如何支撑高级的结构化 APIs 的。当Spark SQL在早期的Spark 1.x 中首次引入时, 随后是DataFrames 继承了Spark 1.3中 SchemaRDDs ,此…

就业班 第二阶段 2401--4.1 day10 shell之“三剑客”+Expect

十一、shell 编程-grep egrep 支持正则表达式的拓展元字符 (或grep -E) #egrep [0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3} file1.txt [rootnewrain ~]# num11 1、运用正则,判断需要[[ ]] [rootnewrain ~]# [[ $num1 ~ ^[0-9]$ ]] &a…

STM32 | 通用同步/异步串行接收/发送器USART带蓝牙(第六天原理解析)

STM32 第六天 一、 USART 1、USART概念 USART:(Universal Synchronous/Asynchronous Receiver/Transmitter)通用同步/异步串行接收/发送器 USART是一个全双工通用同步/异步串行收发模块,该接口是一个高度灵活的串行通信设备 处理器与外部设备通信的两种方式: u并行通信(…

在c# 7.3中不可用,请使用9.0或更高的语言版本

参考连接:在c# 7.3中不可用,请使用8.0或更高的语言版本_功能“可为 null 的引用类型”在 c# 7.3 中不可用。请使用 8.0 或更高的语言版本-CSDN博客https://blog.csdn.net/liangyely/article/details/106163660 [踩坑记录] 某功能在C#7.3中不可用,请使用 8.0 或更高的…

python file怎么打开

Python open() 方法用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出 OSError。 注意:使用 open() 方法一定要保证关闭文件对象,即调用 close() 方…

纯CSS实现未读消息显示99+

在大佬那看到这个小技巧&#xff0c;我觉得这个功能点还挺常用&#xff0c;所以给大家分享下具体的实现。当未读消息数小于100的时候显示准确数值&#xff0c;大于99的时候显示99。 1. 实现效果 2. 组件封装 <template><span class"col"><sup :styl…

LabVIEW专栏二、调用子VI

该节目标是创建带子vi&#xff0c;修改vi属性&#xff0c;测试可重入和不可重入的区别 一 、设置子VI 把VI封装成为子VI&#xff0c;可以帮助模块化程序&#xff0c;简化代码结构。 任何VI本身都可以成为别的VI的子VI。 1.1、设置输入输出端子 1、在前面板空白处&#xff0…

Springboot工程依赖包与执行包分离打包与构建docker 镜像

文章目录 一、概述二、工程概况1. 代码原始结构2. 运行界面 三、常规打包1. 打包命令2. jar包结构 四、分离依赖包、执行包步骤1. 引入依赖包管理插件2. 打包验证 五、分离后构建docker 镜像1. 借助Dockerfile2. docker-maven-plugin实现 六、版本升级 一、概述 某大数据项目&…

从零开始学RSA:低加密指数分解攻击

RSA是一种非对称加密算法&#xff0c;它由 公钥&#xff08;n/e&#xff09;&#xff0c;私钥(n/d)&#xff0c;明文M和密文C组成。我们做CTF题目时&#xff0c;一般题目中会给出公钥和密文让我们推出对应的私钥或者明文。RSA的相关公式都写在上面脑图中&#xff0c;在正式讲解…

史上最强 PyTorch 2.2 GPU 版最新安装教程

一 深度学习主机 1.1 配置 先附上电脑配置图&#xff0c;如下&#xff1a; 利用公司的办公电脑对配置进行升级改造完成。除了显卡和电源&#xff0c;其他硬件都是公司电脑原装。 1.2 显卡 有钱直接上 RTX4090&#xff0c;也不能复用公司的电脑&#xff0c;其他配置跟不上。…

[Linux]基础IO(中)---理解重定向与系统调用dup2的使用、缓冲区的意义

重定向理解 在Linux下&#xff0c;当打开一个文件时&#xff0c;进程会遍历文件描述符表&#xff0c;找到当前没有被使用的 最小的一个下标&#xff0c;作为新的文件描述符。 代码验证&#xff1a; ①&#xff1a;先关闭下标为0的文件&#xff0c;在打开一个文件&#xff0c;…

鸿蒙原生应用开发-网络管理Socket连接(一)

一、简介 Socket连接主要是通过Socket进行数据传输&#xff0c;支持TCP/UDP/TLS协议。 二、基本概念 Socket&#xff1a;套接字&#xff0c;就是对网络中不同主机上的应用进程之间进行双向通信的端点的抽象。 TCP&#xff1a;传输控制协议(Transmission Control Protocol)。是一…