概述
论文地址:https://arxiv.org/abs/2402.10294
视频是一种非常强大的交流和讲述故事的媒介。随着社交媒体和视频共享平台的出现,视频的受欢迎程度直线上升,许多人都在制作和分享自己的内容。然而,对于初学者来说,视频编辑可能很难,也可能是一大障碍。对于那些不习惯在规划阶段就构思视频的人来说,这是一项特别困难的任务。此外,剪辑过程需要大量细致的工作,如选择片段、修剪和创建序列,除此之外,还需要各种技能来创建一个想象中连贯的故事。此外,要完成这些任务,不仅需要学习如何使用多功能、复杂的剪辑软件,还需要手工操作和讲故事的技巧。在某些情况下,甚至很难知道首先要使用哪种剪辑软件。
最近,人们开始尝试利用自然语言处理来应对视频编辑的挑战。利用自然语言作为视频编辑的界面,用户可以直接表达自己的意图,减少手工操作。例如,最近一些采用人工智能技术的产品允许用户使用从文本生成视频的模型来编辑视频。此外,基于语音的视频导航允许用户使用语音命令操作视频。此外,视频内容可以用自然语言表示,从而简化人工编辑任务。基于文本的编辑还能让用户根据时间调整文字稿,从而高效地编辑视频。
然而,尽管产品有了这些改进,许多视频编辑工具仍然依赖于手动编辑,缺乏定制条件下的支持功能。许多用户仍然难以应付复杂的视频编辑工作。
在此,我们介绍一种新型视频编辑工具 LAVE,它通过大规模语言模型提供语言扩展,能够理解、规划和执行用户的自由式语言命令的相关操作,从而高效地实现用户想要编辑的内容。为此,它引入了一个基于大规模语言模型的代理来进行规划和执行。
LAVE 执行的操作包括集思广益、构思视频语料库概览、基于语义的视频搜索、故事板、剪辑等。自动生成视频的可视化摘要,从而使大规模语言模型能够理解视频内容,并利用自然语言处理功能协助用户完成编辑任务。 LAVE 提供两种操作方法,即代理辅助和直接操作,允许用户根据具体情况进行调整。用户可以根据情况灵活调整代理的操作。
此外,还对八名参与者(包括新手和专业视频编辑人员)进行了用户测试,以评估 LAVE 作为视频编辑工具的实用性。结果显示,参与者能够使用 LAVE 制作出令人满意的视频。用户还认为该系统的功能易于使用,对创建视频非常有用。此外,我们还为未来开发集成大规模语言模型和代理的多媒体内容编辑工具提出了设计建议。
LAVE 视频编辑工具的设计政策。
本文通过对视频编辑工具 LAVE 的设计、实施和评估,探讨了人类与大规模语言建模代理之间协作编辑视频的潜力。为了探索这一潜力,本文提出了两个主要设计原则。
首先是利用自然语言处理降低编辑门槛(D1)LAVE 旨在通过利用自然语言和大规模语言模型的力量,改善人们手工视频编辑的思维方式。LAVE 旨在使用自然语言帮助用户顺利完成从构思到实际编辑的过程。这样做的目的是大大降低编辑的门槛,让任何人都能更轻松地制作出高质量的视频。
其次是保持用户在编辑过程中的自主性(D2)。目前,有人担心人工智能辅助内容编辑会丧失用户自主权。为了解决这一问题,LAVE 同时提供人工智能辅助编辑和手动编辑选项。用户可以根据需要调整人工智能辅助功能,也可以选择完全退出。这可确保最终作品反映用户的形象,并确保用户仍拥有决策权。
LAVE 的目标是利用自然语言和人工智能技术,使视频编辑过程更加直观和人性化,同时设计一个尊重用户创造性的系统。这一设计方针有望让用户自由表达自己的想法,而不必担心技术障碍。
LAVE 视频编辑工具的界面
LAVE是一款全新的视频编辑工具,通过大型语言模型提供代理支持和语言扩展。它为用户提供了直观、高效的视频编辑功能。下图显示了LAVE 视频编辑工具的用户界面。
LAVE 用户界面由五个部分组成。我们在此特别提及其中三个主要组件。
- (a) 视频编辑代理。
- (b)语言强化视频画廊。
- ©自动生成标题。
- (d)视频摘要显示。
- (e) 视频编辑时间轴。
(a) 视频编辑代理通过与用户对话为编辑过程提供支持。用户使用自由格式语言与代理交互,代理则提供定制的回复。然后,代理支持以下功能。
- 了解片段概况:对视频片段进行总结和分类
- 集思广益:视频剪辑创意建议。
- 视频搜索:根据语言查询查找相关视频
- 故事板:根据提供的故事情节排序剪辑
如下图所示,代理在两种模式下运行,即计划状态和执行状态。在计划状态下(左图),用户向代理输入编辑命令。然后,代理检查用户的目标并确定具体目标。此外,代理还会提出实现目标的具体步骤。如果用户对这些步骤不满意,可以修改计划。
用户批准计划后,代理进入执行状态。在此状态下,用户依次批准代理的行动。然后,代理向用户展示每个操作的结果。这样,LAVE 的视频编辑代理就能顺利地为用户的编辑任务提供支持,计划和执行一步步进行。该代理可确保视频编辑过程高效、有效。
接下来(b)中的语言增强视频库提供了视频片段的自然语言描述,使用户更容易理解片段内容。标题和摘要显示了片段的内容,用户可以使用 "添加到时间轴 "按钮轻松地将片段添加到编辑时间轴。此外,还可以使用自然语言查询来搜索图库中的视频,并按相关性顺序显示。
(e) 视频编辑时间轴。选定的视频片段显示在时间轴上。每个片段都有三个缩略图–开始、中间和结尾–使其内容一目了然。时间轴支持两大功能。
其中一个功能允许用户拖放片段来设置顺序。此外,还可使用基于大语言模型的故事板功能自动排列片段顺序。另一种方法允许用户手动选择起点和终点,或使用基于大语言模型的剪辑功能提取特定片段。
LAVE 可协助完成从构思、规划到编辑操作等一系列编辑流程。不过,它并不强迫用户遵循严格的流程。用户可以根据自己的编辑目标自由选择和使用所需的功能。
例如,有明确编辑方针和故事情节的用户可以跳过创意生成阶段,立即开始编辑。这种灵活性是 LAVE 的主要特点。
目前,LAVE 主要针对社交媒体平台的休闲编辑进行了优化。在要求准确性的专业编辑中整合大规模语言建模代理仍是未来的挑战,但预计这些需求将在未来得到解决。
LAVE 采用灵活的方法,允许用户根据自己的风格和需求进行视频编辑,使从初学者到经验丰富的编辑人员等各类用户都能高效地工作。
后端系统 - 代理设计
LAVE 代理利用大规模语言模型的各种语言能力,包括推理、规划和讲故事。该代理有 "规划 "和 "执行 "两种状态,这样做有两个好处:其一是高层次的目标设定,用户可以设定一个高层次的目标,这个目标可以是一组行动,也可以是一组行动,还可以是一组行动,也可以是一组行动。这意味着用户可以设定涉及多个行动的高层次目标,从而无需指定详细的命令。二是计划审查和修改。代理在执行计划前提出计划,并为用户提供修改计划的机会,这也给了用户充分的控制权。
为了协助该计划和执行代理,我们设计了一个后端管道。如下图所示,该管道根据用户输入创建行动计划,并将文本转换为函数调用,以执行相应的功能。
LAVE 的视频编辑代理行动规划采用了大规模语言模型提示技术。这种提示格式将复杂任务分解为子任务,并提出实现用户目标的具体步骤。为了将复杂任务(用户目标)分解为子任务(编辑功能),它采用了排序链概念,利用了大规模语言模型的推理能力。提示结构的第一部分如下。
- 角色分配:指导代理人员扮演视频编辑助理的角色
- 操作说明:详细列出代理可以执行的操作,让用户可以选择对用户命令的适当响应
- 格式说明:以一致的格式指导行动计划的输出,明确列出用户的编辑目标和实现目标的步骤
然后,对话历史和最近的用户输入会被添加进来,作为生成行动计划的完整提示。该系统可保存多达 6000 个标记的信息历史记录,并可根据大型语言模型的上下文窗口进行调整�
一旦制定了行动计划,每个行动都会在用户批准后按顺序执行。这样,用户在决定下一步行动时,就可以观察到每个行动的结果。 LAVE 会分析行动计划中每个行动的描述,并将其转化为相应的后端函数调用。这需要使用专门针对函数调用进行微调的 GPT-4 检查点。函数执行的结果将反映在前端用户界面上,并呈现给用户。
后端系统–利用大规模语言模型实现编辑功能
LAVE 利用以下大规模语言模型提供五项功能,帮助用户编辑视频
- 获取镜头概览
- 集思广益
- 视频搜索
- 故事板
- 修剪剪辑
前四项功能可通过代理实现,最后一项功能可通过双击剪辑时间轴上的片段实现。所有功能都建立在自动生成的未编辑片段的语言描述之上,包括每个片段的标题和摘要。
为了生成这些文本,视频帧每秒采样一次,并使用 LLaVA 模型进行字幕处理。根据字幕,GPT-4 会生成标题和摘要,并为每个视频分配一个唯一的 ID。该 ID 可用于后续的故事板功能等。
LAVE 视频搜索功能使用 OpenAI 的文本嵌入-ada-002 将文本嵌入,并将其存储在向量数据库中。搜索时,用户的查询将使用相同的模型嵌入,并通过计算视频与查询之间的余弦距离进行排序。这样就能确保在用户界面中显示最相关的视频。
利用大规模语言模型的五项功能中的第一项是 “镜头概览捕捉”,它根据用户视频收藏中的共同主题对视频进行分类,并提供概览。提示会发送到大规模语言模型,包括视觉解说,生成的概述会显示在聊天用户界面中。
第二个功能是 “创意集思广益”,可根据用户的视频生成创意编辑想法。提示包括功能说明,如有需要,还可提供额外的创意指导。生成的创意会显示在聊天用户界面中。
第四个项目 "故事板 "是根据用户提供的叙述对视频片段进行排序。根据用户的指导,大规模语言模型会创建一个故事板,并更新时间线中视频的顺序。输出以 JSON 格式提供,以方便后续处理。
第五项是剪辑,利用大规模语言模型的推理能力来识别符合用户剪辑命令的视频片段。修剪结果以 JSON 格式呈现给用户。修剪的精确度可根据帧采样率进行调整。
这些 LAVE 被设计为全栈网络应用程序。前端用户界面使用 React.js 开发,提供直观易用的界面。后端服务器使用 Flask 构建,可与前端顺利协作。
在推理大型语言模型时,主要使用 OpenAI 最新的 GPT-4 模型。行动计划到函数的映射使用了 gpt-4-0613 检查点,该检查点专门针对函数调用应用进行了微调;GPT-4 的最大上下文窗口为 8,192 个标记,在此范围内,一个代理可以处理大约 40 个视频描述。可处理的视频描述。
此外,LangChain 的 Chromadb(封装器)被用来建立用于视频检索的向量存储。这提供了高效快速的搜索功能。此外,视频预处理是在带有 Nvidia V100 GPU 的 Linux 机器上进行的,从而实现了快速数据处理和字幕生成。ffmpeg 是一款功能强大的视频编辑和编码工具。
LAVE 将这些技术元素结合在一起,为用户提供了高性能、用户友好的视频编辑体验。整个系统可无缝协作,为用户的剪辑任务提供高效支持。
用户测试 - 概述
目前正在进行用户测试,以获得用户对 LAVE 的反馈意见。测试旨在评估 LAVE 语言扩展对视频编辑任务的贡献程度,并了解用户对使用大规模语言模型的代理的反应。特别是,我们将研究代理如何影响用户的代理和独特性。
八位具有不同视频编辑经验的参与者参加了用户测试。其中三人为女性,平均年龄为 27.6 岁(标准差 = 3.16)。参与者还来自科技公司,在视频剪辑方面拥有从初学者到专业人员的不同经验。
- 新手(P4、P5、P7、P8):很少或中等视频剪辑经验,尤其是 P8 经验最少,上一次剪辑是在几年前
- 精通(P1-3,P6):精通视频剪辑工具,P1 是一名设计师,偶尔为工作进行剪辑,P2 辅修电影研究,从高中起就开始剪辑,P3 经营一个 YouTube 频道,P6 是一名博士生,每周剪辑一次生活日志视频
这群不同的参与者将评估 LAVE 在各种剪辑情况下的性能。在用户测试的前一天,参与者需要提交一组视频进行预处理,并提供至少 20 个片段,每个片段不超过一分钟。用户测试需要1 到 1.5 个小时,在安静的环境中进行。
参与者到达测试地点后,将听取大约 15-20 分钟的测试概述和 LAVE 解释。在使用 LAVE 之后,参与者要填写一份问卷,回答一系列问题,内容涉及他们对每个功能和整个系统的实用性和易用性的看法、信任、代理和代理的作用。此外,他们还被问及对每项编辑功能选择代理辅助操作还是手动操作的偏好。所有调查问题均采用李克特七点量表。
随后是一个半结构化的访谈,大约持续 20-30 分钟,参与者可以在访谈中分享他们的想法并提出任何问题。在用户测试过程中,我们不会指示用户优先考虑速度,而是观察他们如何使用 LAVE 编辑视频,并确保环境有利于收集反馈。
用户测试–结果和讨论
以下是用户测试的一些结果和意见。
所有参与者都能使用 LAVE 制作出令人满意的视频,不满意度较低(平均值 = 2,标准差 = 1.3)。结果显示,许多人认为 LAVE 使用起来很愉快,并愿意经常使用。特别是,LAVE 为初学者降低了视频剪辑的障碍,因而受到好评。
虽然人们普遍认为 LAVE 的设计有用且易于使用,但对其某些功能的评价却褒贬不一。特别是,重视原创性的参与者往往不喜欢代理提出的建议。还有人指出,大规模语言模型的概率性质意味着修剪和故事板的结果有时与预期不同。
许多与会者还认为 LAVE 自动化系统可靠且易于控制。许多与会者对自己工作的贡献深有感触。
没有人认为人工智能代理是领导者,一半的参与者认为人工智能代理是 “助手”,另一半认为是 “伙伴”。他们觉得自己得到了合作伙伴的支持,觉得这是自己的工作,自己在编辑它。此外,许多与会者认为,LAVE 对他们工作中的创造性部分尤其有帮助。将代理视为合作伙伴的参与者发现,他们与人工智能的共同创造意识特别强烈。
讨论用户测试结果
用户测试表明,使用自然语言作为与系统交互和表达多媒体内容的手段非常有效。使用自然语言可以减少手工操作,使编辑工作更容易理解。预计未来的系统将能编辑更广泛的多媒体内容,不仅能编辑视频,还能将语音、动作等感官输入转换成文本。
用户测试还表明,加入利用大规模语言模型的代理可以改善内容编辑体验,但用户和任务性质不同,对代理协助的偏好也不同。重视原创想法的用户倾向于避免与代理进行头脑风暴,而其他用户则更喜欢。未来,很可能需要能够根据用户偏好和任务性质自动提供代理协助,并根据需要启用、禁用或定制协助的能力。此外,还可能需要在代理协助和人工编辑之间提供灵活性,允许用户对人工智能预测进行微调并纠正不准确之处。
此外,研究还发现,用户之前对大规模语言模型的了解和经验会影响他们对编辑系统的使用程度。对大规模语言模型有很好理解的用户能够快速掌握代理的功能并有效地加以利用,而不熟悉大规模语言模型的用户则可能无法充分发挥系统的潜力。因此,可能需要为新手用户提供更多的后续功能。
基于这些建议,应努力改进内容编辑系统的设计,利用大规模语言模型,提供更适合用户需求的支持。
摘要
本文提出了一种新的代理辅助视频编辑工具LAVE,它利用了大规模语言模型。该系统利用最先进的技术最大限度地有效利用自然语言,从而为视频编辑提供支持。
本文详细介绍了该LAVE 的主要特点。它还通过用户罢工证明了 LAVE 的有效性,并整理了用户对大型语言建模代理的看法和反应,以协助视频编辑。此外,本文还利用研究结果分享了对未来类似系统设计的建议。