LAVE——基于大语言模型的新型代理辅助视频编辑工具允许用户根据自己的编辑风格进行调整

概述

论文地址:https://arxiv.org/abs/2402.10294
视频是一种非常强大的交流和讲述故事的媒介。随着社交媒体和视频共享平台的出现,视频的受欢迎程度直线上升,许多人都在制作和分享自己的内容。然而,对于初学者来说,视频编辑可能很难,也可能是一大障碍。对于那些不习惯在规划阶段就构思视频的人来说,这是一项特别困难的任务。此外,剪辑过程需要大量细致的工作,如选择片段、修剪和创建序列,除此之外,还需要各种技能来创建一个想象中连贯的故事。此外,要完成这些任务,不仅需要学习如何使用多功能、复杂的剪辑软件,还需要手工操作和讲故事的技巧。在某些情况下,甚至很难知道首先要使用哪种剪辑软件。

最近,人们开始尝试利用自然语言处理来应对视频编辑的挑战。利用自然语言作为视频编辑的界面,用户可以直接表达自己的意图,减少手工操作。例如,最近一些采用人工智能技术的产品允许用户使用从文本生成视频的模型来编辑视频。此外,基于语音的视频导航允许用户使用语音命令操作视频。此外,视频内容可以用自然语言表示,从而简化人工编辑任务。基于文本的编辑还能让用户根据时间调整文字稿,从而高效地编辑视频。

然而,尽管产品有了这些改进,许多视频编辑工具仍然依赖于手动编辑,缺乏定制条件下的支持功能。许多用户仍然难以应付复杂的视频编辑工作。

在此,我们介绍一种新型视频编辑工具 LAVE,它通过大规模语言模型提供语言扩展,能够理解、规划和执行用户的自由式语言命令的相关操作,从而高效地实现用户想要编辑的内容。为此,它引入了一个基于大规模语言模型的代理来进行规划和执行。

LAVE 执行的操作包括集思广益、构思视频语料库概览、基于语义的视频搜索、故事板、剪辑等。自动生成视频的可视化摘要,从而使大规模语言模型能够理解视频内容,并利用自然语言处理功能协助用户完成编辑任务。 LAVE 提供两种操作方法,即代理辅助和直接操作,允许用户根据具体情况进行调整。用户可以根据情况灵活调整代理的操作。

此外,还对八名参与者(包括新手和专业视频编辑人员)进行了用户测试,以评估 LAVE 作为视频编辑工具的实用性。结果显示,参与者能够使用 LAVE 制作出令人满意的视频。用户还认为该系统的功能易于使用,对创建视频非常有用。此外,我们还为未来开发集成大规模语言模型和代理的多媒体内容编辑工具提出了设计建议。

LAVE 视频编辑工具的设计政策。

本文通过对视频编辑工具 LAVE 的设计、实施和评估,探讨了人类与大规模语言建模代理之间协作编辑视频的潜力。为了探索这一潜力,本文提出了两个主要设计原则。

首先是利用自然语言处理降低编辑门槛(D1)LAVE 旨在通过利用自然语言和大规模语言模型的力量,改善人们手工视频编辑的思维方式。LAVE 旨在使用自然语言帮助用户顺利完成从构思到实际编辑的过程。这样做的目的是大大降低编辑的门槛,让任何人都能更轻松地制作出高质量的视频。

其次是保持用户在编辑过程中的自主性(D2)。目前,有人担心人工智能辅助内容编辑会丧失用户自主权。为了解决这一问题,LAVE 同时提供人工智能辅助编辑和手动编辑选项。用户可以根据需要调整人工智能辅助功能,也可以选择完全退出。这可确保最终作品反映用户的形象,并确保用户仍拥有决策权。

LAVE 的目标是利用自然语言和人工智能技术,使视频编辑过程更加直观和人性化,同时设计一个尊重用户创造性的系统。这一设计方针有望让用户自由表达自己的想法,而不必担心技术障碍。

LAVE 视频编辑工具的界面

LAVE是一款全新的视频编辑工具,通过大型语言模型提供代理支持和语言扩展。它为用户提供了直观、高效的视频编辑功能。下图显示了LAVE 视频编辑工具的用户界面。

LAVE 用户界面由五个部分组成。我们在此特别提及其中三个主要组件。

  • (a) 视频编辑代理。
  • (b)语言强化视频画廊。
  • ©自动生成标题。
  • (d)视频摘要显示。
  • (e) 视频编辑时间轴。

(a) 视频编辑代理通过与用户对话为编辑过程提供支持。用户使用自由格式语言与代理交互,代理则提供定制的回复。然后,代理支持以下功能。

  • 了解片段概况:对视频片段进行总结和分类
  • 集思广益:视频剪辑创意建议。
  • 视频搜索:根据语言查询查找相关视频
  • 故事板:根据提供的故事情节排序剪辑

如下图所示,代理在两种模式下运行,即计划状态和执行状态。在计划状态下(左图),用户向代理输入编辑命令。然后,代理检查用户的目标并确定具体目标。此外,代理还会提出实现目标的具体步骤。如果用户对这些步骤不满意,可以修改计划。

用户批准计划后,代理进入执行状态。在此状态下,用户依次批准代理的行动。然后,代理向用户展示每个操作的结果。这样,LAVE 的视频编辑代理就能顺利地为用户的编辑任务提供支持,计划和执行一步步进行。该代理可确保视频编辑过程高效、有效。

接下来(b)中的语言增强视频库提供了视频片段的自然语言描述,使用户更容易理解片段内容。标题和摘要显示了片段的内容,用户可以使用 "添加到时间轴 "按钮轻松地将片段添加到编辑时间轴。此外,还可以使用自然语言查询来搜索图库中的视频,并按相关性顺序显示。

(e) 视频编辑时间轴。选定的视频片段显示在时间轴上。每个片段都有三个缩略图–开始、中间和结尾–使其内容一目了然。时间轴支持两大功能。

其中一个功能允许用户拖放片段来设置顺序。此外,还可使用基于大语言模型的故事板功能自动排列片段顺序。另一种方法允许用户手动选择起点和终点,或使用基于大语言模型的剪辑功能提取特定片段。

LAVE 可协助完成从构思、规划到编辑操作等一系列编辑流程。不过,它并不强迫用户遵循严格的流程。用户可以根据自己的编辑目标自由选择和使用所需的功能。

例如,有明确编辑方针和故事情节的用户可以跳过创意生成阶段,立即开始编辑。这种灵活性是 LAVE 的主要特点。

目前,LAVE 主要针对社交媒体平台的休闲编辑进行了优化。在要求准确性的专业编辑中整合大规模语言建模代理仍是未来的挑战,但预计这些需求将在未来得到解决。

LAVE 采用灵活的方法,允许用户根据自己的风格和需求进行视频编辑,使从初学者到经验丰富的编辑人员等各类用户都能高效地工作。

后端系统 - 代理设计

LAVE 代理利用大规模语言模型的各种语言能力,包括推理、规划和讲故事。该代理有 "规划 "和 "执行 "两种状态,这样做有两个好处:其一是高层次的目标设定,用户可以设定一个高层次的目标,这个目标可以是一组行动,也可以是一组行动,还可以是一组行动,也可以是一组行动。这意味着用户可以设定涉及多个行动的高层次目标,从而无需指定详细的命令。二是计划审查和修改。代理在执行计划前提出计划,并为用户提供修改计划的机会,这也给了用户充分的控制权。

为了协助该计划和执行代理,我们设计了一个后端管道。如下图所示,该管道根据用户输入创建行动计划,并将文本转换为函数调用,以执行相应的功能。

LAVE 的视频编辑代理行动规划采用了大规模语言模型提示技术。这种提示格式将复杂任务分解为子任务,并提出实现用户目标的具体步骤。为了将复杂任务(用户目标)分解为子任务(编辑功能),它采用了排序链概念,利用了大规模语言模型的推理能力。提示结构的第一部分如下。

  • 角色分配:指导代理人员扮演视频编辑助理的角色
  • 操作说明:详细列出代理可以执行的操作,让用户可以选择对用户命令的适当响应
  • 格式说明:以一致的格式指导行动计划的输出,明确列出用户的编辑目标和实现目标的步骤

然后,对话历史和最近的用户输入会被添加进来,作为生成行动计划的完整提示。该系统可保存多达 6000 个标记的信息历史记录,并可根据大型语言模型的上下文窗口进行调整�

一旦制定了行动计划,每个行动都会在用户批准后按顺序执行。这样,用户在决定下一步行动时,就可以观察到每个行动的结果。 LAVE 会分析行动计划中每个行动的描述,并将其转化为相应的后端函数调用。这需要使用专门针对函数调用进行微调的 GPT-4 检查点。函数执行的结果将反映在前端用户界面上,并呈现给用户。

后端系统–利用大规模语言模型实现编辑功能

LAVE 利用以下大规模语言模型提供五项功能,帮助用户编辑视频

  1. 获取镜头概览
  2. 集思广益
  3. 视频搜索
  4. 故事板
  5. 修剪剪辑

前四项功能可通过代理实现,最后一项功能可通过双击剪辑时间轴上的片段实现。所有功能都建立在自动生成的未编辑片段的语言描述之上,包括每个片段的标题和摘要。

为了生成这些文本,视频帧每秒采样一次,并使用 LLaVA 模型进行字幕处理。根据字幕,GPT-4 会生成标题和摘要,并为每个视频分配一个唯一的 ID。该 ID 可用于后续的故事板功能等。

LAVE 视频搜索功能使用 OpenAI 的文本嵌入-ada-002 将文本嵌入,并将其存储在向量数据库中。搜索时,用户的查询将使用相同的模型嵌入,并通过计算视频与查询之间的余弦距离进行排序。这样就能确保在用户界面中显示最相关的视频。

利用大规模语言模型的五项功能中的第一项是 “镜头概览捕捉”,它根据用户视频收藏中的共同主题对视频进行分类,并提供概览。提示会发送到大规模语言模型,包括视觉解说,生成的概述会显示在聊天用户界面中。

第二个功能是 “创意集思广益”,可根据用户的视频生成创意编辑想法。提示包括功能说明,如有需要,还可提供额外的创意指导。生成的创意会显示在聊天用户界面中。

第四个项目 "故事板 "是根据用户提供的叙述对视频片段进行排序。根据用户的指导,大规模语言模型会创建一个故事板,并更新时间线中视频的顺序。输出以 JSON 格式提供,以方便后续处理。

第五项是剪辑,利用大规模语言模型的推理能力来识别符合用户剪辑命令的视频片段。修剪结果以 JSON 格式呈现给用户。修剪的精确度可根据帧采样率进行调整。

这些 LAVE 被设计为全栈网络应用程序。前端用户界面使用 React.js 开发,提供直观易用的界面。后端服务器使用 Flask 构建,可与前端顺利协作。

在推理大型语言模型时,主要使用 OpenAI 最新的 GPT-4 模型。行动计划到函数的映射使用了 gpt-4-0613 检查点,该检查点专门针对函数调用应用进行了微调;GPT-4 的最大上下文窗口为 8,192 个标记,在此范围内,一个代理可以处理大约 40 个视频描述。可处理的视频描述。

此外,LangChain 的 Chromadb(封装器)被用来建立用于视频检索的向量存储。这提供了高效快速的搜索功能。此外,视频预处理是在带有 Nvidia V100 GPU 的 Linux 机器上进行的,从而实现了快速数据处理和字幕生成。ffmpeg 是一款功能强大的视频编辑和编码工具。

LAVE 将这些技术元素结合在一起,为用户提供了高性能、用户友好的视频编辑体验。整个系统可无缝协作,为用户的剪辑任务提供高效支持。

用户测试 - 概述

目前正在进行用户测试,以获得用户对 LAVE 的反馈意见。测试旨在评估 LAVE 语言扩展对视频编辑任务的贡献程度,并了解用户对使用大规模语言模型的代理的反应。特别是,我们将研究代理如何影响用户的代理和独特性。

八位具有不同视频编辑经验的参与者参加了用户测试。其中三人为女性,平均年龄为 27.6 岁(标准差 = 3.16)。参与者还来自科技公司,在视频剪辑方面拥有从初学者到专业人员的不同经验。

  • 新手(P4、P5、P7、P8):很少或中等视频剪辑经验,尤其是 P8 经验最少,上一次剪辑是在几年前
  • 精通(P1-3,P6):精通视频剪辑工具,P1 是一名设计师,偶尔为工作进行剪辑,P2 辅修电影研究,从高中起就开始剪辑,P3 经营一个 YouTube 频道,P6 是一名博士生,每周剪辑一次生活日志视频

这群不同的参与者将评估 LAVE 在各种剪辑情况下的性能。在用户测试的前一天,参与者需要提交一组视频进行预处理,并提供至少 20 个片段,每个片段不超过一分钟。用户测试需要1 到 1.5 个小时,在安静的环境中进行。

参与者到达测试地点后,将听取大约 15-20 分钟的测试概述和 LAVE 解释。在使用 LAVE 之后,参与者要填写一份问卷,回答一系列问题,内容涉及他们对每个功能和整个系统的实用性和易用性的看法、信任、代理和代理的作用。此外,他们还被问及对每项编辑功能选择代理辅助操作还是手动操作的偏好。所有调查问题均采用李克特七点量表。

随后是一个半结构化的访谈,大约持续 20-30 分钟,参与者可以在访谈中分享他们的想法并提出任何问题。在用户测试过程中,我们不会指示用户优先考虑速度,而是观察他们如何使用 LAVE 编辑视频,并确保环境有利于收集反馈。

用户测试–结果和讨论

以下是用户测试的一些结果和意见。

所有参与者都能使用 LAVE 制作出令人满意的视频,不满意度较低(平均值 = 2,标准差 = 1.3)。结果显示,许多人认为 LAVE 使用起来很愉快,并愿意经常使用。特别是,LAVE 为初学者降低了视频剪辑的障碍,因而受到好评。

虽然人们普遍认为 LAVE 的设计有用且易于使用,但对其某些功能的评价却褒贬不一。特别是,重视原创性的参与者往往不喜欢代理提出的建议。还有人指出,大规模语言模型的概率性质意味着修剪和故事板的结果有时与预期不同。

许多与会者还认为 LAVE 自动化系统可靠且易于控制。许多与会者对自己工作的贡献深有感触。

没有人认为人工智能代理是领导者,一半的参与者认为人工智能代理是 “助手”,另一半认为是 “伙伴”。他们觉得自己得到了合作伙伴的支持,觉得这是自己的工作,自己在编辑它。此外,许多与会者认为,LAVE 对他们工作中的创造性部分尤其有帮助。将代理视为合作伙伴的参与者发现,他们与人工智能的共同创造意识特别强烈。

讨论用户测试结果

用户测试表明,使用自然语言作为与系统交互和表达多媒体内容的手段非常有效。使用自然语言可以减少手工操作,使编辑工作更容易理解。预计未来的系统将能编辑更广泛的多媒体内容,不仅能编辑视频,还能将语音、动作等感官输入转换成文本。

用户测试还表明,加入利用大规模语言模型的代理可以改善内容编辑体验,但用户和任务性质不同,对代理协助的偏好也不同。重视原创想法的用户倾向于避免与代理进行头脑风暴,而其他用户则更喜欢。未来,很可能需要能够根据用户偏好和任务性质自动提供代理协助,并根据需要启用、禁用或定制协助的能力。此外,还可能需要在代理协助和人工编辑之间提供灵活性,允许用户对人工智能预测进行微调并纠正不准确之处。

此外,研究还发现,用户之前对大规模语言模型的了解和经验会影响他们对编辑系统的使用程度。对大规模语言模型有很好理解的用户能够快速掌握代理的功能并有效地加以利用,而不熟悉大规模语言模型的用户则可能无法充分发挥系统的潜力。因此,可能需要为新手用户提供更多的后续功能。

基于这些建议,应努力改进内容编辑系统的设计,利用大规模语言模型,提供更适合用户需求的支持。

摘要

本文提出了一种新的代理辅助视频编辑工具LAVE,它利用了大规模语言模型。该系统利用最先进的技术最大限度地有效利用自然语言,从而为视频编辑提供支持。

本文详细介绍了该LAVE 的主要特点。它还通过用户罢工证明了 LAVE 的有效性,并整理了用户对大型语言建模代理的看法和反应,以协助视频编辑。此外,本文还利用研究结果分享了对未来类似系统设计的建议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/936275.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java安全—SpringBootActuator监控泄露Swagger自动化

前言 今天依旧是SpringBoot框架,估计还要一篇文章才能把它写完,没办法,Java安全的内容太多了。 Actuator SpringBoot Actuator模块提供了生产级别的功能,比如健康检查,审计,指标收集,HTTP跟踪…

docker快速实现ELK的安装和使用

目录 一、ELK功能原理 二、项目功能展示​ 三、日志查询展示​ 四、ELK安装步骤 1、创建elasticsearch、kibana、filebeat相关data、log、conf目录 2、进入/usr/local/elk目录,并创建一个docker网络 3、启动 elasticsearch容器 4、运行kibana容器 5、启动f…

【Spark】Spark Join类型及Join实现方式

如果觉得这篇文章对您有帮助,别忘了点赞、分享或关注哦!您的一点小小支持,不仅能帮助更多人找到有价值的内容,还能鼓励我持续分享更多精彩的技术文章。感谢您的支持,让我们一起在技术的世界中不断进步! Sp…

从YOLOv5到训练实战:易用性和扩展性的加强

文章目录 前言一、模型介绍二、YOLOv5网络结构1.Input(输入端):智能预处理与优化策略2.Backbone(骨干网络):高效特征提取3.NECK(颈部):特征增强与多尺度融合4.Prediction…

Java爬虫设计:淘宝商品详情接口数据获取

1. 概述 淘宝商品详情接口(如Taobao.item_get)允许开发者通过编程方式,以JSON格式实时获取淘宝商品的详细信息,包括商品标题、价格、销量等。本文档将介绍如何设计一个Java爬虫来获取这些数据。 2. 准备工作 在开始之前&#x…

AIGC 013-CoT用思维链挖掘自回归语言模型的潜在能力

AIGC 013-CoT用思维链挖掘自回归语言模型的潜在能力 文章目录 0 论文工作1 论文方法2 实验结果 0 论文工作 纯自回归式语言模型,本来并不具备优秀推理能力,特别是在数学问题的推理。但是现在的生成模型是能实现一些数学的推理的。研究者认为当模型足够大…

上传文件时获取音视频文件时长和文本文件字数

获取音视频文件时长和文本文件字数 一、获取音视频文件时长二、计算文本文件字数 最近有个需求,要求上传文件时获取音视频文件时长和文本文件字数🐶。 发现这样的冷门资料不多,特做个记录。本文忽略文件上传功能,只封装核心的工具…

ue5.2 数字孪生(11)——Web_UI插件网页通信

Web_UI插件下载安装: https://github.com/tracerinteractive/UnrealEngine/releases 下载对应Ue版本的Web_UI插件以及相关的Json、Http库; 将插件安装到引擎根目录 Ue链接Web: 在项目中启用插件并重启项目; 创建基于Web的用户…

postman可以通的请求,前端通不了(前端添加Content-type,后端收不到请求)

接口完成之后,自己使用postman测试了一下,没有问题; 可是在和小组前端调试接口的时候,他却说访问不了; 信息如下:(我自己写的一个打印请求信息的拦截器) 发现报错信息是: Content type ‘application/x-www-form-urlencoded;charset=UTF-8’ not supported 也就是说…

EFAK kafka可视化管理工具部署使用

简介:EFAK是开源的可视化和管理软件。它允许您查询、可视化、提醒和探索您的指标,无论它们存储在何处。简单来说,它为您提供了将 Kafka 集群数据转换为漂亮的图形和可视化效果的工具。 环境:①操作系统:CentOS7.6&…

MySQL生产环境备份脚本

全量备份脚本,其中BakDir,ZlbakDir,LogFile需要自己创建 #!/bin/bash export LANGen_US.UTF-8# 指定备份目录 BakDir/root/beifen/data/mysqlbak/data/allbak # 指定增量备份目录 ZlbakDir/root/beifen/data/mysqlbak/data/zlbak # 备份日志…

快速搭建express

一、 安装express-generator npm i -g express-generator二、创建项目 express -e 项目名三、安装依赖 npm install四、运行项目 cd 项目名npm start 五、打开网页http://localhost:3000/ 六、实时更新 1、安装nodemon npm i -g nodemon2、修改package.json 改成nodemon …

网络编程 01:计算机网络概述,网络的作用,网络通信的要素,以及网络通信协议与分层模型

一、概述 记录时间 [2024-12-13] 本文讲述网络编程相关知识,例如,什么是计算机网络,网络有什么作用,网络通信的要素是什么,以及网络通信协议与分层模型。 网页编程 / 网络编程区别: 网页编程:J…

亚信安全DeepSecurity完成与超云超融合软件兼容性互认

近日,亚信安全与超云数字技术集团有限公司(以下简称“超云”)联合宣布,亚信安全成功完成与超云超融合软件的产品兼容性互认证。经严格测试,亚信安全云主机安全DeepSecurity与超云FS5000增强型融合系统(简称…

【工业机器视觉】基于深度学习的水表盘读数识别(3-数据标注与转换)

【工业机器视觉】基于深度学习的仪表盘识读(2)-CSDN博客 数据标注 标注扩展 Labelme 和 LabelImg 都是用于创建机器学习和计算机视觉项目所需标注数据的工具。它们都允许用户通过图形界面手动标注图像,但各自有其特点和适用场景。 Labelme…

【硬件测试】基于FPGA的4ASK调制解调通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR

目录 1.算法仿真效果 2.算法涉及理论知识概要 3.Verilog核心程序 4.开发板使用说明和如何移植不同的开发板 5.完整算法代码文件获得 1.算法仿真效果 本文是之前写的文章: 《基于FPGA的4ASK调制解调系统,包含testbench,高斯信道模块,误码率统计模块,可以设置不同SNR》 的…

ubuntu20.04复现 Leg-KILO

这里写目录标题 opencv版本问题下载3.2.0源代码进入解压后的目录创建构建目录运行 CMake 配置 配置时指定一个独立的安装目录,例如 /opt/opencv-3.2:出错: 使用多线程编译错误1: stdlib.h: 没有那个文件或目录错误2:er…

kubeadm部署1.20集群版

部署说明 步骤1~4 master和node都需执行步骤 5.1 三台master都执行,步骤 5.2 随便一台机器执行步骤5.3根据需要选择部署etcd;堆叠etcd更简单部署更快,外部etcd部署麻烦方便管理;步骤5.4 根据选择部署的etcd方式选择k8…

【电力负荷预测实例】采用新英格兰2024年最新电力负荷数据的XGBoost电力负荷预测模型

与小编上篇文章介绍的基于BPNN神经网络的电力负荷预测相比较,两种模型的负荷预测方法各有优势,神经网络能够自动提取特征并处理非线性关系,而XGBoost则具有预测精度高、运行速率快和可解释性强的特点。在实际应用中,可以根据具体需…

6_Sass 选择器函数 --[CSS预处理]

Sass 提供了一系列的选择器函数,用于操作和组合CSS选择器。这些函数可以帮助你更灵活地创建样式规则,并且可以减少重复代码。以下是几个常用的选择器函数及其用法: 1. selector-append($selector1, $selector2...) selector-append($select…