【论文通读】VideoGUI: A Benchmark for GUI Automation from Instructional Videos

VideoGUI: A Benchmark for GUI Automation from Instructional Videos

  • 前言
  • Abstract
  • Motivation
  • VideoGUI
    • Pipeline
    • Evaluation
  • Experiments
    • Main Results
    • Analysis
  • Conclusion

前言

数字智能体的探索又来到了新的阶段,除了常见的桌面工具如PPT,Word,Excel,对于专业工具的使用是一个值得探索的领域,此外,专业工具往往对应着复杂的操作,面对几十上百操作的任务,当前的智能体能否根据query来给出相应的回答呢,本篇VideoGUI为这些问题指明了方向。

Paperhttps://arxiv.org/pdf/2406.10227
homepagehttps://showlab.github.io/videogui/

Abstract

自动化GUI可以提高人类生产力,但是现有的工作只关注于简单的电脑任务。本文提出新的多模态benchmark VideoGUI,旨在评估以视觉为中心的GUI任务上的智能体。该数据集来源网络高质量教学视频,关注于专业和新颖软件的任务和复杂操作。评估从多角度进行:

  1. High-level Planning: 没有自然语言描述情况下从视觉角度重建子任务序列。
  2. Middle-level Planning: 根据截图和目标生成精确的动作描述。
  3. Atomic-level Execution: 特定的动作,比如准确点击。

Motivation

数字时代与计算机操作主要依赖GUIs,同时LLMs在GUI自动化上展现了潜力。但是:

  1. 但是现有基于LLMs的应用在领域和任务上受到限制。
  2. 人类熟悉基础操作,但是对新颖和高级任务上束手无策。

image.png
那么如何扩展LLMs的应用场景,同时帮助人类完成难以操作的digital任务?

  1. 当前有丰富的教学视频,用于教导普通用户执行新颖且复杂的GUI任务。
  2. 利用这些教学视频进行人工标注复现,获得高质量的标注。

image.png

VideoGUI

VideoGUI涵盖11个以视觉为中心的软件应用,具有86个复杂任务(平均每个22.7个操作)和463个子任务,以及分层的手动规划和2.7K个手动操作的注释。
应用软件类型:

  • media creation: PPT,Runway,Stable Diffusion
  • media editing: Adobe Photoshop,Premiere Pro,After Effects,CapCut,DaVinci Resolve
  • media browsing: YouTube,VLC Player,Web Stock

image.png

Pipeline

  1. 手动选择配有高质量文字记录的教学视频。为了收集人类操作轨迹,构建仿真环境来监控用户行为。
  2. 邀请志愿者复现视频内容,用模拟器记录用户的操作。
  3. 用户操作完毕提供任务文本描述,并将任务分解子任务。此外还要识别操作的活动元素。
  4. 数据集校验。

下图是任务的分布:
image.png

Evaluation

image.png
只是简单通过成功率来衡量复杂操作任务是不合适的。任务可以分解为三个阶段(High-level Planning, Middle-level Planning, Atomic-action Execution)去解决,也就可以从三个维度(子任务,每个子任务操作叙述,每个具体操作)对任务完成情况进行测评。
**High-level Planning. **将给定的指令转换成子任务,输入包括三种类别,即视觉查询、详细文本查询、视觉+文本。评估采用GPT-4-Turbo,评分范围为0-5。
**Middle-level Planning. **对于每个给定的子任务,基于观察,智能体输出合适的UI动作。包含三种模式:视觉初始状态+文本查询,文本查询,视觉状态转换。同样采用LLM进行评估。
**Atomic-action Execution. **评估模型是否能够准确输出对应的动作。包括四种通用的动作分类:点击(metric:点到指定区域的recall)、拖拽(metric:开始点和结尾点与指定区域的recall)、滚动(目的让操作元素出现在视线内 metric:视为多跳问题,计算accuracy)、打字(沙盒方案,监听按键,recall+precision进行评估)。

Experiments

Main Results

image.png
总体而言,GPT-4o取得了最好的表现。
image.png
上图研究了不同query类型对planning的影响:

  1. 对于高级和中级,仅视觉设置具有很大的挑战。
  2. 在纯文本输入上各个模型表现相似性能。说明在文本query下,文本LLM就可以满足需求。
  3. 文本+视觉并没有提升性能,说明要提升多模态的感知能力。

image.png
上图评估了不同模型在原子操作上的表现:

  • 点击:可以做出正确的估计,但是召回率差。使用OCR等工具可以提升表现。
  • 拖动:召回率都很低,OCR工具增益明显。
  • 打字:表现优秀,可能因为编码能力不错。
  • 滚动:GPT-4o表现最好。

Analysis

image.png
上图表明常见的应用(如PPT)表现更好,而专业软件上,模型性能显著下降。
image.png
上图显示的是不同操作数量任务的得分分布。随着操作数据量增加,分数不断下降,表明长序列GUI任务的难度。
image.png
上图是模型可视化的成功和失败案例。

Conclusion

本文提出针对高级GUI任务的多模式benchmark VideoGUI,这些任务来源于高质量的教学视频。VideoGUI具有较长程序任务、分层手动注释和完善的评估指标,为现有领域指明了方向。通过对当前最先进模型的比较,强调了面向视觉的 GUI 自动化的挑战以及教学视频在推进 GUI 任务自动化方面的潜力。对于这篇工作,我也有一些自己的思考:

  1. 对高级软件的自动化探索是个有趣的方向,但是仅仅通过手动构建benchmark的方式不具有扩展性。
  2. 测评采用GPT-4-turbo的方式有些不公平,毕竟他会偏向于自己的输出,并且输出得分也是不稳定的。
  3. 如何自动化收集不同工具的复杂操作是一个值得探索的方向。
  4. 视频资源采用人类复现的方式感觉没有物尽其用,应该有更好的利用这些资源的方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/727921.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HTML(15)——盒子模型

盒子模型组成 内容区域 -width&height内边距-padding (出现在内容与盒子边缘之间)边框线-border外边距-margin (出现在盒子外面) div { width: 200px; height: 200px; background-color: rgb(85, 226, 193); padding: 20px; …

【项目实践】Ulike充电牙刷拆解

前言 用了一段时间的充电牙刷,某一次突然没电了,按键也没有反应。无奈只能废弃。最近略微得了些空闲,想着把它拆解看看里面的结构和电路。以下是鼓捣过程记录。 为什么不能直接抽出来? 在网上看到很多拆解视频,都是打开…

基于Windows API DialogBox的对话框

在C中,DialogBox函数是Windows API的一部分,它用于在Win32应用程序中创建并显示一个模态对话框。DialogBox函数是USER32.DLL中的一个导出函数,因此你需要在你的C Win32应用程序中链接到这个库。 #include "framework.h" #include …

修改a-menu菜单图标icon

1.通过触摸元素可知 这个箭头icon其实是通过::before和::after伪元素组合写出来的 2.模仿使用伪元素书写 同理,我们也使用伪元素写icon即可 ::v-deep .ant-menu{// 折叠.ant-menu-submenu-inline > .ant-menu-submenu-title .ant-menu-submenu-arrow::after{wi…

五十一、openlayers官网示例Layer Min/Max Resolution解析——设置图层最大分辨率,超过最大值换另一个图层显示

使用minResolution、maxResolution分辨率来设置图层显示最大分辨率。 <template><div class"box"><h1>Layer Min/Max Resolution</h1><div id"map" class"map"></div></div> </template><…

conda创建虚拟环境报错解决

1.报错截图 2.解决办法 查看当前所有虚拟环境 conda env list 解决办法 解决方法 bash conda config --add channels conda-forge conda config --set channel_priority strict conda config --set channel_priority flexible

20240620每日后端---------Spring Boot中的 5 大设计模式最佳实践和示例 这些是我经常使用的设计模式并且非常喜欢

在本文中&#xff0c;我们将深入探讨五种基本设计模式&#xff0c;并探讨在 Spring Boot 项目中有效应用它们的最佳实践。每个模式都将附有一个实际示例来演示其实现。 单例模式 Singleton 模式确保一个类只有一个实例&#xff0c;并提供对它的全局访问点。这对于管理资源&am…

SpringBoot 实现全局异常处理

为什么要使用全局异常处理&#xff1f; 减少冗余代码&#xff1a; 在不使用全局异常处理器的情况下&#xff0c;项目中各层可能会出现大量的try {…} catch {…} finally {…}代码块&#xff0c;这些代码块不仅冗余&#xff0c;还影响代码的可读性。全局异常处理器允许我们在一…

常说的云VR是什么意思?与传统vr的区别

虚拟现实&#xff08;Virtual Reality&#xff0c;简称VR&#xff09;是一种利用计算机技术模拟产生一个三维空间的虚拟世界&#xff0c;让用户通过视觉、听觉、触觉等感官&#xff0c;获得与现实世界类似或超越的体验。VR技术发展历程可追溯至上世纪&#xff0c;经历概念提出、…

计算机网络实验之单交换机互联终端实验

1.网线 4对&#xff0c;8根&#xff0c;RJ-45连接器&#xff08;水晶头&#xff09;&#xff1b; &#xff08;1&#xff09;直通线 双绞线缆两端按照EIA/TIA568B规格连接水晶头&#xff0c;该双绞线为直通线。 橘白1&#xff0c;橘2&#xff0c;绿白3&#xff0c;蓝4&#…

【vue3|第11期】Vue3中的ref属性:让元素引用变得简单

日期&#xff1a;2024年6月19日 作者&#xff1a;Commas 签名&#xff1a;(ง •_•)ง 积跬步以致千里,积小流以成江海…… 注释&#xff1a;如果您觉得有所帮助&#xff0c;帮忙点个赞&#xff0c;也可以关注我&#xff0c;我们一起成长&#xff1b;如果有不对的地方&#xf…

仿真模拟--telnet服务两种认证模式(自作)

自己做的笔记,有问题或看不懂请见解一下~ 目录 两个路由器间实现telnet服务(password认证模式) server client 两个路由器间实现telnet服务(aaa认证模式) server client 改名 tab键补齐 不会就扣问号 ? save 两个路由器间实现telnet服务…

【IDEA】Spring项目build失败

通常因为环境不匹配需要在file->projectstructure里面调整一下。

2024/6/20 驱动day7GPIO子系统

GPIO子系统点六盏灯 #include <linux/init.h> #include <linux/module.h> #include <linux/of.h> #include <linux/gpio.h> #include <linux/of_gpio.h> struct device_node* node; struct device_node* child_node1; struct device_node* child…

嵌入式实验---实验三 定时器实验

一、实验目的 1、掌握STM32F103定时器程序设计流程&#xff1b; 2、熟悉STM32固件库的基本使用。 二、实验原理 1、使用SysTick定时方式控制LED闪烁&#xff1b; 2、使用通用定时器产生PWM脉冲&#xff0c;通过调整占空比实现两个目标&#xff1a; &#xff08;1&#xf…

户外LED显示屏的发展历程

户外LED显示屏自其问世以来&#xff0c;经历了显著的发展与变革。其技术不断进步&#xff0c;应用场景逐步扩大&#xff0c;并在广告、信息传播等领域发挥了重要作用。本文将梳理户外LED显示屏的发展历程&#xff0c;重点介绍其技术演进和应用拓展。 早期发展&#xff1a;直插式…

React+TS 从零开始教程(1)

源码链接&#xff1a;https://pan.quark.cn/s/c6fbc31dcb02 创建项目 直接通过以下命令&#xff0c;我们来创建一个reactts的项目。 npx create-react-app myapp --template typescript这样就创建好了,然后我们导入vscode. npx是npm里面的一个库&#xff0c;可以让你自动使用…

运算放大器(运放)输入偏置电流、失调电流

输入偏置电流定义 理想情况下&#xff0c;并无电流进入运算放大器的输入端。而实际操作中&#xff0c;始终存在两个输入偏置电流&#xff0c;即IB和IB-(参见图1)。 I B I_B IB​的值大小不一&#xff0c;在静电计AD549中低至60 fA(每三微秒通过一个电子)&#xff0c;而在某些高…

/usr/bin/ld: 当搜索用于 /lib/i386-linux-gnu/libcuda.so 时跳过不兼容的 -lcuda

/usr/bin/ld: 当搜索用于 /lib/i386-linux-gnu/libcuda.so 时跳过不兼容的 -lcuda ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/023dbdeb215b4b4580f7f54706e32af9.pn当使用unsloth做微调时&#xff0c;发现找不到libcuda&#xff0c;很自然想到需要软链接到最新…

食品快消品进销存+门店批发+零售商城整体代码输出

食品快消品行业在当今信息化和数字化浪潮中&#xff0c;建立批发零售的信息化系统已成为一种迫切的必要性。通过信息化&#xff0c;食品快消品企业能够实现从生产到销售的全面优化&#xff0c;提高供应链效率&#xff0c;降低运营成本&#xff0c;增强市场竞争力。通过有效的信…