太强了!腾讯开源!多模态AppAgent自主操作智能手机应用程序!

AppAgent是一款基于大型语言模型(LLMs)的新型多模态智能代理框架,专为操作智能手机应用而设计。它结合了GPT-4V的先进视觉理解能力,通过“眼睛”观察手机界面,模仿人类的点击和滑动交互方式来学习操作应用程序。这种方法避免了直接访问系统后端的需求,使其适用于多种应用程序。AppAgent的学习方式类似于人类,需要首先理解各个按钮的功能,然后进行尝试,遇到困难时会寻求帮助或观察示范。这种自主探索或观察人类操作的学习方法不仅提高了学习效率和准确性,也使其能够在执行任务时参考所生成的知识库。

为验证AppAgent的实用性,研究团队对其在10种不同应用中执行的50个任务进行了测试,包括在谷歌地图上输入目的地并设置导航路线、编写和发送电子邮件,以及在Lightroom上进行自动修图等任务。测试结果证明了AppAgent在处理多样化的高级任务,如社交媒体、电子邮件、地图、购物和图像编辑工具等领域的高效能力。

项目地址:https://github.com/mnotgod96/AppAgent
论文地址:https://arxiv.org/abs/2312.13771
在这里插入图片描述
AppAgent具备两种关键的学习模式,旨在增强其学习和适应能力,这也是其核心功能的一部分。

自主探索模式:在这种模式下,AppAgent与应用程序进行直接交互,执行各种操作,如点击按钮、滑动屏幕等。通过这种交互,AppAgent能够观察到不同的反馈和结果,并从中学习如何正确操作应用程序。这种学习方式使得代理能够逐渐积累知识和经验,并建立起关于应用操作的详尽知识库。这种自主探索使AppAgent能够在没有直接指导的情况下独立学习和适应。

观察人类示范模式:在这个模式中,AppAgent专注于观察人类用户操作应用程序的具体方式。通过分析和理解这些示范行为,AppAgent可以学习到正确的操作方法。这种观察人类示范的方法使代理能够迅速学习和适应新的应用程序,因为它可以直接借鉴人类用户的经验和技巧。这一过程类似于大型模型中的人类反馈强化学习(RLHF)。

综合这两种学习模式,AppAgent能够深入理解应用程序的界面结构、功能和操作规则。这样的学习策略不仅提高了代理在不同应用程序间执行复杂任务的能力,还使其在真实世界环境中展现出高效和熟练的操作性能。
在这里插入图片描述
下面是该项目Star趋势图,可以看出关注度一直在上涨。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/312980.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

「JavaSE」类和对象1

🎇个人主页:Ice_Sugar_7 🎇所属专栏:快来卷Java啦 🎇欢迎点赞收藏加关注哦! 类和对象 🍉类的定义🍌类的实例化 🍉this引用🍉对象的构造及初始化🍌…

打破硬件壁垒:TVM 助力 AI技术跨平台部署

文章目录 《TVM编译器原理与实践》编辑推荐内容简介作者简介目录前言/序言获取方式 随着人工智能(Artificial Intelligence,AI)在全世界信息产业中的广泛应用,深度学习模型已经成为推动AI技术革命的关键。TensorFlow、PyTorch、MX…

Android系统启动-Zygote详解(Android 14)

一、什么是Zygote 在上一篇文章Android系统启动-init进程详解(Android 14)中,分析了init进程,在init进程启动的第二阶段会解析init.*.rc文件,启动多个进程,其中包括Zygote。 Zygote又叫孵化器&#xff0c…

1、Redis核心数据结构: 魔法般的数据存储之旅

在当今世界的软件开发中,数据的快速、高效存储和检索是至关重要的。而在这个领域,Redis(Remote Dictionary Server)以其强大的性能和多样化的数据结构而脱颖而出。本文将带您深入探讨Redis的核心数据结构,揭示其背后的…

1.12寒假集训

A: 解题思路: 输出整体可以分成两部分: 第一部分循环3*n次,第一部分又可以分成三个部分,分别是*,.,*,分别循环n,2 * n,n次 第二部分循环n次,又可以分成五个部分,.,*,.,*,.,循环i,n(n - i) * 2,n,i次 下…

(1)(1.13) SiK无线电高级配置(六)

文章目录 前言 15 使用FTDI转USB调试线配置SiK无线电设备 16 强制启动加载程序模式 17 名词解释 前言 本文提供 SiK 遥测无线电(SiK Telemetry Radio)的高级配置信息。它面向"高级用户"和希望更好地了解无线电如何运行的用户。 15 使用FTDI转USB调试线配置SiK无线…

国际化翻译系统V2正式上线了

1、前言 之前上线了移动端国际化翻译系统V1版本,其中有一些弊端,例如: 1、项目仅能适用于Android和iOS项目,针对前端项目,Flutter项目,和后端项目无法支持2、之前的桌面程序需要搭建本地java环境才能运行…

【2023年度总结与2024展望】---23年故事不长,且听我来讲

文章目录 前言一、学习方面1.1 攥写博客1.2 学习内容1.3 参加比赛获得证书 二、生活方面2.1写周报记录生活 三、运动方面四、CSDN的鼓励五、24年展望总结 前言 时光飞逝,又是新的一年,遥想去年2023年我也同样在这个时间段参加了CSDN举办的年度总结活动&a…

别再纠结,这8款设计工具助你轻松绘制原型图!

原型图设计工具有很多优点。除了帮助设计师快速与客户达成协议,避免项目前景的冲突外,原型图设计工具还可以让客户看到正在创建的内容。如果需要更改,原型图设计工具也可以轻松完成。本文快速总结了8种原型图设计工具。无论你是专业设计师还是…

如何更改路由器Wi-Fi密码,这里提供通用步骤

这篇文章解释了如何通过路由器的设置更改Wi-Fi密码,即使你不知道当前的密码。 如何更改你的Wi-Fi密码 该过程按照以下一般步骤展开。 ​重要:这些是更改Wi-Fi密码的通用说明。更改路由器设置所需的步骤因不同制造商的路由器而异,甚至可能在…

Python入门0基础学习笔记

1.编程之前 在编写代码之前,还有两件事需要做: 安装 Python 解释器:计算机是没法直接读懂 Python 代码的,需要一个解释器作为中间的翻译,把代码转换成字节码之后再执行。 Python 是翻译一行执行一行。一般说的安装 …

【解决】Unity Project 面板资源显示丢失的异常问题处理

开发平台:Unity 2021.3.7f1c1   一、问题描述 在开发过程中,遭遇 Project 面板资源显示丢失、不全的问题。但 Unity Console 并未发出错误提示。   二、解决方案:删除 Library 目录 前往 “工程目录/Library” 删除内部所有文件并重打开该…

IntelliJ IDEA 如何编译 Maven 工程项目

在当今的Java开发领域,Maven已经成为项目构建和依赖管理的标准工具。IntelliJ IDEA作为一款集成度高的Java开发环境,提供了许多强大的功能来简化和优化Maven项目的构建流程。本文将深入介绍如何使用IntelliJ IDEA编译Maven工程的详细步骤以及一些高级技巧…

用java搞定时任务,将hashmap里面的值存到文件里面去

要实现这个功能,你可以使用Java的Timer和TimerTask类来创建一个定时任务。 首先,你需要创建一个继承自TimerTask的类,重写run方法,将HashMap中的内容写入文本文件。 然后,使用Timer类的schedule方法来设置定时任务的执…

记忆泊车PNC模块架构设计说明书

目 录 0 修订历史......... 2 1. 概要 ............... 5 1.1. 目的 ............... 5 1.2. 参考文档 ......... 5 2. 名词解释 ...... 5 3. 需求概述 ............. 6 3.1. 业务视图 .............. 6 3.2. 功能描述 ............... 6 3.3. 性能指标 ............ 6 3.4. 资…

【软件安全:软件安全技术课后习题及答案】

第一章 1-1 零日漏洞、零日攻击 零日漏洞是指未被公开披露的软件漏洞,没有给软件的作者或厂商以时间去为漏洞打补丁或是给出建议解决方案,从而攻击者能够利用这种漏洞破坏计算机程序、数据及设备。 利用零日漏洞开发攻击工具进行的攻击称为零日攻击。 1-…

Ubuntu server搭建dhcp服务器

安装 直接使用一下命令进行安装 apt-get install isc-dhcp-server 以下就是安装好的图片 然后进入dhcp目录 cd /etc/dhcp 进入后用ls查看当前目录存在哪些文件 使用如下进入dhcp.conf vim dhcpd.conf 红:设置ip域和子网掩码 绿:设置ip池范围 黄…

爬虫利器一览

前言 爬虫(英文:spider),可以理解为简单的机器人,如此一个“不为名利而活,只为数据而生,目标单纯,能量充沛,不怕日晒雨淋,不惧寒冬酷暑”的家伙,…

【深度学习】Anaconda3 + PyCharm 的环境配置 1:手把手带你安装 PyTorch 并创建 PyCharm 项目

前言 文章性质:实操记录 💻 主要内容:这篇文章记录了 PyTorch 的安装过程,包括: 1. 创建并激活新的虚拟环境; 2. 查看电脑是否支持 CUDA 以及 CUDA 的版本; 3. 根据 CUDA 的版本安装 PyTorch&am…

归并排序例题——逆序对的数量

做道简单一点的题巩固一下 归并排序实现步骤 将整个区间 [l, r] 划分为 [l, mid] 和 [mid1, r]。 递归排序 [l, mid] 和 [mid1, r]。 将左右两个有序序列合并为一个有序序列。 题目描述 给定一个长度为 n 的整数数列,请计算数列中的逆序对的数量。 逆序对的定义…