自然语言任务规划的新篇章:AutoGPT+P的突破

人工智能咨询培训老师叶梓 转载标明出处

尽管LLMs在自然语言处理(NLP)方面取得了显著进展,但它们在直接将自然语言指令转换为执行机器人任务的计划方面仍存在限制。这些限制主要源于LLMs在推理能力上的不足。由德国卡尔斯鲁厄理工学院(KIT)的研究人员提出了一种名为AutoGPT+P的系统,它通过结合大模型(LLMs)和传统规划算法,解决了机器人任务规划中的一些固有限制。

方法

研究者们提出了一种基于可供性的场景表示方法,用于从RGB图像中提取场景信息以辅助任务规划。可供性代表了对象对代理(如人或机器人)所提供的动作可能性,这种方法不仅基于对象的类别,而是基于它们的功能,从而允许更灵活的规划。

场景被符号化地表示为由对象和它们对应的可供性组成的集合,其中每个对象都与一个或多个可供性关联。为了从图像中提取这种表示,研究者们定义了对象可供性检测(OAD)问题,并提出了一个两阶段方法:首先是对象检测,确定图像中对象的类别和位置;其次是创建对象可供性映射(OAM),将检测到的对象与它们可能的可供性关联起来。这种方法允许系统理解如何用相同功能的不同对象来替代缺失的对象,从而在规划过程中提供更大的灵活性和鲁棒性。

图3展示了OAD过程的概述,其中RGB图像被用来检测场景中的对象,然后OAM将这些对象映射到它们相应的可供性。

基于可供性的场景表示方法为AutoGPT+P系统的任务规划提供了丰富的上下文信息,使得系统能够更准确地理解和执行用户通过自然语言发出的指令。

AutoGPT+P的核心是基于工具的架构,这些工具用于迭代更新机器人的内存,直到找到最终计划。下面详细介绍了AutoGPT+P的各个方面。

问题表述部分定义了整体规划任务。给定场景描述S,对象关系 R,可探索的位置L,以及自然语言中的任务λ,系统应返回一个动作序列或计划P 来完成任务。动作 α_i​ 定义为代理π 执行的能力 c,带有参数ρ。

AutoGPT+P的反馈循环是系统的核心,它结合了逐步自回归计划生成和大模型与规划器结合使用的规划工具。设计动机是使用主反馈循环填充机器人的内存,直到封闭世界规划问题可以使用规划工具解决。

图4:AutoGPT+P反馈循环的概览。绿色框代表输入和输出,蓝色框代表过程中的离散步骤。工具选择过程是反馈循环的核心,基于用户提示和当前内存状态选择工具。

算法1:AutoGPT+P反馈循环的步骤。输入包括内存M 和用户指定的任务λ。循环通过选择工具来更新内存,直到生成最终计划或失败。

工具选择过程基于用户提示和当前内存状态选择工具。工具包括规划(Plan)、部分规划(Partial Plan)、建议替代(Suggest Alternative)和探索(Explore)。

如果场景中找不到用户明确请求的对象,系统应该推理是否有其他对象可以替代。利用可供性推理进行替代建议任务。

算法2:替代建议的详细步骤。首先,查询大模型缺失对象类的哪些可供性与用户指定的任务相关。然后,查询大模型哪个对象与缺失对象在这种可供性上最相似。

AutoGPT+P系统中负责基于可供性规划的部分将用户指定的任务映射到一系列参数化动作。与LLM作为规划器相比,该方法的一个显著优势是,如果符号化目标表示准确代表给定的用户指定任务,则生成的计划将是最优的。

算法3:规划与自我纠正的详细步骤。输入包括用户指定的任务、场景、对象关系、代理位置、能力集合和最大循环次数。过程包括生成PDDL域和问题,然后让大模型生成目标状态。然后检查目标状态的语法和语义正确性。如果有错误,让大模型纠正目标状态。如果目标状态正确,则调用经典规划器。

图5:规划工具的概览。圆形框代表组件的输入和输出。

算法4:用于检查目标状态是否存在语义错误的方法。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

评论留言“参加”或扫描微信备注“参加”,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

评估与实验

为了评估对象可供性映射(OAM)的性能,研究者们使用了准确度(precision)、召回率(recall)和F1得分(F1)作为评价指标。这些指标用于衡量从图像中自动检测到的对象-可供性对(OAP)与真实情况(ground truth)的一致性。研究者们首先使用一个包含30个对象类别的独立训练集来优化提示(prompts),然后在一个包含70个带标签对象类别的测试集上进行评估。

表格II 展示了使用ChatGPT进行OAM在提出的可供性集上的表现,以及不同准确度、召回率和F1得分的比较。结果表明,GPT-4在大多数情况下优于GPT-3,并且结合是非题提问和逻辑的方法最有效。

替代建议工具通过与朴素的替代建议方法进行比较来评估。该工具要求大模型确定场景中哪个对象最能替代缺失的对象,而不需要进一步推理。研究者们使用30个预定义场景进行评估,每个场景包括缺失的对象、用户指定的任务、场景中的对象和允许的替代对象列表。

表格III 展示了替代建议工具与朴素方法的成功率比较。结果显示,随着场景中对象数量的增加,所有方法的准确性都有所下降。然而,与朴素方法相比,研究者的方法在准确性上只有轻微的下降。

规划工具通过使用来自SayCan指令集的场景以及研究者们自己创建的场景集进行评估。这些场景集旨在发现大模型在理解用户意图方面的局限性。

表格IV 和 表格V 展示了在SayCan指令集和研究者们自己的指令集上,规划工具在不同版本的GPT和自动自我纠正功能开启或关闭情况下的规划成功率。结果表明,研究者的方法在所有类别中的表现都优于或至少与SayCan相当,尤其是当使用GPT-4时。

AutoGPT+P的评估不仅仅局限于规划,还包括了工具选择和场景探索。研究者们设计了五组场景集,每组包含30个场景,以评估性能。这些场景集专注于各个工具的使用,以及需要结合所有工具来完成复杂任务的场景。

表格VI 展示了AutoGPT+P在成功率、最小计划长度和最小工具使用率方面的评估结果。结果表明,当场景中的对象数量增加时,成功率略有下降。然而,当给定对象位置的提示时,工具选择从未失败过。

为了验证系统的可行性,研究者们在仿人机器人ARMAR-6和ARMAR-DE上进行了多次实验。这些实验包括了各种需要不同程度人机协作的任务,如捡拾和放置、传递、倾倒和擦拭任务。

评估结果表明AutoGPT+P系统在处理复杂规划情况方面具有潜力,例如缺失对象的情况。系统在将用户指定的任务转化为有效计划方面也取得了很高的成功率。然而,当用户指定的任务更加模糊时,系统主要受限于无法评估用户意图的不确定性并请求澄清。AutoGPT+P在现实世界应用的另一个限制是一切都是以确定性的方式建模的,因此未考虑由对象识别、大模型生成的对象可供性映射或不清晰的用户指定任务引起的不确定性。此外,研究者们的方法没有将执行中的反馈(例如,关于技能失败的反馈)纳入考虑,这使得它在现实世界场景中执行时容易出错。

这些评估和验证表明AutoGPT+P是一个有前景的系统,但为了在现实世界中更有效地应用,还需要进一步的研究和改进。

https://arxiv.org/pdf/2402.10778

Timo Birr / AutoGPT+P Standalone · GitLab 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/886807.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Geogebra中级篇003—几何对象之点与向量

本文概述了在GeoGebra中如何使用笛卡尔或极坐标系输入点和向量。用户可以通过指令栏输入数字和角度,使用工具或指令创建点和向量。在笛卡尔坐标系中,示例如“P(1,0)”;在极坐标系中,示例如“P(1;0)”或“v(5;90)”。文章还介绍了点…

Spark SQL分析层优化

导读:本期是《深入浅出Apache Spark》系列分享的第四期分享,第一期分享了Spark core的概念、原理和架构,第二期分享了Spark SQL的概念和原理,第三期则为Spark SQL解析层的原理和优化案例。本次分享内容主要是Spark SQL分析层的原理…

828华为云征文|华为云 Flexus X 实例之家庭娱乐中心搭建

话接上文《828华为云征文|华为云Flexus X实例初体验》,这次我们利用手头的 Flexus X 实例来搭建家庭影音中心和密码管理环境。 前置环境 为了方便小白用户甚至运维人员,我觉得现阶段的宝塔面板 和 1Panel 都是不错的选择。我这里以宝塔为例…

《软件工程概论》作业一:新冠疫情下软件产品设计

课程说明:《软件工程概论》为浙江科技学院2018级软件工程专业在大二下学期开设的必修课。课程使用《软件工程导论(第6版)》(张海藩等编著,清华大学出版社)作为教材。以《软件设计文档国家标准GBT8567-2006》…

加密与安全_TOTP 一次性密码生成算法

文章目录 PreTOTP是什么TOTP 算法工作原理TOTP 生成公式TOTP 与 HOTP 的对比Code生成TOTP验证 TOTP使用场景小结 TOTP 与 HOTP 的主要区别TOTP 与 HOTP应用场景比较TOTP 与 HOTP安全性分析 Pre 加密与安全_HTOP 一次性密码生成算法 https://github.com/samdjstevens/java-tot…

基于Springboot vue应急物资供应管理系统设计与实现

博主介绍:专注于Java(springboot ssm 等开发框架) vue .net php python(flask Django) 小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不然下次找…

剖解最小栈

最小栈 思路: 1. 首先实例化两个栈,分别是stack用于存放数据,minstack用于存放最小值 2. 将第一个元素压入两个栈中,判断此时若minStack栈中为空,则表示压入的为第一个数据 if ( minStack.empty () ) { minStack.pus…

【GT240X】【04】你必须知道的 50 多个 Linux 命令

文章目录 一、介绍二、五十个linux命令一览表三、50个命令详解四、结论 你必须知道的 50 多个 Linux 命令 一、介绍 你经常使用 Linux 命令?今天,我们将介绍 50 多个你必须知道的 Linux 命令。下面列出的命令是一些最有用和最常用的 Linux 命令&#x…

IDEA 最新版创建 Sping Boot 项目没有 JDK8 选项的解决方案

问题 今天新建一个 Java 项目写 demo 时,发现 Idea 上只能勾选 Java 17、21、23 三个版本 解决方案 IDEA 页面创建 Spring 项目,其实是访问 spring initializr 去创建项目。我们可以通过阿里云国服去间接创建 Spring 项目。服务器 URL 地址替换为 ht…

蓝桥杯【物联网】零基础到国奖之路:十四. 扩展模块之温湿度传感器

蓝桥杯【物联网】零基础到国奖之路:十四. 扩展模块之温湿度传感器 第一节 硬件解读第二节 CubeMX配置第三节 模版代码 第一节 硬件解读 STS3x-DIS是sensirion新一代温湿度传感器。精度较高,速度较快。SHT3x内部集成了湿度传感器和温度传感器,ADC采样输入…

[网络]抓包工具介绍 tcpdump

一、tcpdump tcpdump是一款基于命令行的网络抓包工具,可以捕获并分析传输到和从网络接口流入和流出的数据包。 1.1 安装 tcpdump 通常已经预装在大多数 Linux 发行版中。如果没有安装,可以使用包管理器 进行安装。例如 Ubuntu,可以使用以下…

9-贪心算法

参考:代码随想录 题目分类大纲如下: 贪心算法理论基础 什么是贪心? 贪心的本质是选择每一阶段的局部最优,从而达到全局最优。 贪心的套路(什么时候用贪心) 贪心算法并没有固定的套路,说白了…

OpenSource - 开源WAF_SamWaf

文章目录 PreSafeLine VS SamWaf开发初衷软件介绍架构界面主要功能 使用说明下载最新版本快速启动WindowsLinuxDocker 启动访问升级指南自动升级手动升级 在线文档 代码相关代码托管介绍和编译已测试支持的平台测试效果 安全策略问题反馈许可证书贡献代码 Pre Nginx - 集成Mod…

Java继承、final/protected说明、super/this辨析

目录 1.什么是继承 2.继承的特征 3.子类构造方法 4.super和this辨析 5.再谈初始化 6.protected关键字用法说明 7.final的用法说明 1.什么是继承 上面的这个animal就是基类,我们的这个dog和bird都是继承这个基类的特征,使用的是extends这个关键字&a…

Python编写的贪吃蛇小游戏

安装包 pip install pygame完整代码 import pygame import randompygame.init()# 定义颜色 white (255, 255, 255) black (0, 0, 0) red (213, 50, 80) green (0, 255, 0) blue (50, 153, 213)# 定义屏幕大小 dis_width 800 dis_height 600dis pygame.display.set_mo…

【大数据入门 | Hive】函数{单行函数,集合函数,炸裂函数,窗口函数}

1. 函数简介: Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。 好处:避免用户反复写逻辑,可以直接拿来使用。 重点:用户需要知道函数叫什么,能做什么。 Hive提供了大量的内置函数&am…

Redis操作常用API

说明&#xff1a;Redis应用于java项目中&#xff0c;操作Redis数据可以使用API&#xff0c;相较于命令行更方便。使用前&#xff0c;需先添加依赖。 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-re…

云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

本文根据2024云栖大会实录整理而成&#xff0c;演讲信息如下&#xff1a; 演讲人&#xff1a; 王 峰 | 阿里云智能集团研究员、开源大数据平台负责人 李 钰&#xff5c;阿里云智能集团资深技术专家 范 振&#xff5c;阿里云智能集团高级技术专家 李劲松&#xff5c;阿里云…

【机器学习基础】Transformer学习

Transformer学习 一、输入1. Word Embedding2. Positional EncodingPositional Encoding的计算方法二、自注意力机制二、Add & Norm层1. Add 代表残差连接(Residual Connection)2. Norm= Normalization归一化三、FeedForward层其他资料一、输入 第一步:获取输入句子的每…

基于微信小程序的四六级词汇+ssm(lw+演示+源码+运行)

摘 要 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;四六级词汇小程序被用户普遍使用&#xff0c;为方便用户能…