复旦TravelPlanner让大语言模型挑战旅程规划

引言:探索语言智能的新疆界——旅行规划

在人工智能的发展历程中,规划一直是核心追求之一。然而,由于缺乏人类水平规划所需的多种认知基础,早期的AI代理主要集中在受限的环境中。随着大语言模型(LLMs)的出现,新一代的语言代理展现出了使用工具和推理等有趣的能力。这引发了一个问题:这些语言代理是否能够在先前AI代理无法触及的更复杂环境中进行规划?

为了深入探索这一问题,我们提出了一个新的规划基准——TravelPlanner,它专注于常见的现实世界规划场景:旅行规划。这是一个即使对人类来说也具有挑战性的任务,但大多数人在有适当工具和足够时间的情况下都能成功完成。旅行规划不仅涉及多天行程的长期规划,还包括对地点、住宿、交通、餐饮等众多相互依赖的决策。此外,旅行规划还涉及许多约束,从预算和各种用户需求的明确约束到常识性的隐性约束,例如人们不能在不使用某种交通工具的情况下瞬移到另一个城市。因此,旅行规划要求强大的主动性,以使用各种工具主动获取必要信息,并在考虑所有明确和隐性约束的同时,对收集到的信息进行深思熟虑以推进规划。

论文标题TravelPlanner: A Benchmark for Real-World Planning with Language Agents

论文链接:

https://arxiv.org/pdf/2402.01622.pdf

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核、配图后发布。

公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接。

语言智能与人类规划能力的比较

人类规划能力的特点

人类的规划能力是智能的标志之一,它是基于多种能力的进化成果:使用各种工具迭代收集信息并做出决策,记录中间计划(在工作记忆或物理设备上)以供审议,以及通过运行模拟探索替代计划,这又依赖于世界模型。数十年来,研究人员一直在尝试开发能够模仿人类规划能力的AI代理,但通常是在受限的环境中,因为许多人类级别规划所需的认知基础设施一直缺失。能够在人类操作的大部分不受限制的环境中稳健工作的AI代理仍然是一个遥远的目标。

语言智能在规划任务中的表现

随着大语言模型(LLMs)的出现,新一代的语言代理出现了,它们通过使用语言作为思考和交流的工具而具有特点。这些代理展示了诸如工具使用和各种形式的推理等有趣的能力,可能满足了早期AI代理所缺乏的一些认知基础设施的角色。因此,研究人员开始研究它们在从经典规划设置到体现代理和网络代理等一系列规划任务中的潜力。然而,现有工作中的规划设置仍然主要遵循传统设置,即以固定的基本事实进行单目标优化。

TravelPlanner提出了一个新的规划基准,专注于旅行规划这一常见的现实世界规划场景。这是一个即使对于人类来说也具有挑战性和耗时的任务(但大多数人可以在有正确工具和足够时间的情况下成功完成):规划多天的行程本质上是长期的,涉及大量相互依赖的决策,例如地点、住宿、交通、餐饮等。旅行规划涉及许多约束,从预算和各种用户需求等明确的约束到隐性的常识约束,例如人们不能在不使用某种交通工具的情况下瞬移到另一个城市。旅行规划需要强大的能动性,以主动使用各种工具(例如搜索航班和餐馆)从部分可观察的环境中获取必要信息,并在考虑所有明确和隐性的约束的同时,对收集到的信息进行深思熟虑以推进规划。这种复杂性的规划任务超出了以前AI代理的能力范围。

TravelPlanner提供了一个丰富的沙盒环境,可以通过六种工具访问大约四百万条从互联网爬取的数据记录,并精心策划了1,225个不同的用户查询(以及它们的参考计划),每个查询都施加了不同组合的约束。综合评估表明,当前的语言代理尚未能够处理如此复杂的规划任务——即使是GPT-4也只实现了0.6%的成功率。语言代理难以保持任务,使用正确的工具收集信息,或跟踪多个约束。然而,我们注意到,语言代理有可能处理如此复杂的问题本身就是一个了不起的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试床。

TravelPlanner基准的介绍与目的

TravelPlanner基准介绍

TravelPlanner提供了一个丰富的沙盒环境,包含约四百万条从互联网爬取的数据记录,可以通过六种工具访问。我们还精心策划了1,225个多样化的用户查询(以及它们的参考计划),每个查询都施加了不同组合的约束。一个代表性的例子如图1所示。

TravelPlanner的目的

我们对五种LLMs(例如GPT-4)和四种规划策略进行了全面评估,以测试它们提供完整计划的能力。结果表明,即使是最先进的语言代理也无法处理像TravelPlanner这样复杂的规划任务——GPT-4的成功率仅为0.6%。语言代理在保持任务相关、使用正确工具收集信息或跟踪多个约束方面存在困难。然而,值得注意的是,语言代理能够尝试解决如此复杂的问题本身就是一个不小的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试平台,为它们朝着人类水平的复杂规划能力攀登提供了帮助。

一个积极的迹象是,尽管我们训练有素的人类标注者平均需要12分钟手动标注一个计划,但语言代理可以在仅1-2分钟内自动产生一个计划。也许有一天,语言代理将变得足够强大,能够帮助我们自动化处理许多这样的繁琐任务。

TravelPlanner基准的构建

约束的类型与评估方法

为了评估代理是否能够感知、理解并满足各种约束以制定可行的计划,我们在TravelPlanner中包括了三种类型的约束(表1):

  • 环境约束:真实世界是动态的,代理需要适应性强。例如,某些目的地的航班在特定时间可能不可用,代理必须动态寻找替代方案。

  • 常识约束:代理在现实世界中服务于人类时,应当考虑常识。例如,重复访问同一景点通常是不典型的。

  • 硬性约束:评估代理是否能够有效满足个性化用户需求,例如预算限制。

环境设置与数据记录工具

在TravelPlanner中,我们创建了一个静态且封闭的沙盒环境,以确保一致性和无偏见的评估。这样的设置保证了所有代理都能访问到相同的、不变的信息,避免了动态数据引入的变数和潜在偏差。为了提供与现实世界相符的多样化旅行选项,我们确保TravelPlanner中每个工具的数据库都包含丰富的信息。例如,FlightSearch工具的数据库就从Kaggle Flight Status Prediction数据集中提取了2022年3月1日至4月1日的数据,并生成了价格信息(表2)。此外,代理被指示使用“NotebookWrite”工具来记录规划所需的信息,以评估代理的工作记忆管理能力,并防止因上下文累积而导致的最大token限制问题。

旅行查询的设计与分类

为了创建TravelPlanner的多样化查询,我们从基本元素出发,包括出发城市、目的地和特定日期范围,随机选择以形成每个查询的框架。然后,我们调整旅行的持续时间和硬性约束的数量来创造不同复杂性级别的查询。例如,3天的计划专注于一个城市,而5天和7天的计划涉及访问一个随机选择的州,分别包括2个和3个城市的旅行。我们还引入了多样化的用户需求作为硬性约束,以增加进一步的复杂性和现实感。最后,我们使用GPT-4生成自然语言查询。

实验设计与基线模型

实验模式与评估标准

我们从多个维度对代理提供的计划进行综合评估。评估标准包括:

  • 交付率:评估代理是否能在有限步骤内成功交付最终计划。

  • 常识约束通过率:评估代理是否能将常识纳入其计划中。

  • 硬性约束通过率:衡量计划是否满足查询中明确给出的所有硬性约束。

  • 最终通过率:在所有测试计划中,满足所有上述约束的可行计划的比例。

选取的LLMs与规划策略

我们评估了多种LLMs和规划策略在TravelPlanner上的表现。在两阶段模式中,我们使用ReAct框架进行信息收集,同时改变基础LLMs。这种方法允许我们评估在统一工具使用框架下不同LLMs的表现。在单一规划模式中,我们的评估不仅涉及不同的LLMs,还包括不同的规划策略,以评估这些在其他规划基准中被证明有效的策略是否在TravelPlanner中保持其有效性。所有实验都是在零样本设置中进行的。

实验结果与深入分析

LLMs在TravelPlanner中的表现

在TravelPlanner中,最先进的大语言模型(LLMs)面临着巨大的挑战。即使是GPT-4,其成功生成满足所有约束条件的计划的比率也仅为0.6%,而其他LLMs未能完成任何任务(表3)。这些结果表明,尽管LLMs在使用工具和推理方面展现出了一定的能力,但它们在处理复杂的旅行规划任务时仍然存在困难。LLMs在保持任务相关性、使用正确工具收集信息以及跟踪多个约束方面表现不佳。

规划策略的有效性对比

在TravelPlanner中评估的四种规划策略——ReAct和Reflexion等,虽然在简单的规划设置中可能有效,但在TravelPlanner中的多约束任务中表现不足。它们通常无法正确地将推理转化为正确的行动,并跟踪全局或多个约束。这表明,语言智能需要更复杂的规划策略来接近人类级别的规划。

语言智能在工具使用与规划中的错误分析

进一步的分析揭示了现有语言智能的许多常见失败模式,如在工具使用中的参数错误、陷入死循环以及幻觉(图2)。例如,GPT-4-Turbo在使用工具时仍然会出现参数错误和重复动作循环的问题,这表明即使在收到无效操作或空结果的反馈后,智能体仍然持续重复这些操作。这暗示了智能体未能根据环境反馈动态调整其计划。

案例研究:语言智能规划失败的原因

通过对失败案例的研究,我们可以更深入地了解当前智能体在深度规划中的缺陷(图3)。例如,智能体由于无法纠正持续的错误而未能完成计划。在工具使用场景中,智能体通常在所有前置步骤正确执行的情况下仍然无法交付计划。进一步的调查显示,这通常是由于输入日期错误导致的。此外,智能体在单独规划模式下提供幻觉答案,是因为它们在处理大量信息时容易混淆。这表明智能体可能在面对大量信息时迷失方向,这种现象被称为“Lost in the Middle”。

智能体还难以将其行动与推理对齐。例如,在使用Reflexion策略的情况下,尽管智能体认识到需要最小化成本,但它们倾向于随机选择项目,其中一些可能更昂贵。这种行动与分析推理之间的不一致性严重阻碍了智能体的交付率。

总之,TravelPlanner为当前的智能体提供了一个重大挑战。即使是在许多传统任务中表现出与人类相当或更优的SoTA LLMs和规划策略,也仍然远远不足以处理人类能够胜任的复杂规划任务。TravelPlanner为未来更有能力的语言智能体的发展提供了一个具有挑战性但有意义的测试平台。

结论与未来展望:TravelPlanner对语言智能发展的意义

结论

TravelPlanner作为一个新型的旅行规划基准测试,为语言智能的发展提供了新的视角和挑战。通过对多个大语言模型(LLMs)的综合评估,我们发现即使是最先进的语言代理框架,如GPT-4,其在最终通过率上也仅达到了0.6%。这一结果表明,当前的语言代理在处理复杂的多约束规划任务时仍然存在明显的不足。

TravelPlanner的推出,不仅验证了语言代理在工具使用、信息收集和规划制定方面的能力,也揭示了它们在保持任务相关性、正确使用工具收集信息以及跟踪多重约束方面的不足。尽管如此,语言代理能够尝试解决如此复杂的问题本身就是一个不平凡的进步。

未来展望

未来的研究可以在TravelPlanner提供的丰富沙盒环境和挑战性测试床的基础上,进一步推动语言代理的发展。我们期待未来的语言代理能够更好地理解和处理复杂的多约束规划任务,逐步接近人类水平的规划能力。此外,随着语言代理在规划任务中的自动化能力的提升,它们有望在未来帮助人类自动化处理繁琐的任务,从而节省时间和提高效率。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核、配图后发布。

公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/385064.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【设计模式】springboot3项目整合模板方法深入理解设计模式之模板方法(Template Method)

🎉🎉欢迎光临🎉🎉 🏅我是苏泽,一位对技术充满热情的探索者和分享者。🚀🚀 🌟特别推荐给大家我的最新专栏《Spring 狂野之旅:底层原理高级进阶》 &#x1f680…

GPT4:你是故意的吧!

请问下面选项中哪个是中文? A.Chinese B.英文 这是一个关于语言识别的问题。我们需要分析并确定所给选项中哪个表示中文。 对于选项A.Chinese:这个词本身表示“中文”或“中国的”。在多种语境中,它经常被用来指代中国的语言,即中…

(三十五)大数据实战——Superset可视化平台搭建

前言 本节内容是关于Apache Superset可视化平台的搭建,Apache Superset是一个现代的数据探索和可视化平台 。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数据分析引擎,拥有丰富的图表展示形式,并且支持自…

C++初阶:容器(Containers)list常用接口详解

介绍完了vector类的相关内容后,接下来进入新的篇章,容器list介绍: 文章目录 1.list的初步介绍2.list的定义(constructor)3.list迭代器( iterator )4.string的三种遍历4.1迭代器4.2范围for循环 5…

【Vue】computed与watch

📝个人主页:五敷有你 🔥系列专栏:Vue⛺️稳重求进,晒太阳 计算属性 概念:基于现有的数据,计算出来新的属性,依赖的数据变化,自动重新计算 语法: 声明…

C++,stl,map/multimap详解

目录 1.map的构造和赋值 2.map的大小和交换 3.map的插入和删除 4.map的查找和统计 5.map的排序 1.map的构造和赋值 #include<bits/stdc.h> using namespace std;void print(map<int,int> &mp) {for(map<int,int>::iterator it mp.begin(); it ! m…

python安装cv2失败

问题:安装cv2包失败 解决方法&#xff1a; pip install opencv-python或在Anaconda中conda install opencv-python

原神4.0.1单机版【开局满级】纯单机,无限原石材料

版本介绍 版本4.0.1稳定版【过分追新并不稳&#xff0c;合理才完美】 独家原神&#xff0c;游戏内自带剧情任务&#xff0c;完美仿官&#xff0c;一比一完美复制&#xff01; 已经拥有完美剧情、任务、副本、卡池、深渊、全物品、和全部功能和皮肤。 修改注意 如果要进行不…

Agile Initiative, Epic, and Story/Task

Stories, also called “user stories,” are short requirements or requests written from the perspective of an end user. stories are something the team can commit to finish within a one- or two-week sprint.Epics are large bodies of work that can be broken do…

《软件方法》强化自测题-杂项题目解析01

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 杂项&#xff08;1&#xff09; 3 [ 单选题 ] 《软件方法》第1章“建模和UML”开头所引用的歌曲&#xff0c;其词曲作者还写过下列歌曲中的&#xff1a; A) 爱江山更爱美人&#…

linux信号机制[一]

目录 信号量 时序问题 原子性 什么是信号 信号如何产生 引入 信号的处理方法 常见信号 如何理解组合键变成信号呢&#xff1f; 如何理解信号被进程保存以及信号发送的本质&#xff1f; 为什么要有信号 信号怎么用&#xff1f; 样例代码 core文件有什么用呢&#…

【Java程序设计】【C00268】基于Springboot的CSGO赛事管理系统(有论文)

基于Springboot的CSGO赛事管理系统&#xff08;有论文&#xff09; 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的赛事管理系统 本系统分为系统功能模块、管理员功能模块、参赛战队功能模块以及合作方功能模块。 系统功能模块&#xff1a;在系…

AMD FPGA设计优化宝典笔记(3)控制集

控制集 1 控制集的个数要求 控制集 control set&#xff1a;因为 7 系列 FPGA&#xff0c;一个 slice 只能有一种控制集&#xff08;触发器的使用方式 比如有复位/有时钟使能等等&#xff09;&#xff0c;多了就会分布到不同的 slice 里&#xff0c; 所以代码尽量统一触发器的…

寒假作业——2/13

作业1 作业2 cp cp 当前的文件位置 复制到哪个位置 格式 : cp 路径/文件 路径/目录名/重新命名的目录名 mv mv 当前的文件位置 复制到哪个位置 格式 : mv 路径/文件 路径/目录名/重新命名的目录名 也可进行重命名操作 find 查找文件 find 目标路径 -name 文件名 后续…

C++ matplotlib 画图 Linux

Matplotlib-cpp画图 命令行下载matplotlibcpp git clone https://github.com/lava/matplotlib-cpp将matplotlibcpp.h移动到自己所用的工程 CMakeList.txt文件如下所示 cmake_minimum_required(VERSION 3.0.2) project(huatu)set(CMAKE_CXX_STANDARD 11)file(GLOB_RECURSE P…

Docker容器化K8s集群部署教程(一键部署sheel脚本)

本文通过脚本&#xff0c;可以快速地部署和配置Kubernetes环境&#xff0c;省去了各插件手动部署、配置的繁琐过程。 先看最终结果&#xff1a; [rootlocalhost home]# kubectl get node NAME STATUS ROLES AGE VERSION k8smaster Ready control-p…

AI引领低代码革命:未来应用开发的新主流

距离ChatGPT发布已经过去快一年时间。 在这一年里&#xff0c;以ChatGPT为代表的自然语言处理领域的重大进步&#xff0c;为我们的对话系统和语言交流提供了更加智能和自然的体验。随着ChatGPT的应用不断扩大&#xff0c;人们开始认识到人工智能&#xff08;AI&#xff09;技术…

分享84个jQuery特效,总有一款适合您

分享84个jQuery特效&#xff0c;总有一款适合您 84个jQuery特效下载链接&#xff1a;https://pan.baidu.com/s/1P9fmHWRdaCRMXr3H9sNA1A?pwd8888 提取码&#xff1a;8888 Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 学习知识费力气&#xff0c;收集整理…

微软为新闻编辑行业推出 AI 辅助项目,记者参加免费课程

2 月 6 日消息&#xff0c;微软当地时间 5 日发布新闻稿宣布与多家新闻机构展开多项基于生成式 AI 的合作。微软表示&#xff0c;其使命是确保新闻编辑室在今年和未来拥有创新。 目前建议企业通过微软官方合作伙伴获取服务&#xff0c;可以合规、稳定地提供企业用户使用ChatGP…

springboot160社区智慧养老监护管理平台设计与实现

简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的 适用于计算机类毕业设计&#xff0c;课程设计参考与学习用途。仅供学习参考&#xff0c; 不得用于商业或者非法用途&#xff0c;否则&#xff0c;一切后果请用户自负。 看运行截图看 第五章 第四章 获取资料方式 **项…