清华新突破||新研究揭示多智能体协作的秘密武器

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读

点击订阅:人工智能论文解读合集

8578585ab5efe437c69dda69f69d02fe.jpeg

18d8110ab9f84fe961adae7bbf62255b.jpeg

引言:多智能体协作中的挑战与机遇

在多智能体系统中,智能体需要通过协作来完成复杂的任务,这种协作涉及到通信、协调和决策制定等多个方面。尽管多智能体系统的研究已经取得了一定的进展,但在实际应用中,如何有效地实现智能体之间的协作仍然是一个重大挑战。

一方面,多智能体协作提供了处理复杂问题的新机遇。例如,在灾难响应、自动驾驶、智能制造等领域,多智能体协作能够有效地分配和优化资源,提高系统的整体效率和响应速度。此外,通过集体智慧,多智能体系统能够完成单个智能体难以独立完成的任务,如复杂的搜索和救援任务。

另一方面,多智能体协作也面临着众多挑战。首先,智能体之间的通信可能受到限制,如信号干扰、传输延迟等问题,这些因素都可能影响协作的效率和效果。其次,如何设计有效的协作策略以适应动态变化的环境和任务需求,是另一个需要解决的问题。此外,智能体的自主性和个体差异也可能导致协作中出现冲突和协调困难。

为了克服这些挑战,研究人员提出了多种方法和技术。例如,通过增强智能体的学习和适应能力,使其能够在没有中央控制的情况下自我组织和协调;利用机器学习和优化算法来设计高效的协作策略;以及开发新的通信协议和算法来改善智能体之间的信息交换。

总之,多智能体协作是一个充满挑战和机遇的研究领域。通过不断的技术创新和方法改进,有望在未来实现更加智能和高效的多智能体协作系统,为解决复杂的实际问题提供强有力的支持。

论文标题: Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration

机构: Tsinghua University, Northwestern Polytechnical University, Shanghai AI Laboratory, Zhejiang University, Institute of Artificial Intelligence (TeleAI), China Telecom

论文链接:https://arxiv.org/pdf/2405.14314.pdf

项目地址:https://read-llm.github.io/

理论基础:多智能体系统中的优势函数学习

1. 联合优势函数的定义与估计

在多智能体系统中,联合优势函数是基于联合价值函数和状态价值函数的差异来定义的。具体来说,如果我们考虑一个状态 ( s ) 和一个联合动作 ( a ),联合优势函数 ( A^\pi(s, a) ) 可以表示为 ( Q^\pi(s, a) - V^\pi(s) )。这里,( Q^\pi(s, a) ) 是在给定状态和联合动作下的期望回报,而 ( V^\pi(s) ) 是在给定状态下的期望回报。通过这种方式,优势函数能够衡量采取特定联合动作相对于平均情况的额外价值。

2. 局部优势函数与优势分解

局部优势函数考虑的是在多智能体环境中,单个智能体或一组智能体的动作对整体性能的贡献。通过优势分解,我们可以将联合优势函数分解为各个智能体的局部优势函数之和。这种分解有助于在复杂的多智能体环境中,明确每个智能体动作的独立贡献,从而优化整体策略。局部优势函数的估计通常依赖于蒙特卡洛方法,通过对局部价值函数的采样和回归分析来实现。

Reinforced Advantage (ReAd) 框架介绍

1. ReAd-S 与 ReAd-J 的策略细节

ReAd框架提供了两种策略:ReAd-S和ReAd-J。ReAd-S针对每个智能体单独优化其动作,通过评估每个智能体动作的局部优势函数来进行。而ReAd-J则是在所有智能体之间进行联合计划,优化整体的联合动作,通过评估联合优势函数来实现。这两种策略都利用了一个批评网络来回归估计从大规模语言模型(LLM)计划的数据中学到的优势函数,并将LLM规划器作为优化器,通过提示生成最大化优势值的动作。

2. 理论动机与约束策略搜索问题

ReAd框架的理论基础是在多智能体设置中扩展了加权优势回归。通过这种方法,我们可以将LLM作为基本策略,并搜索比它更强的策略。具体来说,我们的目标是找到一个策略 (\pi),它在期望改进 (\eta(\pi) = J(\pi) - J(\mu)) 方面最大化超过基本策略 (\mu)。通过引入一个替代目标 (\hat{\eta}(\pi)) 来近似 (\eta(\pi)),并形成一个约束策略搜索问题,其中约束确保新策略接近基本策略,从而使得 (\hat{\eta}(\pi)) 成为 (\eta(\pi)) 的一个精确近似。这种方法允许系统在保持策略改进的同时,减少与环境的交互,提高了多智能体协作任务中的效率和效果。

6e414c20e66f0168ddbc6ef5920290a4.jpeg

实验设置与环境介绍

1. DV-RoCoBench 和 Overcooked-AI 环境

DV-RoCoBench 是从 RoCoBench 演变而来的一个更具挑战性的多机器人协作环境。它包括三个任务:扫地、制作三明治和分类立方体,每个任务都有不同的难度级别。例如,在扫地任务中,机器人需要协作将指定颜色的立方体扫入垃圾桶。任务的难度通过增加立方体的数量和目标颜色的立方体数量来逐级增加。

Overcooked-AI 是一个基于流行视频游戏 Overcooked 的全合作多代理基准环境。在这个环境中,代理需要尽快交付汤。每份汤需要放置多达三种成分在锅中,等待一定的时间让汤煮熟,然后由一个代理取出汤并交付。我们选择了两个代表性场景:狭窄的房间和强制协调,这些场景从低级的运动协调挑战到高级的策略协调挑战不等。

2. 实验设计与基线方法

在 DV-RoCoBench 和 Overcooked-AI 的实验中,我们使用 GPT-4-Turbo 作为所有实验的基础 LLM 策略。我们将 ReAd-J 与三个强大的闭环基线方法进行比较:ReAct、Reflexion 和 MindAgent,这些方法都是并行生成代理计划的。在 DV-RoCoBench 中,我们还添加了一个名为 RoCo 的基线,该基线在原始 RoCoBench 中表现出色,用于与 ReAd-S 进行比较。这些方法的输出都是以并行方式生成的。

实验结果与分析

1. 在 DV-RoCoBench 的表现

ReAd-S 和 ReAd-J 在所有指标上均优于对应的强基线,并实现了更有效的 LLM 接地。随着 DV-RoCoBench 中任务难度级别的提高,我们的方法在成功率 (SR) 上的表现逐渐显著优于基线方法。在更难的设置中(例如任务的第4或第5级别),我们的方法获得了更高的成功率,而基线方法未能取得进展。此外,ReAd-S 和 ReAd-J 在 DV-RoCoBench 的大多数任务中展示了较低的环境交互步数 (ES) 和可比或更低的查询次数 (NQ)。

2. 在 Overcooked-AI 的表现

由于 Overcooked-AI 内在的重协调挑战,除非 LLM 规划器生成高度协作的计划,否则基于 LLM 的代理无法推进任务完成。通过用优势函数替换物理验证反馈,我们的方法在 Overcooked-AI 的表现显著优于依赖物理验证反馈的方法。在多代理协作的更具挑战性的场景中,我们的方法展示了卓越的规划能力和更好的 LLM 接地结果。

f43a64f147131acbb3753b230ed60443.jpeg

e4d31609e5b99ca93059542081569e7d.jpeg

策略改进与反馈机制

1. 优势反馈的作用与实现

在多智能体合作任务中,优势反馈(ReAd)通过评估行动的优势函数来优化计划,从而提高了计划的有效性和效率。ReAd方法包括两种方案:ReAd-S和ReAd-J。ReAd-S针对每个智能体的单独行动进行优化,而ReAd-J则对所有智能体的联合行动进行评估。这种反馈机制通过预训练的批评网络来估计生成行动的优势分数,并在分数低于阈值时提示智能体重新计划,从而确保所采取的行动能有效推进任务目标。

2. 策略细化与单步与多步版本的比较

策略细化是ReAd方法中的一个关键环节,它通过多轮优化来提高行动的优势分数,从而提升整体策略的效果。在实验中,对比单步版本(无细化)和多步版本(有细化),多步版本在复杂任务中表现出更高的成功率和效率。单步版本虽然在某些情况下能够达到相对较高的成功率,但通常需要更多的环境交互和查询,而多步版本通过在执行前优化行动计划,显著减少了这些需求。

讨论与未来工作方向

1. ReAd 方法的优势与局限

ReAd方法通过优势反馈机制有效地提升了智能体的计划质量和执行效率,尤其是在多智能体协作任务中。然而,ReAd的实现依赖于准确的优势函数估计,这可能受到数据质量和分布的限制。此外,ReAd在处理突发环境变化时表现出了优越的适应性,但其在更广泛的任务类型和更复杂的环境中的表现仍需进一步验证。

2. 多目标与安全规划的应用展望

未来的工作可以探索将ReAd方法扩展到多目标和安全关键的规划任务中。在多目标规划中,优势反馈可以帮助智能体在满足多种目标的同时优化其行动策略。在安全规划中,通过引入安全约束到优势函数中,ReAd可以在确保任务执行的安全性的同时,提高任务的成功率。此外,结合最新的强化学习理论和技术,如安全强化学习,可能会进一步提升ReAd方法在复杂环境中的应用效果和鲁棒性。

总结:ReAd 在多智能体协作中的应用与影响

Reinforced Advantage (ReAd) 是一种新颖的反馈机制,专为多智能体协作任务中的大型语言模型(LLM)设计。通过在多智能体系统中引入优势函数,ReAd 改进了传统的物理验证反馈方法,提高了任务规划的效率和成功率。

1. ReAd 的工作原理

ReAd 通过两种方案进行计划的优化和细化:顺序个体计划优化(ReAd-S)和联合计划优化(ReAd-J)。ReAd-S 针对每个智能体的动作单独评估优势,而 ReAd-J 则评估所有智能体的联合动作的优势。这些优势函数通过批评网络回归LLM规划的数据来估算。利用这些优势函数,LLM规划器被用作优化器,通过提示生成最大化优势值的动作。

2. ReAd 的理论基础

ReAd 的理论基础扩展了单智能体强化学习中的优势加权回归到多智能体设置。通过优势分解,可以将联合优势函数分解为每个智能体的局部优势,从而在保持策略改进的同时简化了优化过程。

3. ReAd 的实验验证

在 DV-RoCoBench 和 Overcooked-AI 环境中的实验表明,ReAd 在成功率、智能体交互步数和LLM查询轮数方面均优于基线方法。特别是在多智能体协作的复杂场景中,ReAd 通过优势函数反馈,有效地指导了LLM生成更合理的协作计划。

4. ReAd 的优势

与传统的物理验证反馈相比,ReAd 减少了智能体与环境的交互次数,降低了计算成本,并提高了响应速度。此外,ReAd 通过优势反馈机制,能够在遇到突发干扰时迅速调整计划,显示出更强的鲁棒性。

5. ReAd 的未来应用

ReAd 的成功应用展示了其在多智能体协作任务中的潜力,未来可以扩展到多目标和安全规划场景,进一步提高智能体系统的智能化和自动化水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/642426.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python高级进阶--slice切片

slice切片⭐⭐ 在 Python 中,切片操作是一种常见且方便的方式,用于从字符串、列表或元组中获取部分元素。这种操作通过指定起始索引、结束索引和步长来实现。下面我们来看一些关于切片的简单介绍以及一些常见用法。 1. 切片简介 取一个str、list、tup…

kafka跨地区跨集群同步工具MirrorMaker2 —— 筑梦之路

MM2简介 KIP-382: MirrorMaker 2.0 - Apache Kafka - Apache Software Foundation 有四种运行MM2的方法: As a dedicated MirrorMaker cluster.(作为专用的MirrorMaker群集) As a Connector in a distributed Connect cluster.&#xff08…

单片机设计注意事项

1.电源线可以30mil走线,信号线可以6mil走线 2.LDO推荐 SGM2019-3.3,RT9013,RT9193,1117-3.3V。 3.单片机VCC要充分滤波后再供电,可以接0.1uf的电容 4.晶振附件不要走其他元件,且放置完单片机后就放置晶振,晶振靠近X1,X2。

Mysql基础(七)DQL之select 语句(二)

一 select 语句续 WHERE子句后面跟着的是一个或多个条件,用于指定需要检索的行COUNT(): 多少条数据 where 11 和 count(1) 与 count(*) count(1)、count(*)和count(指定字段)之间的区别 ① order by 排序 mysql 之数据排序扩展 1、使用 order by 语句来实现排序2、排序可…

如何利用GitHubAction来发布自己的Python软件包

我们开发的python软件包如果想发布到网上,可以让其他人通过pip install下载,一般是把软件包发布到PYPI平台。 PYPI准备 我们要现在pypi注册登录一下 文件组织架构 一般的python软件包的文件组织架构为包名文件夹__init__.py程序,包文件夹的…

VBA即用型代码手册:删除Excel中空白行Delete Blank Rows in Excel

我给VBA下的定义:VBA是个人小型自动化处理的有效工具。可以大大提高自己的劳动效率,而且可以提高数据的准确性。我这里专注VBA,将我多年的经验汇集在VBA系列九套教程中。 作为我的学员要利用我的积木编程思想,积木编程最重要的是积木如何搭建…

Spring Cloud学习笔记(Nacos):配置中心基础和代码样例

这是本人学习的总结,主要学习资料如下 - 马士兵教育 1、Overview2、样例2.1、Dependency2.2、配置文件的定位2.3、bootstrap.yml2.4、配置中心新增配置2.5、验证 1、Overview 配置中心用于管理配置项和配置文件,比如平时写的application.yml就是配置文件…

计算机网络套接字知识(非常详细)从零基础入门到精通

本节重点 认识IP地址, 端口号, 网络字节序等网络编程中的基本概念; 学习socket api的基本用法; 一、预备知识 1.理解源IP地址和目的IP地址 ⭐在IP数据包头部中,有两个IP地址,分别叫做源IP地址和目的IP地址。 思考: 我们光有IP地址就可以完成通信了…

Linux Tcpdump抓包入门

Linux Tcpdump抓包入门 一、Tcpdump简介 tcpdump 是一个在Linux系统上用于网络分析和抓包的强大工具。它能够捕获网络数据包并提供详细的分析信息,有助于网络管理员和开发人员诊断网络问题和监控网络流量。 安装部署 # 在Debian/Ubuntu上安装 sudo apt-get install…

基于Perfetto 解读一帧的生产消费流程 Android >= S Qualcomm

广告 首先帮我朋友打个广告 我们一起在运营一个视频号 感兴趣的可以帮忙点击右边这个小铃铛 铃铛 序 1.这个流程里面的东西如果展开其实是有很多的 内容其实还是比较浅显的 sf处就不贴源码了 关一个Vsync就有的解释 当然笔者在流程上先形成一个思维闭环 2.如有小伙伴需要 笔…

C++完成特色旅游管理信息系统

背景: 继C完成淄博烧烤节管理系统后,我们来到了特色旅游管理信息系统的代码编写,历史链接点下方。 C完成淄博烧烤节管理系统_淄博烧烤总账管理系统的-CSDN博客 问题描述: 为了更好的管理各个服务小组,开发相应的管…

C# 拓展方法(涉及Linq)

拓展方法 定义一个扩展方法使用扩展方法例如再举个例子终极例子 注意事项与Linq 在C#中,扩展方法是一种特殊的静态方法,允许开发者向现有类型“添加”新的方法,而无需修改该类型的源代码或创建新的派生类型。这种机制提供了一种更为灵活的方式…

结构化开发方法(数据流图)

一、系统设计基本原理 二、系统总体结构设计 三、数据流图 数据流图

出口加工园区gis三维可视化系统全面整合了企业线上线下资源与服务

园区作为产业协同和经济推动的关键节点,承载着企业生产、物流和服务等多种功能,数字孪生三维可视化技术的出现,通过数字孪生和3D可视化的方式,对园区情况和运营实现实时监测和管理,提高了运营效率和协同性。 园区数字孪…

STM32 学习——1. STM32最小系统

这是一个最小系统的测试,LED灯会进行闪烁。选用PC13口,因为STM32F103C8T6 硬件开发板中,这个端口是一个LED 1. proteus8.15 原理图 2. cubemx 新建工程 3. keil 代码 while (1){HAL_GPIO_TogglePin(LED_GPIO_Port, LED_Pin);HAL_Delay(100);…

Css 提高 - 获取DOM元素

目录 1、根据选择器来获取DOM元素 2.、根据选择器来获取DOM元素伪数组 3、根据id获取一个元素 4、通过标签类型名获取所有该标签的元素 5、通过类名获取元素 目标:能查找/获取DOM对象 1、根据选择器来获取DOM元素 语法: document.querySelector(css选择…

一套MES系统源码,技术架构springboot + vue-element-plus-admin

一、系统概述 MES全称Manufacturing Execution System,即制造执行系统,它是一套面向生产车间的管理系统。MES系统可用于实现制造业自动化和数字化转型,它可以帮助车间管理人员监控、跟踪、记录和控制从原材料到成品的产品制造流程&#xff0…

掌握Python基本语法的终极指南【基本语法部分】

一、基本语法部分 1.简单数据类型 1.1字符串类型及操作 字符串访问: 1.索引访问 mystr"Hello world" #索引访问 print(mystr[0]) #H print(mystr[-1]) #d print(mystr[-7]) #o print(mystr[6]) #w 2.切片访问 [头下标:尾下标] &#x…

基于Java、SpringBoot和uniapp在线考试系统安卓APP和微信小程序

摘要 基于Java、SpringBoot和uniapp的在线考试系统安卓APP微信小程序是一种结合了现代Web开发技术和移动应用技术的解决方案,旨在为教育机构提供一个方便、高效和灵活的在线考试平台。该系统采用Java语言进行后端开发,使用SpringBoot框架简化企业级应用…

储能服务系统架构:实现能源可持续利用的科技之路

随着可再生能源的快速发展和能源系统的智能化需求增加,储能技术作为能源转型和可持续发展的关键支撑之一,备受各界关注。储能服务系统架构的设计和实现将对能源行业产生深远影响。本文将探讨储能服务系统架构的重要性和关键组成部分,旨在为相…