MindAgent:基于大型语言模型的多智能体协作基础设施

2023-09-18 ,加州大学洛杉矶分校(UCLA)、微软研究院、斯坦福大学等机构共同创建的新型基础设施,目的在评估大型语言模型在游戏互动中的规划和协调能力。MindAgent通过CuisineWorld这一新的游戏场景和相关基准,调度多智能体协作效率,并监督多个智能体同时玩游戏。

一、研究背景

大型语言模型(LLMs)在处理复杂任务方面展现出巨大潜力,从数学推理到专业领域的问答,LLMs的应用范围不断扩大。然而,对于LLMs在多智能体系统中的规划能力,尤其是与人类玩家协作完成任务的能力,研究仍相对不足。

目前遇到困难和挑战:

1、计算成本高:多智能体规划需要同时控制多个智能体,避免冲突并协调完成共享目标,这对计算资源要求极高。

2、上下文长度限制:LLMs在处理多智能体任务时,受限于上下文长度,难以处理复杂的任务序列。

3、非最优计划:尽管LLMs可以通过上下文学习来改进计划,但生成的计划可能并非最优,需要进一步优化。

数据集地址: CuisineWorld

二、让我们一起来看一下CuisineWorld

CuisineWorld是一个虚拟厨房环境中的多智能体调度和协调游戏,用于测试LLMs的多智能体规划能力。

CuisineWorld构建:

1、从社区贡献的维基百科中爬取规则和食谱,简化并修改后形成CuisineWorld的基本版本。

2、包含10种地点(服务台、存储和8种不同的烹饪工具)、27种食材和33种独特的菜品。

CuisineWorld特点:

  • 多任务:包含多种不同的任务,从简单的生鱼片制作到复杂的意大利面烹饪,任务难度逐渐增加。

  • 多智能体:支持多达4个智能体同时协作。需要协调完成尽可能多的菜品订单。

  • 动态任务生成:任务会根据游戏进度动态生成,增加了游戏的挑战性和多样性。

CuisineWorld通过文本界面与LLMs交互,提供游戏状态描述和可能的行动命令。LLMs根据这些信息做出决策,调度智能体完成任务。

基准测试:

  • 引入了新的自动评估指标——协作得分(CoS),用于计算协作效率。

  • 在不同的任务间隔条件下,评估智能体完成任务的能力,CoS得分越高,表示协作效率越高。

MINDAGENT 能够在多智能体系统和人机协作的基础设施中,实现跨越不同领域的复杂任务规划。

CUISINEWORLD 与其他相关基准之间的比较。

CUISINEWORLD 中的行动空间

关于所涉及工具和食材数量、烹饪步骤以及食谱中最大混合量的菜肴分布情况

MINDAGENT 架构的概述:

1、规划技能与工具使用:游戏环境需要多样化的规划技能和工具运用来完成任务。它会发出相关的游戏信息。此模块还会将相关游戏数据转换为结构化文本格式,以便大语言模型(LLMs)进行处理。

2、大语言模型(LLM):我们基础设施的核心组件,负责做出决策,它是多智能体系统的调度器。

3、记忆历史:一种存储实用工具,用于存储相关信息。

4、行动模块:从文本输入中提取行动,并将其转换为特定领域语言。验证特定领域语言(DSLs),确保其在执行时不会引发错误。

展示CuisineWorld中的一个多智能体协作示例,三个智能体正在一起准备混合果汁。

三、让我们一起来看一下CuisineWorld应用场景

比如:有一所职业学校,开设了一门烹饪技能与团队协作的培训课程,旨在帮助学生掌握烹饪技巧的同时,提升他们在团队中的协作能力。学校引入了CuisineWorld这一虚拟厨房游戏作为教学工具。

课程设置

课程时长:共12周,每周2次课,每次课2小时。

学生分组:将学生分成4人一组,每组配备一台电脑,用于运行CuisineWorld游戏。

教学目标:学生能够在团队中高效协作,完成各种烹饪任务,同时掌握基本的烹饪技巧和食谱知识。

课程内容

1、前3周:基础烹饪知识学习

教师通过AR课程引导,向学生介绍厨房的基本设备、工具和食材。

学生在PC端进行实训教学,学习简单的烹饪技巧,如切菜、煮沸等。

在CuisineWorld游戏中,学生独自完成简单的烹饪任务,如制作生鱼片,熟悉游戏界面和操作方式。

2、中间6周:团队协作与任务规划

每组学生开始在CuisineWorld中协作完成更复杂的烹饪任务,如制作意大利面。

教师引导学生讨论如何分配任务,例如谁负责切菜,谁负责烹饪,谁负责摆盘。

学生需要根据游戏中的任务订单,合理安排烹饪步骤和时间,确保在规定时间内完成菜品制作。

教师在旁观察,记录学生在团队协作中的表现,如沟通能力、任务分配合理性等。

3、最后3周:综合实践与评估

学生在CuisineWorld中挑战高级烹饪任务,如制作多道菜的套餐。

教师组织学生进行小组间的烹饪比赛,鼓励学生在比赛中发挥团队协作精神,提高烹饪效率和菜品质量。

通过CuisineWorld的自动评估系统,计算每个小组的协作得分(CoS),并结合教师的观察记录,对学生的团队协作能力和烹饪技能进行综合评估。

CuisineWorld作为一个教育工具不仅提供了一个虚拟的实践平台,还能够通过自动评估系统为教师提供教学反馈,帮助教师更好地了解学生的学习情况,从而优化教学方法。

更多免费的数据集,请打开:遇见数据集

遇见数据集-让每个数据集都被发现,让每一次遇见都有价值。遇见数据集,领先的千万级数据集搜索引擎,实时追踪全球数据集,助力把握数据要素市场。icon-default.png?t=O83Ahttps://www.selectdataset.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/956828.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【k8s面试题2025】2、练气初期

在练气初期,灵气还比较稀薄,只能勉强在体内运转几个周天。 文章目录 简述k8s静态pod为 Kubernetes 集群移除新节点:为 K8s 集群添加新节点Kubernetes 中 Pod 的调度流程 简述k8s静态pod 定义 静态Pod是一种特殊类型的Pod,它是由ku…

K8S-Pod资源清单的编写,资源的增删改查,镜像的下载策略

1. Pod资源清单的编写 1.1 Pod运行单个容器的资源清单 ##创建工作目录 mkdir -p /root/manifests/pods && cd /root/manifests/pods vim 01-nginx.yaml ##指定api版本 apiVersion: v1 ##指定资源类型 kind: Pod ##指定元数据 metadata:##指定名称name: myweb ##用户…

编辑器Vim基本模式和指令 --【Linux基础开发工具】

文章目录 一、编辑器Vim 键盘布局二、Linux编辑器-vim使用三、vim的基本概念正常/普通/命令模式(Normal mode)插入模式(Insert mode)末行模式(last line mode) 四、vim的基本操作五、vim正常模式命令集插入模式从插入模式切换为命令模式移动光标删除文字复制替换撤销上一次操作…

深度学习 DAY1:RNN 神经网络及其变体网络(LSTM、GRU)

实验介绍 RNN 网络是一种基础的多层反馈神经网络,该神经网络的节点定向连接成环,其内部状态可以展示动态时序行为。相比于前馈神经网络,该网络内部具有很强的记忆性,它可以利用它内部的记忆来处理任意时序的输入序列,…

svn tag

一般发布版本前,需要在svn上打个tag。步骤如下: 1、空白处右击,选择TortoiseSVN->Branch/tag; 2、填写To path,即tag的路基以及tag命名(一般用版本号来命名);填写tag信息;勾选cr…

Astropay之坑

大家可能知道 Astropay 原来在日本也有业务,后来突然有一天业务关掉了,那里面的用户的钱当然也就取不出来了嘛。 我合计那就那么放着呗,等以后你们重返日本的时候我再去取嘛。 嗨,最近收到几个邮件,可把我气笑了。 简…

(7)(7.2) 围栏

文章目录 前言 1 通用设置 2 围栏类型 3 破坏栅栏行动 4 使用 RC 通道辅助开关启用栅栏 5 自动高度规避 6 在任务规划器中启用围栏 7 用于遥控飞行训练 8 MAVLink 支持 前言 ArduPilot 支持基于本机的圆柱形(“TinCan”)和多边形和/或圆柱形、…

ARP 表、MAC 表、路由表、跨网段 ARP

文章目录 一、ARP 表1、PC2、路由器 - AR22203、交换机 - S57004、什么样的设备会有 ARP 表? 二、MAC 表什么样的设备会有 MAC 表? 三、路由表什么样的设备会有路由表? 四、抓取跨网段 ARP 包 所谓 “透明” 就是指不用做任何配置 一、ARP 表…

信号与系统学习(二)

1.3信号的分类:能量与功率信号,因果与反因果 1.能量信号和功率信号 将信号f(t)施加与1Ω电阻上,它所消耗的瞬时功率为|f(t)|,在区间(-∞,∞)的能量和平均功率定义为 能量有限信号:…

k8s的CICD实施项目

环境需求: 目前领导需要做一个需求,临时把我从运维岗位,把我调度到到专家组让我主导cicd的项目实施 目前环境资源 k8s环境,28台服务器,上面是k8s集群,要实施一个测试环境的cicd以及一个生产环境的cicd gitl…

python轻量级框架-flask

简述 Flask 是 Python 生态圈中一个基于 Python 的Web 框架。其轻量、模块化和易于扩展的特点导致其被广泛使用,适合快速开发 Web 应用以及构建小型到中型项目。它提供了开发 Web 应用最基础的工具和组件。之所以称为微框架,是因为它与一些大型 Web 框架…

uniapp——App 监听下载文件状态,打开文件(三)

5 实现下载文件并打开 这里演示,导出Excel 表格 文章目录 5 实现下载文件并打开DEMO监听下载进度效果图为什么 totalSize 一直为0? 相关Api: downloader DEMO 提示: 请求方式支持:GET、POST;POST 方式需要…

Java设计模式—观察者模式

观察者模式 目录 观察者模式1、什么是观察者模式?2、观察者模式优缺点及注意事项?3、观察者模式实现?4、手写线程安全的观察者模式? 1、什么是观察者模式? - 实例:现实生活中很多事物都是依赖存在的&#x…

大象机器人发布首款穿戴式数据采集器myController S570,助力具身智能数据收集!

myController S570 具有较高的数据采集速度和远程控制能力,大大简化了人形机器人的编程。 myController S570 是一款可移动的轻量级外骨骼,具有 14 个关节、2 个操纵杆和 2 个按钮,它提供高数据采集速度,出色的兼容性&#xff0c…

模型部署工具01:Docker || 用Docker打包模型 Build Once Run Anywhere

Docker 是一个开源的容器化平台,可以让开发者和运维人员轻松构建、发布和运行应用程序。Docker 的核心概念是通过容器技术隔离应用及其依赖项,使得软件在不同的环境中运行时具有一致性。无论是开发环境、测试环境,还是生产环境,Do…

二、点灯基础实验

嵌入式基础实验第一个就是点灯,地位相当于编程界的hello world。 如下为LED原理图,要让相应LED发光,需要给I/O口设置输出引脚,低电平,二极管才会导通 2.1 打开初始工程,编写代码 以下会实现BLINKY常亮&…

推荐一个开源的轻量级任务调度器!TaskScheduler!

大家好,我是麦鸽。 这次推荐一款轻量级的嵌入式任务调度器,目前已经有1.4K的star,这个项目比较轻量化,只有5个源文件,可以作为学习的一个开源项目。 核心文件 项目概述: 这是一个轻量级的协作式多任务处理&…

【Vim Masterclass 笔记21】S09L39:Vim 设置与 vimrc 文件的用法示例(二)

文章目录 S09L39 Vim Settings and the Vimrc File - Part 21 Vim 的配色方案与 color 命令2 map 命令3 示例:用 map 命令快速生成 HTML 代码片段4 Vim 中的 Leader 键5 用 mkvimrc 命令自动生成配置文件 写在前面 本篇为 Vim 自定义配置的第二部分。当中的每个知识…

StarRocks 怎么让特定的SQL路由到FE master节点的

背景 本文基于 StarRocks 3.1.7 大家都知道对于Starrocks来说 FE 是分 master和follower的,而只有master节点才能对元数据进行写操作。但是为什么呢?哪里有体现呢? 这其中的原因在网上是搜不到的,所以大家只知道只有master节点才…

抽奖系统(4——活动模块)

1. 活动创建 需求回顾 创建的活动信息包含: 活动名称活动描述关联的一批奖品,关联时需要选择奖品等级(一等奖、二等奖、三等奖),及奖品库存圈选一批人员参与抽奖 tip:什么时候设置奖品数量和奖品等级&am…