多机器人系统的大语言模型:综述

25年2月来自 Drexel 大学的论文“Large Language Models for Multi-Robot Systems: A Survey”。

大语言模型 (LLM) 的快速发展为多机器人系统 (MRS) 开辟新的可能性,从而增强通信、任务规划和人机交互。与传统的单机器人和多智体系统不同,MRS 带来独特的挑战,包括协调、可规模化和现实世界的适应性。本综述首次全面探索 LLM 与 MRS 的集成。其系统地对应用进行分类,涵盖高级任务分配、中级运动规划、低级动作生成和人为干预。重点介绍不同领域的关键应用,例如家用机器人、建筑、编队控制、目标跟踪和机器人游戏,展示了 LLM 在 MRS 中的多功能性和变革潜力。此外,研究限制在 MRS 中采用 LLM 的挑战,包括数学推理限制、幻觉、延迟问题以及对强大基准测试系统的需求。最后,概述未来研究的机会,强调微调、推理技术和特定任务模型方面的进步。

大语言模型 (LLM) 的快速发展对各个领域产生了重大影响,包括自然语言处理和机器人技术。LLM 最初是为文本生成和完成任务而设计的,后来逐渐发展为具有问题理解和解决问题的能力 [83, 95]。这种发展对于增强机器人智能尤为重要,因为它使机器人能够处理信息并做出相应的协调和动作决策 [36, 40]。凭借这些能力,机器人可以更有效地解释复杂的指令、与人类互动、与机器人队友合作并适应动态环境 [79]。随着机器人系统向更复杂的应用发展,集成 LLM 已成为一个变革性的一步,弥合高级推理与现实世界机器人任务之间的差距。

另一方面,由多个自主机器人协同工作的多机器人系统 (MRS) [8, 66] 已在环境监测 [18, 58, 74]、仓库自动化 [50, 68, 75] 和大规模勘探 [10, 20] 等应用中展现出巨大潜力。与单机器人系统不同,MRS 利用集体智慧实现高可规模化、弹性和效率 [66]。任务在多个机器人之间分布式执行的特性,使这些系统能够通过依赖更简单、更专业的机器人而不是单个高度通用的机器人来实现成本效益。此外,MRS 提供更高的稳健性,因为集体的冗余和适应性通常可以减轻单个机器人的故障 [52, 96]。这些特性使得 MRS 在规模、复杂性或风险超出单个机器人能力的场景中不可或缺。

尽管 MRS 非常重要,但它也带来了独特的挑战,例如确保机器人通信、在动态和不确定的环境中保持协调以及做出适应实时条件的集体决策 [6, 23]。研究人员正在努力将 LLM 集成到 MRS 中,以应对与部署和协调 MRS 相关的独特挑战 [13, 59]。例如,有效的通信对于 MRS 共享知识、协调任务以及在动态环境中保持各个机器人之间的凝聚力至关重要 [23]。LLM 可以为机器人间通信提供自然语言界面,使机器人能够更直观、更有效地交换高级信息,而无需预定义的通信结构和协议 [59]。此外,当给定特定目标而没有具体指令时,LLM 的问题理解和解决问题的能力可以增强 MRS 的适应性。LLM 可以理解任务,将其划分为子任务,并根据其能力将它们分配给团队中的各个机器人 [11, 53]。 LLM 在不同上下文中的泛化能力还可以使 MRS 适应新场景而无需大量重新编程,从而使其在部署过程中具有高度灵活性 [82, 92]。
LLM 在 MRS 中的应用也符合日益增长的人机协作需求 [35]。由于操作员通常不具备机器人系统方面的专业知识,因此使用 LLM 作为共享接口可以使操作员使用自然语言与机器人进行通信并命令机器人做出决策并完成复杂的现实世界任务 [2]。这些功能提高了 MRS 的效率,并将其适用范围扩大到需要密切人机协作的领域。

如图所示是本文的结构:

请添加图片描述

LLM 在理解和推理复杂信息方面表现出了卓越的能力。然而,它们的性能可能会因所采用的通信架构而有很大差异 [13, 54]。这种多变性在涉及具身智体的场景中尤为明显,其中每个智体都使用自己的 LLM 进行自主决策。这些 LLM 的独立性为在整个 MRS 中保持一致性、协调性和效率带来了独特的挑战。了解这些动态对于优化 MRS 中基于 LLM 的通信和决策框架至关重要。

高级任务规划涉及需要更高程度智能的任务,例如在多个机器人之间进行任务分配和规划,其中需要 LLM 表现出逻辑推理和决策能力。中级运动规划是指导航或路径规划场景。低级动作生成使用 LLM 来生成并直接控制机器人的姿势或运动。另一方面,人工干预涉及使用 LLM 与人类操作员交互并指导任务规划和执行。下表显示基于这四个类别的论文列表。

请添加图片描述

高级任务规划

高级任务规划利用 LLM 的高级推理和决策能力来处理复杂且具有战略意义的任务。这种情况通常需要在机器人团队之间分配任务、制定全面的任务规划或解决需要上下文理解和逻辑的问题。

在多机器人多任务场景中,一组机器人需要同时完成多个目标。在这种环境下,LLM 在设计可操作且高效的任务分配策略方面发挥着关键作用。通过解释高级指令并理解每个任务的上下文,LLM 可以在机器人之间动态分配任务,确保资源的最佳利用和有效协作。这种能力使多机器人团队能够以更高的精度和适应性处理复杂、多方面的操作。

任务分解是指 MRS 必须协作完成一项或多项复杂任务的场景,这些任务需要仔细规划和分工。在这种情况下,可以利用 LLM 将总体任务分解为更小、更易于管理的子任务,这些子任务与团队中每个机器人的能力相匹配。通过设计有效的提示,LLM 可以生成合乎逻辑且可操作的任务分解,确保有效分配工作量,并确保机器人无缝协作以实现总体目标。

中级运动规划

MRS 中的中级运动规划,包括导航和路径规划等任务,重点在于使机器人能够在环境中高效地移动或协调。这些场景比高级应用更直接、更实用,但对于多机器人团队的无缝操作至关重要。LLM 利用其上下文理解和学习模式来生成稳健且自适应的解决方案,为该领域做出了重大贡献。通过解释环境数据并动态适应变化,LLM 使机器人能够协作规划路径、避开障碍物并优化共享空间内的移动。将 LLM 集成到中级运动规划中可提高效率和弹性,使 MRS 在动态和不可预测的环境中更有能力。

低级动作生成

低级动作生成,侧重于在硬件层面控制机器人运动或姿势,将高级目标转化为精确的控制命令。这些任务对于确保动态环境中的平稳高效运行至关重要。虽然 LLM 提供上下文推理和适应性,但与传统控制方法相比,它们在需要高精度和实时响应的低级任务中的表现通常有限。将 LLM 与基于优化的控制器或强化学习相结合的混合方法,有望充分利用 LLM 的灵活性,同时保持可靠机器人动作所需的精度。

人类干预

在 MRS 中,LLM 通常专注于根据人类提供的指令执行任务,强调对指令的解释和自主任务完成。一旦指令下达,人类的参与通常会被最小化。然而,新兴研究探索需要 LLM 和人类之间持续交互的场景,强调在整个任务执行过程中的合作、决策或外部观察。这些研究强调动态人类干预的潜力,以应对意外挑战、改进任务策略或确保关键应用的安全。通过实现迭代的人机协作,这些方法增强 LLM 驱动的 MRS 适应性和可靠性。

LLM 与 MRS 的集成推动了各种应用领域的进步,每个领域都有独特的挑战和机遇。这些应用利用 LLM 在理解、规划和协调任务方面的能力,提供从室内到室外场景的解决方案。LLM 的适应性推动了需要精确导航、任务分配和动态决策的任务的创新,展示了它们在处理结构化和非结构化环境方面的潜力。

根据应用场景对研究进行分类,重点关注两个主要领域。首先,家庭领域重点介绍 MRS 解决室内挑战,例如导航、任务分解和目标操作。这些系统通常强调异构机器人之间的协作以执行复杂的任务,从在多房间环境中识别目标到组织家用电器。其次,建筑、编队、目标跟踪和游戏中的应用说明 LLM 在专业领域的多功能性。这些研究展示了 MRS 在户外或竞争环境中解决复杂问题的能力,例如搜索和救援任务中的无人机编队、机器人足球策略以及危险区域的导航。这些领域共同凸显 LLM 在推进各种现实环境中 MRS 能力方面日益增长的影响力。

家庭领域是研究的重点,具有明确的应用场景,解决了导航、任务分配和任务分解等挑战。例如,Wu [84] 和 Yu [92] 研究复杂室内环境中的导航和多目标定位,例如跨多个房间识别目标,展示了空间感知和适应性的进步。此外,Mandi [59]、Yu [93]、Kannan [38] 和 Xu [87] 探索任务分解和多机器人协作以执行复杂任务,例如准备三明治或整理洗碗机。Chen [13] 强调多层室内环境中异构 MRS 的任务分配,以应对动态环境中的协调挑战。值得注意的是,他们提出一个 EMOS 框架,这是一个具身感知的操作系统,通过一种“机器人简历”方法促进异构机器人之间的有效协作,使机器人能够自主地从 URDF 文件中解释其物理约束,而不是依 LLM 驱动的 MRS 在应对各个领域多样化和复杂挑战方面的潜力。

其他研究包括建筑、编队、目标跟踪和游戏。一些研究侧重于开放世界环境中的应用,强调 LLM 集成机器人系统的多功能性和创新潜力。例如,Wang [82] 和 Sueoka [72] 探索 LLM 在协调挖掘和运输任务的机器人系统中的应用,展示了它们在建筑和复杂地形救援行动中的适用性。在无人机编队应用中,Lykov [57] 强调了搜索和救援任务和环境监测等户外任务所需的协调性和适应性。同样,Wu [85] 通过集成危险区域识别来解决开放世界目标跟踪问题,为危险环境中的自主导航提供强大的解决方案。这些场景进一步展示 LLM 在动态和结构化环境中的潜力。Brienza [9] 引入 LLCoach,这是一个机器人足球应用框架,其中 LLM 增强战略决策和团队协调。总的来说,这些研究强调了 LLM 驱动的 MRS 解决各个领域多样化和复杂挑战的潜力。

尽管在将 LLM 集成到 MRS 方面取得了进展,但仍然存在限制其广泛采用和有效性的重大挑战。这些挑战涉及推理能力、实时性能和对动态环境的适应性等领域。解决这些问题对于充分发挥 LLM 在 MRS 中的潜力至关重要。

数学能力不足。LLM 难以完成需要精确计算或逻辑推理的任务,例如多机器人路径规划或轨迹优化。这种限制降低了它们在定量准确性至关重要的场景中的有效性。Mirzadeh [60] 对几种最先进的 LLM 的数学理解和解决问题的能力进行了详细的比较和研究。具体而言,LLM 在回答同一问题的不同变化时表现出明显的差异,当仅改变数值时,性能会显著下降。此外,它们的推理能力很脆弱;它们通常模仿在训练数据中观察的模式,而不是进行真正的逻辑推理。这种脆弱性因问题中子句数量的增加而加剧,即使添加的子句与推理链无关,也会导致最先进的模型的性能下降高达 65%。这些弱点对 MRS 提出了严峻的挑战,因为精确的计算和强大的推理对于无碰撞轨迹、空间规划和高效的任务执行至关重要。解决这些限制对于在数学密集型应用中可靠地部署 LLM 至关重要。

幻觉。LLM 容易生成看似合理但缺乏事实准确性的内容,这种现象称为幻觉。这个问题在 MRS 中尤其令人担忧,因为精确可靠的输出对于有效的协作和操作至关重要。根据 Huang [32] 对 LLM 中幻觉进行的全面调查,幻觉可分为两大类:现实(actuality)幻觉和忠实(faithfulness)幻觉。现实幻觉涉及生成的内容与可验证的现实世界事实之间的差异,从而导致不正确的输出。当生成的内容与用户的指令或提供的上下文不同时,就会出现忠实幻觉,导致输出不能准确反映预期的信息。在 MRS 的背景下,这种幻觉可能导致机器人之间的误解、错误决策和协调错误,从而可能危及任务的成功和安全。应对这些挑战需要开发检测和缓解幻觉的方法,确保 LLM 产生的输出既符合事实又符合情境。

现场部署的困难。当前使用 LLM 的选项包括基于服务器的模型(通常是闭源的)和本地部署的开源模型。基于服务器的模型示例包括 OpenAI GPT [1]、Anthropic Claude [7] 和 Google Gemini(以前称为 Bard)[25],在本地运行的开源 LLM 包括 Meta Llama [17]、Falcon [3]、Alibaba Qwen [89] 和 DeepSeek V3 [51] 和 R1 [27]。基于服务器的模型,需要可靠的互联网连接来发送查询和接收响应,因此无法在远程位置部署带有 LLM 的 MRS,这对于现场机器人系统来说是很常见的。此外,基于服务器的 LLM 严重依赖服务器的性能,服务器中断可能会完全中断基于 LLM 构建的系统。这个问题对于多机器人团队尤其重要,因为 LLM 指导机器人间的协作和决策。另一方面,本地模型可以避免使用服务器,但需要足够强大的板载硬件来本地运行 LLM。

相对较高的延迟。实时信息交换和决策对于 MRS 在现实场景中的有效运行至关重要。然而,使用 LLM 的一个显著挑战在于它们相对较高且多变的响应时间,这取决于模型复杂性、硬件功能和服务器可用性。例如,Chen [12] 报告称,在使用 OpenAI 的 GPT-4 进行多智体路径查找场景中,每步响应时间在 15 到 30 秒之间,这严重影响了实时可行性。虽然在更强大的硬件上进行本地处理可以减少延迟,但这种方法成本高昂,并且随着机器人数量的增加,可扩展性会降低。应对这一挑战需要探索优化的 LLM 架构、高效的推理技术和可扩展的解决方案,以平衡计算需求和实时操作要求。

缺乏基准。性能评估对于使用 LLM 的 MRS 新研究至关重要。然而,现有的基准测试系统主要针对室内环境和家庭应用而设计,这限制了它们在 MRS 运行的多样化和不断发展场景中的适用性。由于当前的研究通常代表将 LLM 应用于 MRS 的初步努力,因此性能比较通常侧重于通过将 LLM 与传统方法进行对比来证明可行性。虽然这种方法对于建立基线很有价值,但未来的进步可能会带来显着的性能和功能改进。针对多机器人应用量身定制的统一基准测试框架将为研究人员提供一致的指标来评估和量化进展。这样的系统不仅有助于更清楚地了解新研究的影响,而且还能促进研究之间的标准化和可比性,从而加速这一新兴领域的创新。

微调和 RAG。在特定领域的数据集上对 LLM 进行微调并结合 RAG 技术是提高其在多机器人应用中性能的有希望的途径。微调允许研究人员将预先训练的 LLM 适应特定任务,增强其上下文理解并减少幻觉等问题。RAG 通过集成外部知识检索机制对此进行了补充,使 LLM 能够在运行时动态访问相关信息。这些技术结合在一起,可以显著提高 LLM 在多样化和复杂的多机器人场景中的准确性、可靠性和适应性。
高质量的任务特定数据集。创建高质量和任务特定的数据集对于提高 MRS 中的 LLM 功能至关重要。利用更强大的模型(例如最新的 LLM)来生成合成数据集可以加速针对特定任务或环境的训练材料的开发。这些数据集应包括多样化的场景、以推理为重点的标签和特定于上下文的知识,以提高 LLM 的解决问题和决策能力。特定于任务的数据集对于准备 MRS 在非结构化或开放世界环境中运行尤为重要。

高级推理技术。提高 LLM 的推理能力对于解决其在逻辑和数学任务中的当前局限性至关重要。诸如思维链 (CoT) 提示、使用显式推理标签进行微调、集成符号推理和使用 RL 进行训练等技术可以增强 LLM 处理复杂的多步骤问题的能力。通过改进推理方法,LLM 可以更好地支持需要精确和逻辑推理的任务,例如多机器人路径规划和协调。

特定于任务的轻量级模型。虽然大规模 LLM 提供了卓越的性能,但它们通常不适用于资源受限的环境。开发针对多机器人应用量身定制的任务特定和轻量级模型可以缓解此问题。 SmolVLM、Moondream 2B、PaliGemma 3B 和 Qwen2-VL 2B 等模型展示了小型架构如何减少计算需求和延迟,同时保持特定任务的足够性能。模型蒸馏是另一种使小模型更强大的方法,它从功能更强大的 LLM(如 DeepSeek-R1-Distill-Qwen-1.5B)中蒸馏知识,其中 DeepSeek R1 中的知识被蒸馏成一个小型 Qwen2.5-Math-1.5B 模型。平衡效率和有效性是实现现场机器人中 LLM 可扩展部署的关键。

扩展到非结构化环境。大多数当前应用程序和基准都侧重于室内或结构化环境,在室外和非结构化场景中留下了很大的空白。研究应优先考虑扩展 MRS 功能,包括在开放世界环境中的操作,例如农田、灾区和偏远勘探地点。解决这些环境的独特挑战(包括多变性、噪声和不可预测的动态)将扩大 LLM 支持的 MRS 的适用性。

最新更强大的 LLM。最先进的 LLM 的持续发展为 MRS 开辟了新的可能性。PaliGemma、Qwen、GPT o3 (mini) 和 DeepSeek V3 和 R1 等模型提供增强的推理、理解和多任务处理能力。将这些高级模型纳入 MRS 研究可以通过提供改进的基线性能和实现创新应用来加速进展。探索它们与机器人系统的集成可以进一步突破多机器人团队所能实现的界限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/968759.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

搭建Spark集群(CentOS Stream 9)

零、资源准备 虚拟机相关: VMware workstation 16:虚拟机/vmware_16.zip(建议选择vmware_17版本)CentOS Stream 9:虚拟机/CentOS-Stream-9-latest-x86_64-boot.iso(安装包小,安装时需要联网下载)/ 虚拟机/CentOS-Stream-9-latest-x86_64-dvd1.iso(安装包大)JDK jdk1.8:…

FAST_LIVO2初次安装编译

1、安装依赖库 (1)Sophus git clone https://github.com/strasdat/Sophus.git cd Sophus git checkout a621ff mkdir build && cd build && cmake .. make sudo make install 命令行运行:make时,出现以下错误&…

零基础学CocosCreator·第九季-网络游戏同步策略与ESC架构

课程里的版本好像是1.9,目前使用版本为3.8.3 开始~ 目录 状态同步帧同步帧同步客户端帧同步服务端ECS框架概念ECS的解释ECS的特点EntityComponentSystemWorld ECS实现逻辑帧&渲染帧 ECS框架使用帧同步&ECS 状态同步 一般游戏的同步策略有两种:…

网络工程师 (32)TRUNK

一、定义 TRUNK,也称为端口汇聚、链路汇聚或多链路汇聚,是一种网络技术,其本质是将多个以太网端口绑定在一起作为一个逻辑链路来使用。通过TRUNK技术,用户在使用这个逻辑链路时,就好像是在使用一条独立的物理链路一样&…

Untiy3d 铰链、弹簧,特殊的物理关节

(一)铰链组件 1.创建一个立方体和角色胶囊 2.给角色胶囊挂在控制脚本和刚体 using System.Collections; using System.Collections.Generic; using UnityEngine;public class plyer : MonoBehaviour {// Start is called once before the first execut…

HCIA项目实践--静态路由的综合实验

八 静态路由综合实验 (1)划分网段 # 192.168.1.0 24#分析:每个路由器存在两个环回接口,可以把两个环回接口分配一个环回地址,所以是四个环回,一个骨干,这样分配,不会出现路由黑洞#19…

(4/100)每日小游戏平台系列

新增一个点击反应速度测试! 点击反应速度测试是一款简单有趣的网页小游戏,旨在测试玩家的反应能力和专注度。通过随机高亮的颜色块,玩家需要快速点击正确的颜色,并在限定时间内挑战自己的反应速度。 📜 游戏规则 游戏开…

Go文件读写

参考文档:https://www.liwenzhou.com/posts/Go/file/ 读取文件 package main import ( "fmt" "io" "os") func main() { file, err : os.Open("./data.txt") if err ! nil { fmt.Println("open file err:&…

【清晰教程】本地部署DeepSeek-r1模型

【清晰教程】通过Docker为本地DeepSeek-r1部署WebUI界面-CSDN博客 目录 Ollama 安装Ollama DeepSeek-r1模型 安装DeepSeek-r1模型 Ollama Ollama 是一个开源工具,专注于简化大型语言模型(LLMs)的本地部署和管理。它允许用户在本地计算机…

Python实现GO鹅优化算法优化支持向量机SVM回归模型项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后关注获取。 1.项目背景 在当今数据驱动的世界中,机器学习技术被广泛应用于各种领域,如金融、医疗、…

通过环境变量实现多个 python 版本的自由切换以及 Conda 虚拟环境的使用教程

目录 Python 安装包的下载和安装通过环境变量的方式来切换不同的 Python 版本Pycharm 创建项目使用虚拟环境 使用虚拟环境管理工具 condaConda 教程1. **环境管理**创建虚拟环境激活虚拟环境退出虚拟环境列出所有虚拟环境删除虚拟环境导出虚拟环境配置从文件创建虚拟环境 2. **…

OSPF高级特性(3):安全特效

引言 OSPF的基础我们已经结束学习了,接下来我们继续学习OSPF的高级特性。为了方便大家阅读,我会将高级特性的几篇链接放在末尾,所有链接都是站内的,大家点击即可阅读: OSPF基础(1):工…

百度 API 教程 001:显示地图并添加控件

目录 01、基本使用 前期准备 显示地图 开启鼠标滚轮缩放地图 02、添加地图控件 添加标准地图控件 添加多个控件 网址:地图 JS API | 百度地图API SDK 01、基本使用 前期准备 注册百度账号 申请成为开发者 获取密钥:控制台 | 百度地图开放平台…

window patch按块分割矩阵

文章目录 1. excel 示意2. pytorch代码3. window mhsa 1. excel 示意 将一个三维矩阵按照window的大小进行拆分成多块2x2窗口矩阵,具体如下图所示 2. pytorch代码 pytorch源码 import torch import torch.nn as nn import torch.nn.functional as Ftorch.set_p…

excel里的函数技巧(持续更新中)

行转列 在 Excel 中,行转列(将一行数据转换为一列,或者将一列数据转换为一行)是一项常见的操作。你可以使用 转置 功能轻松实现这一操作。 TRANSPOSE(数组)

#渗透测试#批量漏洞挖掘#29网课交单平台 SQL注入

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停止本文章读。 目录 1. 漏洞原理 2. 漏洞定位 3. 攻击验证示…

我用AI做数据分析之四种堆叠聚合模型的比较

我用AI做数据分析之四种堆叠聚合模型的比较 这里AI数据分析不仅仅是指AI生成代码的能力,我想是测试AI数据分析方面的四个能力,理解人类指令的能力、撰写代码的能力、执行代码的能力和解释结果的能力。如果这四个能力都达到了相当的水准,才可…

机器学习 - 机器学习模型的评价指标

为了衡量一个机器学习模型的好坏,需要给定一个测试集,用模型对测试集 中的每一个样本进行预测,并根据预测结果计算评价分数。本文,我们来了解一下机器学习模型常用的评价指标。 一、分类问题常用到的混淆矩阵 在分类任务中&…

ChatGPT macOS 桌面应用让你的编程体验更上一层楼

高效开发必备:ChatGPT macOS 桌面应用亮点盘点 ©作者|Ninja Geek 来源|神州问学 通过 macOS 版 ChatGPT 应用,已经能够更好的和你的生产力工具无缝配合工作。 大概在三四周之前,Anthropic 在 Claude 上推出了一项名为 Computer Use 的功…

DeepSeek之Api的使用(将DeepSeek的api集成到程序中)

一、DeepSeek API 的收费模式 前言:使用DeepSeek的api是收费的 免费版: 可能提供有限的免费额度(如每月一定次数的 API 调用),适合个人开发者或小规模项目。 付费版: 超出免费额度后,可能需要按…