多机器人系统的大语言模型：综述

25年2月来自 Drexel 大学的论文“Large Language Models for Multi-Robot Systems: A Survey”。

大语言模型 (LLM) 的快速发展为多机器人系统 (MRS) 开辟新的可能性，从而增强通信、任务规划和人机交互。与传统的单机器人和多智体系统不同，MRS 带来独特的挑战，包括协调、可规模化和现实世界的适应性。本综述首次全面探索 LLM 与 MRS 的集成。其系统地对应用进行分类，涵盖高级任务分配、中级运动规划、低级动作生成和人为干预。重点介绍不同领域的关键应用，例如家用机器人、建筑、编队控制、目标跟踪和机器人游戏，展示了 LLM 在 MRS 中的多功能性和变革潜力。此外，研究限制在 MRS 中采用 LLM 的挑战，包括数学推理限制、幻觉、延迟问题以及对强大基准测试系统的需求。最后，概述未来研究的机会，强调微调、推理技术和特定任务模型方面的进步。

大语言模型 (LLM) 的快速发展对各个领域产生了重大影响，包括自然语言处理和机器人技术。LLM 最初是为文本生成和完成任务而设计的，后来逐渐发展为具有问题理解和解决问题的能力 [83, 95]。这种发展对于增强机器人智能尤为重要，因为它使机器人能够处理信息并做出相应的协调和动作决策 [36, 40]。凭借这些能力，机器人可以更有效地解释复杂的指令、与人类互动、与机器人队友合作并适应动态环境 [79]。随着机器人系统向更复杂的应用发展，集成 LLM 已成为一个变革性的一步，弥合高级推理与现实世界机器人任务之间的差距。

另一方面，由多个自主机器人协同工作的多机器人系统 (MRS) [8, 66] 已在环境监测 [18, 58, 74]、仓库自动化 [50, 68, 75] 和大规模勘探 [10, 20] 等应用中展现出巨大潜力。与单机器人系统不同，MRS 利用集体智慧实现高可规模化、弹性和效率 [66]。任务在多个机器人之间分布式执行的特性，使这些系统能够通过依赖更简单、更专业的机器人而不是单个高度通用的机器人来实现成本效益。此外，MRS 提供更高的稳健性，因为集体的冗余和适应性通常可以减轻单个机器人的故障 [52, 96]。这些特性使得 MRS 在规模、复杂性或风险超出单个机器人能力的场景中不可或缺。

尽管 MRS 非常重要，但它也带来了独特的挑战，例如确保机器人通信、在动态和不确定的环境中保持协调以及做出适应实时条件的集体决策 [6, 23]。研究人员正在努力将 LLM 集成到 MRS 中，以应对与部署和协调 MRS 相关的独特挑战 [13, 59]。例如，有效的通信对于 MRS 共享知识、协调任务以及在动态环境中保持各个机器人之间的凝聚力至关重要 [23]。LLM 可以为机器人间通信提供自然语言界面，使机器人能够更直观、更有效地交换高级信息，而无需预定义的通信结构和协议 [59]。此外，当给定特定目标而没有具体指令时，LLM 的问题理解和解决问题的能力可以增强 MRS 的适应性。LLM 可以理解任务，将其划分为子任务，并根据其能力将它们分配给团队中的各个机器人 [11, 53]。 LLM 在不同上下文中的泛化能力还可以使 MRS 适应新场景而无需大量重新编程，从而使其在部署过程中具有高度灵活性 [82, 92]。
LLM 在 MRS 中的应用也符合日益增长的人机协作需求 [35]。由于操作员通常不具备机器人系统方面的专业知识，因此使用 LLM 作为共享接口可以使操作员使用自然语言与机器人进行通信并命令机器人做出决策并完成复杂的现实世界任务 [2]。这些功能提高了 MRS 的效率，并将其适用范围扩大到需要密切人机协作的领域。

如图所示是本文的结构：

请添加图片描述

LLM 在理解和推理复杂信息方面表现出了卓越的能力。然而，它们的性能可能会因所采用的通信架构而有很大差异 [13, 54]。这种多变性在涉及具身智体的场景中尤为明显，其中每个智体都使用自己的 LLM 进行自主决策。这些 LLM 的独立性为在整个 MRS 中保持一致性、协调性和效率带来了独特的挑战。了解这些动态对于优化 MRS 中基于 LLM 的通信和决策框架至关重要。

高级任务规划涉及需要更高程度智能的任务，例如在多个机器人之间进行任务分配和规划，其中需要 LLM 表现出逻辑推理和决策能力。中级运动规划是指导航或路径规划场景。低级动作生成使用 LLM 来生成并直接控制机器人的姿势或运动。另一方面，人工干预涉及使用 LLM 与人类操作员交互并指导任务规划和执行。下表显示基于这四个类别的论文列表。

请添加图片描述

高级任务规划

高级任务规划利用 LLM 的高级推理和决策能力来处理复杂且具有战略意义的任务。这种情况通常需要在机器人团队之间分配任务、制定全面的任务规划或解决需要上下文理解和逻辑的问题。

在多机器人多任务场景中，一组机器人需要同时完成多个目标。在这种环境下，LLM 在设计可操作且高效的任务分配策略方面发挥着关键作用。通过解释高级指令并理解每个任务的上下文，LLM 可以在机器人之间动态分配任务，确保资源的最佳利用和有效协作。这种能力使多机器人团队能够以更高的精度和适应性处理复杂、多方面的操作。

任务分解是指 MRS 必须协作完成一项或多项复杂任务的场景，这些任务需要仔细规划和分工。在这种情况下，可以利用 LLM 将总体任务分解为更小、更易于管理的子任务，这些子任务与团队中每个机器人的能力相匹配。通过设计有效的提示，LLM 可以生成合乎逻辑且可操作的任务分解，确保有效分配工作量，并确保机器人无缝协作以实现总体目标。

中级运动规划

MRS 中的中级运动规划，包括导航和路径规划等任务，重点在于使机器人能够在环境中高效地移动或协调。这些场景比高级应用更直接、更实用，但对于多机器人团队的无缝操作至关重要。LLM 利用其上下文理解和学习模式来生成稳健且自适应的解决方案，为该领域做出了重大贡献。通过解释环境数据并动态适应变化，LLM 使机器人能够协作规划路径、避开障碍物并优化共享空间内的移动。将 LLM 集成到中级运动规划中可提高效率和弹性，使 MRS 在动态和不可预测的环境中更有能力。

低级动作生成

低级动作生成，侧重于在硬件层面控制机器人运动或姿势，将高级目标转化为精确的控制命令。这些任务对于确保动态环境中的平稳高效运行至关重要。虽然 LLM 提供上下文推理和适应性，但与传统控制方法相比，它们在需要高精度和实时响应的低级任务中的表现通常有限。将 LLM 与基于优化的控制器或强化学习相结合的混合方法，有望充分利用 LLM 的灵活性，同时保持可靠机器人动作所需的精度。

人类干预

在 MRS 中，LLM 通常专注于根据人类提供的指令执行任务，强调对指令的解释和自主任务完成。一旦指令下达，人类的参与通常会被最小化。然而，新兴研究探索需要 LLM 和人类之间持续交互的场景，强调在整个任务执行过程中的合作、决策或外部观察。这些研究强调动态人类干预的潜力，以应对意外挑战、改进任务策略或确保关键应用的安全。通过实现迭代的人机协作，这些方法增强 LLM 驱动的 MRS 适应性和可靠性。

LLM 与 MRS 的集成推动了各种应用领域的进步，每个领域都有独特的挑战和机遇。这些应用利用 LLM 在理解、规划和协调任务方面的能力，提供从室内到室外场景的解决方案。LLM 的适应性推动了需要精确导航、任务分配和动态决策的任务的创新，展示了它们在处理结构化和非结构化环境方面的潜力。

根据应用场景对研究进行分类，重点关注两个主要领域。首先，家庭领域重点介绍 MRS 解决室内挑战，例如导航、任务分解和目标操作。这些系统通常强调异构机器人之间的协作以执行复杂的任务，从在多房间环境中识别目标到组织家用电器。其次，建筑、编队、目标跟踪和游戏中的应用说明 LLM 在专业领域的多功能性。这些研究展示了 MRS 在户外或竞争环境中解决复杂问题的能力，例如搜索和救援任务中的无人机编队、机器人足球策略以及危险区域的导航。这些领域共同凸显 LLM 在推进各种现实环境中 MRS 能力方面日益增长的影响力。

家庭领域是研究的重点，具有明确的应用场景，解决了导航、任务分配和任务分解等挑战。例如，Wu [84] 和 Yu [92] 研究复杂室内环境中的导航和多目标定位，例如跨多个房间识别目标，展示了空间感知和适应性的进步。此外，Mandi [59]、Yu [93]、Kannan [38] 和 Xu [87] 探索任务分解和多机器人协作以执行复杂任务，例如准备三明治或整理洗碗机。Chen [13] 强调多层室内环境中异构 MRS 的任务分配，以应对动态环境中的协调挑战。值得注意的是，他们提出一个 EMOS 框架，这是一个具身感知的操作系统，通过一种“机器人简历”方法促进异构机器人之间的有效协作，使机器人能够自主地从 URDF 文件中解释其物理约束，而不是依 LLM 驱动的 MRS 在应对各个领域多样化和复杂挑战方面的潜力。

其他研究包括建筑、编队、目标跟踪和游戏。一些研究侧重于开放世界环境中的应用，强调 LLM 集成机器人系统的多功能性和创新潜力。例如，Wang [82] 和 Sueoka [72] 探索 LLM 在协调挖掘和运输任务的机器人系统中的应用，展示了它们在建筑和复杂地形救援行动中的适用性。在无人机编队应用中，Lykov [57] 强调了搜索和救援任务和环境监测等户外任务所需的协调性和适应性。同样，Wu [85] 通过集成危险区域识别来解决开放世界目标跟踪问题，为危险环境中的自主导航提供强大的解决方案。这些场景进一步展示 LLM 在动态和结构化环境中的潜力。Brienza [9] 引入 LLCoach，这是一个机器人足球应用框架，其中 LLM 增强战略决策和团队协调。总的来说，这些研究强调了 LLM 驱动的 MRS 解决各个领域多样化和复杂挑战的潜力。

尽管在将 LLM 集成到 MRS 方面取得了进展，但仍然存在限制其广泛采用和有效性的重大挑战。这些挑战涉及推理能力、实时性能和对动态环境的适应性等领域。解决这些问题对于充分发挥 LLM 在 MRS 中的潜力至关重要。

数学能力不足。LLM 难以完成需要精确计算或逻辑推理的任务，例如多机器人路径规划或轨迹优化。这种限制降低了它们在定量准确性至关重要的场景中的有效性。Mirzadeh [60] 对几种最先进的 LLM 的数学理解和解决问题的能力进行了详细的比较和研究。具体而言，LLM 在回答同一问题的不同变化时表现出明显的差异，当仅改变数值时，性能会显著下降。此外，它们的推理能力很脆弱；它们通常模仿在训练数据中观察的模式，而不是进行真正的逻辑推理。这种脆弱性因问题中子句数量的增加而加剧，即使添加的子句与推理链无关，也会导致最先进的模型的性能下降高达 65%。这些弱点对 MRS 提出了严峻的挑战，因为精确的计算和强大的推理对于无碰撞轨迹、空间规划和高效的任务执行至关重要。解决这些限制对于在数学密集型应用中可靠地部署 LLM 至关重要。

幻觉。LLM 容易生成看似合理但缺乏事实准确性的内容，这种现象称为幻觉。这个问题在 MRS 中尤其令人担忧，因为精确可靠的输出对于有效的协作和操作至关重要。根据 Huang [32] 对 LLM 中幻觉进行的全面调查，幻觉可分为两大类：现实（actuality）幻觉和忠实（faithfulness）幻觉。现实幻觉涉及生成的内容与可验证的现实世界事实之间的差异，从而导致不正确的输出。当生成的内容与用户的指令或提供的上下文不同时，就会出现忠实幻觉，导致输出不能准确反映预期的信息。在 MRS 的背景下，这种幻觉可能导致机器人之间的误解、错误决策和协调错误，从而可能危及任务的成功和安全。应对这些挑战需要开发检测和缓解幻觉的方法，确保 LLM 产生的输出既符合事实又符合情境。

现场部署的困难。当前使用 LLM 的选项包括基于服务器的模型（通常是闭源的）和本地部署的开源模型。基于服务器的模型示例包括 OpenAI GPT [1]、Anthropic Claude [7] 和 Google Gemini（以前称为 Bard）[25]，在本地运行的开源 LLM 包括 Meta Llama [17]、Falcon [3]、Alibaba Qwen [89] 和 DeepSeek V3 [51] 和 R1 [27]。基于服务器的模型，需要可靠的互联网连接来发送查询和接收响应，因此无法在远程位置部署带有 LLM 的 MRS，这对于现场机器人系统来说是很常见的。此外，基于服务器的 LLM 严重依赖服务器的性能，服务器中断可能会完全中断基于 LLM 构建的系统。这个问题对于多机器人团队尤其重要，因为 LLM 指导机器人间的协作和决策。另一方面，本地模型可以避免使用服务器，但需要足够强大的板载硬件来本地运行 LLM。

相对较高的延迟。实时信息交换和决策对于 MRS 在现实场景中的有效运行至关重要。然而，使用 LLM 的一个显著挑战在于它们相对较高且多变的响应时间，这取决于模型复杂性、硬件功能和服务器可用性。例如，Chen [12] 报告称，在使用 OpenAI 的 GPT-4 进行多智体路径查找场景中，每步响应时间在 15 到 30 秒之间，这严重影响了实时可行性。虽然在更强大的硬件上进行本地处理可以减少延迟，但这种方法成本高昂，并且随着机器人数量的增加，可扩展性会降低。应对这一挑战需要探索优化的 LLM 架构、高效的推理技术和可扩展的解决方案，以平衡计算需求和实时操作要求。

缺乏基准。性能评估对于使用 LLM 的 MRS 新研究至关重要。然而，现有的基准测试系统主要针对室内环境和家庭应用而设计，这限制了它们在 MRS 运行的多样化和不断发展场景中的适用性。由于当前的研究通常代表将 LLM 应用于 MRS 的初步努力，因此性能比较通常侧重于通过将 LLM 与传统方法进行对比来证明可行性。虽然这种方法对于建立基线很有价值，但未来的进步可能会带来显着的性能和功能改进。针对多机器人应用量身定制的统一基准测试框架将为研究人员提供一致的指标来评估和量化进展。这样的系统不仅有助于更清楚地了解新研究的影响，而且还能促进研究之间的标准化和可比性，从而加速这一新兴领域的创新。

微调和 RAG。在特定领域的数据集上对 LLM 进行微调并结合 RAG 技术是提高其在多机器人应用中性能的有希望的途径。微调允许研究人员将预先训练的 LLM 适应特定任务，增强其上下文理解并减少幻觉等问题。RAG 通过集成外部知识检索机制对此进行了补充，使 LLM 能够在运行时动态访问相关信息。这些技术结合在一起，可以显著提高 LLM 在多样化和复杂的多机器人场景中的准确性、可靠性和适应性。
高质量的任务特定数据集。创建高质量和任务特定的数据集对于提高 MRS 中的 LLM 功能至关重要。利用更强大的模型（例如最新的 LLM）来生成合成数据集可以加速针对特定任务或环境的训练材料的开发。这些数据集应包括多样化的场景、以推理为重点的标签和特定于上下文的知识，以提高 LLM 的解决问题和决策能力。特定于任务的数据集对于准备 MRS 在非结构化或开放世界环境中运行尤为重要。

高级推理技术。提高 LLM 的推理能力对于解决其在逻辑和数学任务中的当前局限性至关重要。诸如思维链 (CoT) 提示、使用显式推理标签进行微调、集成符号推理和使用 RL 进行训练等技术可以增强 LLM 处理复杂的多步骤问题的能力。通过改进推理方法，LLM 可以更好地支持需要精确和逻辑推理的任务，例如多机器人路径规划和协调。

特定于任务的轻量级模型。虽然大规模 LLM 提供了卓越的性能，但它们通常不适用于资源受限的环境。开发针对多机器人应用量身定制的任务特定和轻量级模型可以缓解此问题。 SmolVLM、Moondream 2B、PaliGemma 3B 和 Qwen2-VL 2B 等模型展示了小型架构如何减少计算需求和延迟，同时保持特定任务的足够性能。模型蒸馏是另一种使小模型更强大的方法，它从功能更强大的 LLM（如 DeepSeek-R1-Distill-Qwen-1.5B）中蒸馏知识，其中 DeepSeek R1 中的知识被蒸馏成一个小型 Qwen2.5-Math-1.5B 模型。平衡效率和有效性是实现现场机器人中 LLM 可扩展部署的关键。

扩展到非结构化环境。大多数当前应用程序和基准都侧重于室内或结构化环境，在室外和非结构化场景中留下了很大的空白。研究应优先考虑扩展 MRS 功能，包括在开放世界环境中的操作，例如农田、灾区和偏远勘探地点。解决这些环境的独特挑战（包括多变性、噪声和不可预测的动态）将扩大 LLM 支持的 MRS 的适用性。

最新更强大的 LLM。最先进的 LLM 的持续发展为 MRS 开辟了新的可能性。PaliGemma、Qwen、GPT o3 (mini) 和 DeepSeek V3 和 R1 等模型提供增强的推理、理解和多任务处理能力。将这些高级模型纳入 MRS 研究可以通过提供改进的基线性能和实现创新应用来加速进展。探索它们与机器人系统的集成可以进一步突破多机器人团队所能实现的界限。