突破自动驾驶瓶颈!KoMA:多智能体与大模型的完美融合

0.简介

本推文主要介绍了由来自北京航空航天大学的姜克谋、蔡轩和崔智勇教授等共同提出的一种名为KoMA的知识驱动的多智能体框架。论文《KoMA: Knowledge-driven Multi-agent Framework for Autonomous Driving with Large Language Models》提出了KoMA框架,通过结合大语言模型(LLM)和多智能体协作,显著提升了自动驾驶系统在复杂环境下的决策效率与安全性。该框架具备多步骤规划、智能体间共享记忆模块以及基于排名的反思优化机制,可以有效解决单一智能体在泛化能力、协作能力和高效决策方面的不足。

实验结果表明,KoMA框架在高速公路仿真环境中能够更好地适应不同场景的变化,特别是在复杂任务(如匝道并入和车流密度调控)中表现出优越的泛化能力。此外,研究还探索了不同的大语言模型(如GPT3.5、GPT4、Llama3、Llama2等)在框架中的推理表现,为未来构建更强大的知识驱动的自动驾驶系统提供了重要的参考。

本推文由邱雪撰写,审校为黄星宇和许东舟。

论文链接:https://ieeexplore.ieee.org/abstract/document/10745878

代码链接:https://jkmhhh.github.io/KoMA/

 1.背景与挑战

随着自动驾驶技术的快速发展,如何在复杂动态的交通环境中实现高效、安全的车辆控制成为一大核心难题。然而,现有的自动驾驶系统普遍面临以下挑战:

  1. 缺乏多智能体协作能力
    当前大部分自动驾驶框架依赖单一的智能体来完成驾驶任务,这种方法在面对复杂交通环境时,难以有效理解周围交通参与者的行为和意图,导致决策能力受限。
  2. 泛化能力不足
    传统自动驾驶系统依赖于大量特定场景的训练数据,而在未见过的复杂场景中适应能力较弱,容易出现不安全或低效的决策。
  3. 缺乏高效决策与解释能力
    现有方法通常无法快速应对高动态场景中的决策需求,同时对决策背后的逻辑缺乏解释性,使得系统难以被广泛接受。

在这样的背景下,如何引入具有强泛化能力、复杂推理能力以及高效协作能力的多智能体系统成为了自动驾驶领域亟需解决的问题。针对这些挑战,KoMA框架以大语言模型(LLM)为核心,通过多智能体协作与知识驱动的创新模块,提出了一种全新的解决方案,为下一代自动驾驶系统的研发提供了方向。具体如下:

  •  引入大语言模型增强智能体能力

大语言模型(LLM)不仅提升了智能体的推理能力,还提供了强大的泛化能力,能够高效处理复杂场景中的推理和情景描述。

  •  多智能体协作机制

通过多个智能体协作,结合周围环境信息判断其他交通参与者的行为意图,做出更加符合交通规范和实际需求的决策。

  •  多层次规划与决策模块

设计多步骤规划机制,智能体逐层分析环境并逐步做出行动决策,提高了系统应对复杂场景的能力。

  •  共享记忆模块

引入共享记忆机制,使智能体能够积累并共享驾驶经验,有效提升系统的适应性和长期决策水平。

  •  基于排名的反思与优化模块

通过排名机制对智能体的决策进行反思和迭代优化,不断提升框架的整体性能和效率,为复杂动态环境中的自动驾驶提供更强支持。

 2.方法

1 KoMA框架的整体工作流程

图1展示了KoMA框架的整体架构,突出了如何通过多智能体协作与基于大语言模型的决策模块提升自动驾驶系统的效率和适应性。框架的左侧描述了自动驾驶系统所处的环境(Environment,其中蓝色表示周围的环境车辆,绿色表示基于大语言模型(LLM)驱动的智能体车辆。智能体通过环境感知和交互模块,捕获周围车辆的状态信息(如位置、速度和车道位置),并将这些信息生成场景描述,供后续模块进行推理和规划。随后将生成的场景描述传递到解码模块(Decoder,将环境信息解码为语义化的场景描述。这一步是LLM理解环境的核心输入,为后续的智能体规划和决策提供了基础。

智能体在接收到场景描述后,通过多步骤规划模块(Multi-step Planning完成目标制定、计划生成和行动执行。多步骤规划包括三个关键部分:目标制定(Goal确定驾驶目标,如避让车辆或进入目标车道;计划生成(Plan设计具体的路径或行动序列;行动执行(Action将计划转换为具体的驾驶操作并反馈到环境中。此外,多步骤规划模块还包含交互机制(Interaction Interface,智能体能够分析和理解其他交通参与者的行为意图,从而协作完成更符合交通规范的决策。

为了提升系统的适应性和长期决策性能,框架引入了基于记忆的增强模块(Memory-based Enhancement。智能体共享一个记忆库(Shared Memory,用于存储经验数据,包括成功经验(Success Experience修正经验(Revised Experience。这些记忆数据通过向量化(Embedding)进行高效存储和检索。在 反思模块(Evaluation-Reflection中,智能体通过分析过去的经验并对决策进行优化,具体步骤包括重新规划(Replanning)、生成新行动(New Action)和总结经验(Summarizing)。优化后的新经验被存入记忆库,为未来决策提供支持。

整个框架形成了一个从感知、规划、行动、反思、优化的闭环流程。智能体通过规划与行动与环境实时交互,并结合反思机制提升决策质量。共享记忆模块显著增强了智能体的泛化能力,而多步骤规划和交互机制确保了智能体在动态交通环境中的实时响应与安全决策。KoMA框架为解决复杂交通场景提供了一种创新且高效的方案。

 3.实验结果 

2 KoMA0次(无记忆项)、20次(284个记忆项)和40次(624个记忆项)训练轮次后的性能,与MARL0次、20,000次和40,000次训练轮次后的性能进行比较

图2展示了KoMA框架与传统多智能体强化学习框架(MARL)在不同轮训练阶段的成功率对比,KoMA框架在训练后期表现出更强的适应性和协作能力,反映了基于记忆增强的KoMA框架在处理多智能体协作任务中的显著优势。

3 在初始场景中,使用不同记忆模块进行测试的实验结果,分别在训练 20 轮和 40 轮后进行评估

图3展示了不同记忆模块对KoMA框架在训练过程中的成功率影响,结果表明共享记忆机制显著优于无记忆和非共享记忆机制。在训练20轮和40轮后,共享记忆的成功率分别达到50%和70%,远超其他两种方法。共享记忆通过智能体之间的经验共享,显著提升了系统的学习效率、协作能力和泛化能力,为解决复杂动态场景提供了更高效的支持。

4 经过40轮训练后,在测试成功的场景中的平均效率得分和安全得分

图4展示了在训练40轮后,是否采用多步骤规划(Multi-step Planning)对效率得分(Efficiency Score)和安全得分(Safety Score)的影响。结果显示,采用多步骤规划的情况下,效率得分从9.13提升至9.45,安全得分从9.27提升至9.92。这表明多步骤规划能够有效优化智能体的行动决策,显著提升任务执行的效率和安全性。

5 在有记忆和无记忆的情况下,对不同泛化场景的实验结果进行了评估(该记忆已在一条两车道的主巷道上进行了训练。)

图5比较了在单车道和三车道主干道场景下,是否采用记忆机制对成功率的影响。结果显示,在单车道场景中,采用记忆机制的成功率从40%显著提升至90%;在三车道场景中,成功率从50%提升至70%。这表明记忆机制能够有效帮助智能体积累和利用经验,在不同复杂场景中显著提高决策成功率,尤其是在更简单的单车道场景中提升效果更为显著。

6 在初始场景中经过40轮训练的记忆,其泛化能力在环岛场景中进行了专门测试

图6展示了在初始场景和扩展至环岛场景中,使用初始场景记忆与无记忆机制的成功率对比。结果表明,在初始场景中,使用记忆的成功率从30%显著提升至 70%;在环岛场景中,成功率从60%提升至80%。这表明基于初始场景训练的记忆不仅能有效提升当前任务的成功率,还能增强智能体在新场景中的泛化能力,从而提升复杂环境下的适应性。

1 不同LLMsKoMA框架下训练02040轮后的实验的成功率

表1展示了在KoMA框架中,使用不同的大语言模型经过0、20和40轮训练后的成功率。结果显示,GPT4在所有阶段的表现最优,成功率从初始的30%提升至70%。相比之下,GPT3.5、Llama3、Llama2和Qwen2的最终成功率分别为35%、40%、35%和40%。这些数据表明,模型的推理能力显著影响KoMA框架的性能,其中GPT4展现了最佳的学习能力和泛化性能。

2 KoMA框架下对不同LLMs的推理时间进行统计分析

表2对不同的大语言模型在KoMA框架中的推理时间进行了统计分析,结果显示,GPT4的推理时间最长,平均时间为17.49秒,最大时间为19.86秒,相比之下,Llama系列模型的推理时间较短,其中Llama2平均时间最少,仅为7.49秒。这表明不同模型的推理能力存在显著差异,其中Llama2在推理效率方面表现优越,而GPT4尽管推理时间较长,但可能更适合对高精度要求的任务。

 4.总结

KoMA框架通过结合大语言模型与多智能体协作,为自动驾驶任务带来了显著的性能提升。实验结果表明,共享记忆机制、多步骤规划、以及基于排名的反思优化模块在提高模型的效率和泛化能力方面发挥了关键作用。尤其是结合GPT4等强大模型时,KoMA在复杂场景中的决策成功率和安全性均达到领先水平。同时,不同LLMs的推理效率差异也表明了技术选择的重要性,Llama2等模型在效率上表现优越,而GPT4则在性能上具备更强的优势。

未来,KoMA的方法可扩展至更多动态场景和多智能体任务,例如智能交通管理、无人配送等,为自动驾驶技术和多智能体协作领域的发展提供了新的方向和启示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/919908.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

企业项目级IDEA编辑器设置类注释、方法注释模板(仅增加@author和@date)

文章目录 前言一 设置类注释1.1 添加模板1.2 复制配置 二 设置方法注释2.1 添加模版2.2 设置模版2.3 设置参数变量2.4 配置对应快捷键2.5 配置对应作用域2.6 使用方式 说明 前言 公司代码规范中,需要在标准JavaDoc注释的基础上加上作者和日期。网上虽然有很多现成的…

【HOT100第五天】搜索二维矩阵 II,相交链表,反转链表,回文链表

240.搜索二维矩阵 II 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 先动手写写最简单方法,二重循环。 class Solution { public:bool searchMa…

OLED透明屏在零售行业有哪些优势

OLED透明屏在零售行业具有诸多优势,这些优势使得它成为零售行业中一种创新且高效的展示工具。以下是对OLED透明屏在零售行业优势的详细分析: 1. 视觉吸引力与沉浸感 高透明度:OLED透明屏能够实现40%以上的透明度,使得屏幕后的物体…

kali搭建pikachu靶场

前言: 总所周知搭个网站需要有apachemysqlphp,Apache是一个开源的Web服务器软件, MySQL是一种关系型数据库管理系统(数据库),PHP是一种在服务器上执行的脚本语言 文章内容来自:【黑帽编程与攻…

学习threejs,对模型多个动画切换展示

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:threejs gis工程师 文章目录 一、🍀前言1.1 ☘️THREE.AnimationMixer 动画…

【再谈设计模式】适配器模式 ~接口兼容的桥梁

一、引言 在软件开发的复杂世界里,不同的组件、类或者系统往往有着各自独立的设计和接口定义。当需要将这些原本不兼容的部分整合在一起协同工作时,就像尝试将方形的榫头插入圆形的卯眼一样困难。适配器设计模式就如同一位神奇的工匠,能够巧妙…

光猫、路由器、交换机之连接使用(Connection and Usage of Optical Cats, Routers, and Switches)

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 本人主要分享计算机核心技…

《深入理解 Spring MVC 工作流程》

一、Spring MVC 架构概述 Spring MVC 是一个基于 Java 的轻量级 Web 应用框架,它遵循了经典的 MVC(Model-View-Controller)设计模式,将请求、响应和业务逻辑分离,从而构建出灵活可维护的 Web 应用程序。 在 Spring MV…

【Python小技巧】高效实现文件批量重命名

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

ES分词环境实战

文章目录 安装下载1.1 下载镜像1.2 单节点启动 防火墙设置异常处理【1】iptable链路中断 参考文档 参加完2024年11月软考,对ES的分词进行考查,前期有【 Docker 环境下安装部署 Elasticsearch 和 kibana】和【 Docker 环境下为 Elasticsearch 安装IK 分…

华为云stack网络服务流量走向

1.同VPC同子网同主机内ECS间互访流量走向 一句话通过主机内部br-int通信 2.同VPC同子网跨主机ECS间互访流量走向 3.同VPC不同子网同主机ECS间互访流量走向 去往本机的mac地址都记录在br-tun流表里 4.同VPC不同子网跨主机ECS间互访流量走向 5.对等连接流量走向(跨V…

计算机网络:运输层 —— TCP 的拥塞控制

文章目录 TCP的拥塞控制拥塞控制的基本方法流量控制与拥塞控制的区别拥塞控制分类闭环拥塞控制算法 TCP的四种拥塞控制方法(算法)窗口慢开始门限慢开始算法拥塞避免算法快重传算法快恢复算法 TCP拥塞控制的流程TCP拥塞控制与网际层拥塞控制的关系 TCP的拥…

利用uniapp开发鸿蒙:运行到鸿蒙模拟器—踩坑合集

从uniapp运行到鸿蒙模拟器上这一步,就有非常多的坑,一些常见的坑,官网都有介绍,就不再拿出来了,这里记录一下官网未记录的大坑 1.运行路径从hbuilderx启动鸿蒙模拟器 解决方法: Windows系统,官…

linux 常用命令指南(存储分区、存储挂载、docker迁移)

前言:由于目前机器存储空间不够,所以‘斥巨资’加了一块2T的机械硬盘,下面是对linux扩容的一系列操作,包含了磁盘空间的创建、删除;存储挂载;docker迁移;anaconda3迁移等。 一、存储分区 1.1 …

layui合并table相同内的行

<table border"1" id"table1" class"layui-table"><thead><tr><th><b>姓名</b></th><th><b>项目</b></th><th><b>任务</b></th><th><b>…

C++刷题强训(day10)--最长回文子串、买股票的最好时期(一)、过河卒

目录 1、最长回文子串 1.1 题目 1.2 思路 1.3 代码实现 2、买卖股票的最好时机 2.1 题目 2.2 思路 2.3 代码实现 3、过河卒 3.1 题目 3.2 思路 3.3 代码实现 1、最长回文子串 1.1 题目 1.2 思路 根据题目可知&#xff0c;在一个长度为n的字符串中求得最长回文子…

【蓝桥杯C/C++】翻转游戏:多种实现与解法解析

博客主页&#xff1a; [小ᶻZ࿆] 本文专栏: 蓝桥杯C/C 文章目录 &#x1f4af;题目&#x1f4af;问题分析解法一&#xff1a;减法法解法二&#xff1a;位运算解法解法三&#xff1a;逻辑非解法解法四&#xff1a;条件运算符解法解法五&#xff1a;数组映射法不同解法的比较…

Debezium-BinaryLogClient

文章目录 概要核心流程技术名词解释技术细节小结 概要 BinaryLogClient类&#xff0c;用于连接和监听 MySQL 服务器的二进制日志&#xff08;binlog&#xff09; 核心流程 技术名词解释 ### GTID (Global Transaction Identifier) 理解 #### 定义 GTID&#xff08;Global Tra…

嵌入式linux中QT信号与槽基本操作与实现

大家好,今天主要给大家分享一下,如何使用linux系统上的QT进行界面开发与实现。 第一:QT的信号与槽基本简介 在操作QT的时候,可以使用里面的信号与槽。所谓信号就是一个对象发出的信号,槽就是当这个对象发出这个信号时,对应连接的槽就发被执行或者触发。 进行信号与槽的连…

03 —— Webpack 自动生成 html 文件

HtmlWebpackPlugin | webpack 中文文档 | webpack中文文档 | webpack中文网 安装 npm install --save-dev html-webpack-plugin 下载html-webpack-plugin本地软件包 npm i html-webpack-plugin --save-dev 配置webpack.config.js让webpack拥有插件功能 const HtmlWebpack…