ICLR 2025 oral|用nuPlan + 200h物流小车数据集测试!SOTA扩散模型轨迹规划器来了

导读:

本文介绍了清华大学联合毫末智行、自动化所、港中文、上海交大、上海人工智能实验室最新研究成果《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》——荣获ICLR 2025 Oral Presentation(仅1.8%接受率)。

该算法创新性地设计了基于 Diffusion Transformer的自动驾驶规划模型架构,高效处理复杂场景输入,并联合建模周车运动预测与自车规划中的多模态驾驶行为,充分发挥扩散模型在闭环规划中的潜力,解决了现有基于学习的规划方法对后处理的严重依赖问题。此外,借助扩散模型的引导机制,模型在部署阶段能够灵活适应不同的驾驶需求,提高泛化能力与实用性。

©️【深蓝AI】编译

论文链接:https://arxiv.org/pdf/2501.15564

项目主页:https://zhengyinan-air.github.io/Diffusion-Planner/

一、背景介绍

自动驾驶规划正朝着更安全、高效的方向发展,但在复杂环境下实现类人驾驶仍具挑战。基于规则的方法虽在工业应用中取得成功,但适应性差,调整成本高;模仿学习能直接学习专家驾驶行为,并随训练数据扩展提升性能。然而,模仿学习方法在多模态行为适应性、泛化能力和驾驶风格灵活调控上仍存挑战,依赖后处理来优化模型输出。

近年来,扩散模型在决策领域得到广泛应用,但在自动驾驶规划中的探索仍有限。现有研究多聚焦于运动预测和场景生成,关注开环性能,而非闭环规划。一些方法尝试将扩散模型应用于规划任务,但仅仅是沿用现有结构或扩展模型参数,缺乏针对性结构设计,导致仍然高度依赖后处理。

为此,我们提出了Diffusion Planner,一种创新的基于扩散模型的自动驾驶规划方法。通过扩散模型强大的数据分布拟合能力,Diffusion Planner能够精准捕捉复杂场景中周车与自车的多模态驾驶行为,并实现周车预测与自车规划的联合建模。同时,基于Transformer的结构设计高效处理复杂场景输入,实现20Hz的高速实时推理。此外,借助灵活的引导机制,模型在部署阶段即可适应不同的驾驶需求。在大规模真实数据集 nuPlan 的闭环评估中,Diffusion Planner取得了SOTA级表现,⼤幅降低了对后处理的依赖,并在额外收集的 200 小时物流小车数据上验证了其在多种驾驶风格下的鲁棒性和迁移能力。

二、Diffusion Planner技术细节

Diffusion Planner专为自动驾驶闭环规划设计,具备以下特点:

  • 基于DiT架构融合加噪轨迹与条件信息,推理速度可达20Hz;

  • 联合建模自车与周车的未来轨迹,将运动预测与闭环规划统一为未来轨迹生成;

  • 采用扩散模型的引导机制,实现具有偏好的轨迹生成。

■ 2.1.  模型结构设计

在自动驾驶中,自车与周围车辆之间的紧密互动使得规划与预测任务必须高度协同。为了应对复杂的交通场景,准确预测邻近车辆的未来轨迹至关重要。这不仅提升了闭环规划模型的能力,还能增强系统的安全性和可控性。

我们通过联合建模关键参与者的状态,将运动预测与闭环规划任务统一为一个未来轨迹生成任务。我们希望模型能够同时生成所有关键参与者的未来轨迹,从而实现更加自然的协同行为。

然而,多车交互的复杂场景会产生更加多样的驾驶行为,增加了训练的难度。为此,我们采用了扩散模型的框架进行训练,并基于Diffusion Transformer设计了针对自动驾驶规划的结构。

图片

具体而言,我们考虑了周围车辆的历史信息、道路信息和静态障碍物,设计了简洁的编码器结构用于信息提取,并通过交叉注意力机制与加噪后的自车和周车轨迹进行信息交互。此外,我们还引入了额外的导航信息以及扩散模型特有的加噪步数信息。为了避免模型重复自车历史行为导致闭环性能下降,我们仅考虑自车当前时刻的位置和朝向,并与周车的当前状态一起拼接到加噪轨迹中。通过这种方式,起始状态的引导还能进一步降低模型对未来轨迹生成的难度。

■ 2.2.  有偏好轨迹生成

基于扩散模型的引导机制,我们可以在模型的测试阶段引入安全,舒适等偏好,同时也可以根据用户需求灵活的改变模型输出的轨迹特性,例如速度特性。此外,不同的偏好可以通过加权求和轻松组合,并且在部署阶段可以灵活选择是否启用,提供更大的灵活性。

图片

三、实验结果

■ 3.1.  nuPlan闭环仿真

下图展示了Diffusion Planner与其他自动驾驶规划算法在nuPlan数据集上的表现对比。我们在三个常用测试基准上进行了比较,结果显示Diffusion Planner达到了SOTA性能水平。通过引入现有的后处理模块,算法性能得到了进一步提升,这得益于模型生成的高质量轨迹,为后处理模块提供了更优的初始化参考轨迹。

图片

此外,我们还对比了现有基于扩散模型的自动驾驶规划算法。与现有方法相比,Diffusion Planner 有效降低了对后处理的依赖,同时实现了更高的推理频率,进一步验证了我们设计结构的有效性。

图片

■ 3.2.  轨迹生成可视化

为了进一步展示Diffusion Planner在轨迹生成方面的优势,我们选择了狭窄路段的左转场景,并与现有方法的无后处理版本进行了对比,如下图所示。Diffusion Planner生成了高质量的轨迹,不仅准确预测了周围车辆的行为,还生成了平滑的自车规划轨迹,合理地考虑了前车的速度,充分体现了预测与规划任务联合建模以及扩散模型生成的优势。

图片

■ 3.3.  毫末智行物流小车数据集

我们使用毫末智行收集的约200小时真实世界物流小车配送数据,作为nuPlan数据集的补充,并计划后续开源。与nuPlan数据集中的车辆相比,配送车具有以下特点:尺寸较小,运行速度较低;可以在主干道和自行车道上行驶;与行人和骑行者的交互更为频繁,同时面临不同的行驶规则。通过在该数据集上进行测试,我们发现Diffusion Planner依然保持了最佳表现。相比之下,基于规则或依赖后处理的方法由于其设计存在对nuPlan数据的过拟合问题,导致在新场景中的性能下降。这进一步证明了Diffusion Planner在适应不同驾驶行为方面的鲁棒性。

图片

■ 3.4.  有偏好轨迹生成案例

为了进一步展示引导机制的有效性,我们挑选了部分场景,从相同起始位置出发,展示了闭环测试结果。红色虚线和空心黄色车代表没有引导的结果,而红色实线和实心黄色车则表示有引导的结果。

图片

四、总结

在本文中,我们提出了 Diffusion Planner,一种基于模仿学习的自动驾驶规划方法,充分发挥扩散模型的强大表达能力和灵活的引导机制。我们设计了基于 Diffusion Transformer 的模型架构,联合建模运动预测与规划任务中的多模态数据分布,并利用扩散模型的引导机制,使模型生成的规划行为与目标驾驶风格保持一致。Diffusion Planner 在 nuPlan 数据集及新收集的 200 小时物流车驾驶数据集上取得了 SOTA 级别的闭环性能,并展现出对不同驾驶风格的强大适应性。

Ref:

Diffusion-based Planning for Autonomous Driving with Flexible Guidance

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/968420.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

dify.ai 怎么配置链接火山引擎等云厂商的deepseek模型

要将 dify.ai 配置链接到火山引擎等云厂商的 DeepSeek 模型. 申请火山引擎的key,创建endpoint 添加模型 测试模型

SAP-ABAP:dialog界面中的数据块Event Block详解举例

在SAP的Dialog程序开发中,Event Block(事件块)是屏幕流逻辑(Flow Logic)中的关键部分,用于定义屏幕在特定事件触发时执行的逻辑。Event Block通常与ABAP模块(Module)结合使用&#x…

2025年怎么选择SEO发布工具

在如今竞争激烈的互联网时代,网站的流量和曝光率直接决定着一个品牌或企业的市场影响力。无论是个人博客,还是企业官网,能够有效提升SEO(搜索引擎优化)排名的工具,已成为许多网站管理者和营销人员的必备良器…

Java 进阶day14XML Dom4j 工厂模式 Base64

目录 知识点1、XML 概念XML约束 知识点2、XML解析 Dom4j(Dom for java)XPath 知识点3、工厂模式知识点4、Base64 知识点1、XML 概念 XML的全称为(eXtensible Markup Language),是一种可扩展的标记语言。 XML的作用…

数据结构实验——排序算法的实现与分析

前言 到目前为止,8个数据结构实验在这里就全部更完啦(撒花)!我那一段难忘的周二晚课时光也告一段落,整体来说,有赶课的折腾,有调错的崩溃,也有故意迟到五分钟的惬意,用G…

【Antv G2 5.x】饼图添加点击事件,获取当前坐标数据

// 监听 tooltip:show 事件this.chart.on(tooltip:show, (event) => {this.currentShowTooltipName = event.data.items[0].name})// 监听绘图区plot的点击事件this.chart.on(interval:click, ev => {this.$emit(chartClick, this.currentShowTooltipName);})// 监听绘图…

Oracle常用导元数据方法

1 说明 前两天领导发邮件要求导出O库一批表和索引的ddl语句做国产化测试,涉及6个系统,6千多张表,还好涉及的用户并不多,要不然很麻烦。 如此大费周折原因,是某国产库无法做元数据迁移。。。额,只能我手动导…

anolis os 8.9安装jenkins

一、系统版本 # cat /etc/anolis-release Anolis OS release 8.9 二、安装 # dnf install -y epel-release # wget -O /etc/yum.repos.d/jenkins.repo https://pkg.jenkins.io/redhat-stable/jenkins.repo # rpm --import https://pkg.jenkins.io/redhat-stable/jenkins.…

Python办公自动化之PDF

python版本:3.13.1 开发工具:pycharm 安装三方库:pypdf2 、pdfplumber、pymupdf 一、从PDF中提取文字 用Python从PDF中提取文字-CSDN博客 二、从PDF中提取表格 用Python从PDF中提取表格-CSDN博客 三、拆分和合并PDF文件 用Python拆…

变化检测相关论文可读list

一些用得上的: 遥感变化检测常见数据集https://github.com/rsdler/Remote-Sensing-Change-Detection-Dataset/ 代码解读:代码解读 | 极简代码遥感语义分割,结合GDAL从零实现,以U-Net和建筑物提取为例 NeurIPS2024: https://mp.w…

ASP.NET Core SignalR案例:导入英汉词典

Ecdict 下载词典文件stardict.7z,解压,stardict.csv是一个CSV格式的文本文件,文件的第一行是表头,除第一行外,其他每行文本是一个单词的相关信息,用逗号分隔的就是各个列的值。英汉词典ECDICT中导入单词到…

元宵佳节,我的创作纪念日:技术之路的回顾与展望

今天是元宵节,一个象征着团圆与美好的节日。巧合的是,今天也是我作为技术博客博主的创作纪念日。在这个特别的日子里,我想和大家分享我的创作故事,回顾初心、总结收获、展望未来,同时也希望能为正在技术道路上探索的你…

python实现常见数学概率分布

常见正态分布 1.贝塔分布1.1 概率密度函数1.2参数对分布形状的影响1.3 应用场景1.4 python实现 2. 帕累托分布(80/20法则)3. 正态分布(高斯分布)3.1 正态分布对应性质3.2 正态分布对应图像![在这里插入图片描述](https://i-blog.c…

本地生活案例列表案例

1.实现导航跳转 2.设置标题内容并创建编译模式 3.获取并且渲染商铺列表数据 获取数据 渲染页面 4.实现初步上拉加载效果 4.1配置loading效果 4.3配置上拉触底距离,并且使页码值自增加1,获取更多数据 节流处理 5.判断数据是否加载完毕 当没有后续数据了…

.NET版Word处理控件Aspose.Words教程:使用 C# 删除 Word 中的空白页

Word 文档中的空白页会使其看起来不专业并扰乱流程。用户会遇到需要删除 Word 中的空白页的情况,但手动删除它们需要时间和精力。在这篇博文中,我们将探讨如何使用 C# 删除 Word 中的空白页。 本文涵盖以下主题: C# 库用于删除 Word 中的空…

Unity崩溃后信息结合符号表来查看问题

目录 SO文件符号表对调试和分析的重要性调试方面分析方面 错误数据安装Logcat解释符号表设置符号文件路径生成解析 相关参考 SO文件 so 文件(Shared Object File,共享目标文件)和符号表紧密相关,它们在程序的运行、调试和分析过程…

mapbox进阶,添加绘图扩展插件,裁剪线

👨‍⚕️ 主页: gis分享者 👨‍⚕️ 感谢各位大佬 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏:mapbox 从入门到精通 文章目录 一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️MapboxDraw 绘图控件二、🍀添加绘图扩…

DeepSeek:从入门到精通

在人工智能飞速发展的今天,DeepSeek作为一款备受瞩目的AI工具,正以其强大的功能和开源理念改变着我们的生活和工作方式。本文将带你深入了解DeepSeek,从基础入门到进阶应用,助你快速掌握这一前沿工具。 文末有详细资料可下载 文末…

【清晰教程】通过Docker为本地DeepSeek-r1部署WebUI界面

【清晰教程】本地部署DeepSeek-r1模型-CSDN博客 目录 安装Docker 配置&检查 Open WebUI 部署Open WebUI 安装Docker 完成本地DeepSeek-r1的部署后【清晰教程】本地部署DeepSeek-r1模型-CSDN博客,通过Docker为本地DeepSeek-r1部署WebUI界面。 访问Docker官…

八、OSG学习笔记-

前一章节: 七、OSG学习笔记-碰撞检测-CSDN博客https://blog.csdn.net/weixin_36323170/article/details/145558132?spm1001.2014.3001.5501 一、了解OSG图元加载显示流程 本章节代码: OsgStudy/wids CuiQingCheng/OsgStudy - 码云 - 开源中国https:…