浙大最新开源:MGMap-掩码引导学习的在线矢量化高精地图构建方法

论文标题:

MGMap: Mask-Guided Learning for Online Vectorized HD Map Construction

论文作者:

Xiaolu Liu, Song Wang, Wentong Li, Ruizi Yang, Junbo Chen, Jianke Zhu

作者单位:浙江大学,有鹿科技

开源地址:

https://github.com/xiaolul2/MGMap

导读:

本作提出了一种名为MGMap的新方法,旨在改进高精地图的在线构建过程,特别是解决当前技术在定位地图要素和保留细节结构方面的不足。©️【深蓝AI】编译

1. 摘要

MGMap利用学习到的掩码,通过一种mask-guided策略,在不同尺度的鸟瞰特征图上实现更精确的地图要素定位。该方法包含两个核心部件:一是Mask-activated instance (MAI)解码器,它整合全局实例与结构信息来增强实例级别的特征识别;二是位置引导的掩码补丁细化(PG-MPR,Position-guided mask patch refinement)模块,从点级别细化信息,提高定位精度。实验结果显示,与现有基线方法相比,MGMap能显著提升约10个mAP,彰显出更好的鲁棒性和泛化性。

2. 介绍

高精地图在自动驾驶中扮演着关键角色,它为自我定位、路径规划及其他下游任务提供厘米级的路面信息。如VectorMapNet和MapTR等高效直接的方法被提出以构建矢量地图,这些方法用稀疏点集表示地图元素,并直接采用基于Transformer的架构更新实例查询和回归点位置。尽管已取得可喜的成果,但仍受内在问题限制。

在这里插入图片描述
图1|展示了对于某些精细结构,本文提出的MGMap方法能够通过学习到的掩码突出信息丰富的区域,从而实现地图要素的有效定位©️【深蓝AI】编译

如图1所示,道路边缘、分隔线及人行横道等地图要素具有强烈的形状先验。模糊的特征和粗略的位置易导致预测中丢失详细信息,特别是不规则边界和转角的突然变化。

针对上述问题,本文提出了一种细粒度方法MGMap,旨在通过融合学习到的地图掩码来改进定位并突出特定特征。MGMap在nuScenes和Argoverse2数据集上的广泛实验表明,它达到了最先进的性能。不同设置下的实验结果彰显了所提模型的鲁棒性和泛化能力。本工作的主要贡献总结如下:

●提出了一种有效的在线HD地图矢量化方法,借助学习到的掩码实现精确定位,有效提取实例掩码和二进制掩码特征以学习独特的车道线和形状。

●设计了掩码激活实例解码器和创新的位置引导掩码补丁细化模块,充分利用掩码特征从实例和点层面解码地图要素。

●在两大测试平台上展现的优异结果证明,本文的MGMap大幅超越先前方法,具有强大的鲁棒性和泛化能力。

3. 相关工作

3.1 在线高精地图构建

包括将地图构建视为图像分割任务、使用自回归解码器连接顶点的两阶段框架、通过实例点间连接构建地图,以及采用Transformer架构同时预测固定数量点位等。相关工作有:VectorMapNet,MapTR,BeMapNet,PivotMap。

3.2 基于相机的BEV感知

高精地图构建依赖于高质量的BEV特征,这些特征也是大多数三维感知任务的基础。通常,BEV特征是从透视视角图像中提取并转换而来。相关工作有:BEVFormer,BEVFusion。

3.3 分割的掩码细化

掩码细化技术被用于改善分割任务中的实例或语义特征质量,通过各种策略如边界增强、实例特征互动和基于Transformer的注意力机制来优化掩码质量。

4. MGMap

在这里插入图片描述
图2|MGMap框架概述©️【深蓝AI】编译

4.1 BEV特征提取

首先,使用共享的卷积神经网络(CNN)骨干网络从透视视图图像中抽取2D特征。然后,通过透视图与周围视图图像特征的交互,运用可变形注意力机制,将这些特征转换为BEV表示。

增强型多层次颈部。为了获得富含语义和位置信息的BEV特征,在BEV空间,本文设计了一个包含三层的增强型多层次(EML)颈部,它利用融合注意力来构建统一的BEV特征。通过这一设计,本文可以得到具有更大感受野的多尺度BEV特征,以便更好地理解整体结构。可学习注意力图的计算可形式化表示如下:

F i + 1 = ( C A ( F i ) × F i ) × S A ( F i ) F_{i+1}=(CA(F_i) \times F_i) \times SA(F_i) Fi+1=(CA(Fi)×Fi)×SA(Fi)

之后就可以获得多层BEV特征 ( F i ) i = 1 3 (F_i)^3_{i=1} (Fi)i=13,最后,通过拼接后的一个3×3卷积层来聚合多级特征,从而获得增强的BEV特征 F c F_c Fc

4.2 基于掩码激活的实例解码器

针对每个车道实例,需要带有实例和结构信息的特定查询嵌入,以便对车道形状和位置进行回归。在丰富了BEV特征的基础上,本节重点讨论了掩码激活车道查询的设计,以及随后的更新过程。

掩码激活查询: 为了实现更详细且特定的表示,MGMap采用了一种混合方法,该方法结合了车道查询Qlane和点查询Qpoint来对单个地图实例进行编码。

在这里插入图片描述
图3|展示了不同阶段掩码构建的示意图©️【深蓝AI】编译

可变形解码器: 通过增强后的多尺度BEV特征,使用级联可形变Transformer解码器更新这些掩码激活的实例查询。这有助于根据全局上下文和局部细节逐步优化查询嵌入,从而提高对车道线等复杂结构的理解和定位能力。

4.3 位置引导的掩码块细化

尽管在实例级别上可以大致回归地图元素的形状和结构,但某些细节信息仍然难以精确构建。因此,本节提出了一种细化模块,旨在从更精细的点级别上利用二进制掩码特征进行优化。

掩码特征构建:

●首先,通过在摄像机特征(Fc)上应用基本卷积和sigmoid函数,获得二进制掩码Mb,它能突出显示与车道线相关的特征,而背景特征则相对减弱。训练阶段辅以栅格化监督的辅助损失来优化掩码学习。

●接着,基于二进制掩码Mb构建掩码特征Fm。具体操作包括:首先通过D(·)操作将掩码的维度从2扩展到32,然后将扩展后的二进制掩码、摄像机特征Fc及包含空间局部信息的二维归一化位置网格Gbev进行拼接,最后通过卷积操作融合这些特征,以强调车道线周围的具体位置和语义信息。

块提取和细化:

●该模块设计用于从局部块特征中提取更精确的点位置。通过上述构建的掩码特征,模型能够在更小的局部范围内精炼点的位置信息,从而提高预测的精度。

●利用掩码特征的指引,模型能够关注到车道线上的细微变化,对于复杂环境下的车道线检测尤为重要,它帮助模型在点级别上区分和精确定位车道结构,尤其是在实例级别处理难以捕获的细节时。

在这里插入图片描述
图4|(a) 传统的可变形注意力从采样点提取稀疏特征,可能会选择不相关的特征;(b) 本文提出的掩码区块精细化从可靠区块的区域中提取更多相关特征©️【深蓝AI】编译

4.4 训练损失

MGMap采用端到端的方式进行训练。为了将预测的地图实例与其真实标注配对,采用了二分匹配法。在点的回归和类别标签预测之外,还需要辅助损失来指导掩码分割任务。具体而言,总损失是检测损失和掩码分割损失之和,即 L = L d e t + L m a s k L = L_{det} + L_{mask} L=Ldet+Lmask

检测损失: 车道检测旨在回归车道坐标和分类标签。

L lane = ∑ i = 0 M ∑ j = 0 N λ dis ⋅ Dis ( p ^ i j , p i j ) + λ dir ⋅ CosSim ( e ^ i j , e i j ) L_{\text{lane}} = \sum_{i=0}^{M} \sum_{j=0}^{N} \lambda_{\text{dis}} \cdot \text{Dis}(\hat{p}_{ij}, p_{ij}) + \lambda_{\text{dir}} \cdot \text{CosSim}(\hat{e}_{ij}, e_{ij}) Llane=i=0Mj=0NλdisDis(p^ij,pij)+λdirCosSim(e^ij,eij)
L det = L lane + λ cls ∑ i = 0 M L local ( c ^ i , c i ) L_{\text{det}} = L_{\text{lane}} + \lambda_{\text{cls}} \sum_{i=0}^{M} L_{\text{local}}(\hat{c}_i, c_i) Ldet=Llane+λclsi=0MLlocal(c^i,ci)

掩码构建损失: 掩码学习通过像素级别的密集监督减少了过拟合的风险。

L mask = λ ins L ins ( M ^ ins , M ins ) + λ b L b ( M ^ b , M b ) L_{\text{mask}} = \lambda_{\text{ins}} L_{\text{ins}}(\hat{M}_{\text{ins}}, M_{\text{ins}}) + \lambda_{b} L_{b}(\hat{M}_{b}, M_{b}) Lmask=λinsLins(M^ins,Mins)+λbLb(M^b,Mb)

5. 实验

5.1 数据集与基准测试

本文在两个公开数据集上进行了广泛的实验,分别是nuScenes和Argoverse2。nuScenes数据集包含了从波士顿和新加坡收集的1000个驾驶场景。其中,750个和150个场景序列分别用于训练和验证,每个场景序列包含40帧关键帧数据,采样率为2Hz。对于每一帧关键帧,都有6张前视图像以及来自32线激光雷达的相应点云数据。Argoverse2数据集包含了来自六个城市的1000个场景,并提供了7张前视图像。本文使用的Argoverse2子集是由在线高精地图构建挑战赛提供的。本文的主要关注点集中在三种地图要素上,包括车道分隔线(div.)、人行横道(ped.)和道路边界(bou.)。

5.2 精度评估

为了进行全面的评估,本文采用了基于Chamfer距离的指标,包括平均精度 A P c h a m f e r AP_{chamfer} APchamfer和基于IoU的平均精度 A P r a s t e r AP_{raster} APraster。这些指标从点坐标角度出发,同时将每个地图要素视为独立的整体单元进行评估,确保地图矢量化质量能从不同视角得到评判。

5.3 实现细节

为了确保公平的比较,本文选用ResNet50作为图像模态的主干网络。对于激光雷达模态,本文采用SECOND作为主干网络。定义的鸟瞰图(BEV)尺寸,即高HBEV乘以宽WBEV,设置为200×100。最大实例数量和点查询数量分别设置为50和20。

5.4 主要结果

在这里插入图片描述
表1|在不同输入模态和主干网络配置下,于nuScenes验证集上对60m×30m感知范围内的地图矢量化进行的定量评估©️【深蓝AI】编译

在这里插入图片描述
图5|MapTR方法、本文提出的MGMap方法以及相应地面真实情况的可视化结果展示©️【深蓝AI】编译

在nuScenes数据集上的性能:

如表1所示,本文在nuScenes验证集的不同设置下,将MGMap方法与最先进的方法进行了对比。可以看出,本文提出的方法超越了以往的方法,取得了最佳性能。与基线MapTR相比,在使用ResNet-50和训练30轮的相同设置下,基于多视角摄像头输入的MGMap实现了10.3mAP的提升。值得注意的是,MGMap在仅使用LiDAR时达到67.9mAP,在融合摄像头数据与LiDAR时达到71.7mAP,这证明了本文方案的强大泛化能力。此外,图5展示了MGMap在几种驾驶场景下的视觉效果。

在这里插入图片描述
表2|在Argoverse2数据集的一个子集上,60m×30m感知范围内与基线方法的性能对比©️【深蓝AI】编译

在Argoverse2数据集上的性能:

按照在线高精地图构建挑战赛的设置,本文在Argoverse2数据集上重新实现了MapTR和MGMap。表2展示了本文的实验结果。可以观察到,本文的方法在Argoverse2数据集上表现出了竞争力,与MapTR相比,MGMap实现了5.4 mAP的提升,进一步证明了本文所提方法的有效性。

在这里插入图片描述
表3|在nuScenes数据集上,采用扩大感知范围设置的实验结果。本文提出的MGMap方法在所有评估指标上显著优于MapTR©️【深蓝AI】编译

扩大感知范围的性能评估:

为了评估模型的鲁棒性,本文在扩大的感知范围内进行了实验。在相同的设置下,本文针对BEV空间中X轴和Y轴上的60m×60m和30m×90m感知范围,重新实现了MapTR和本文的MGMap,此时查询数量按比例增大以保持基本属性。所有模型均训练了30个周期。表3报告了实验结果。与MapTR相比,本文的MGMap在两种设置下都持续表现出性能提升,对于60m×60m的感知范围提升了9.5mAP,对于30m×90m的范围则提升了10.2mAP。

5.5 消融实验

在这里插入图片描述
表4|实例与点级别上的掩码引导设计消融研究。Ins.代表实例级别的MAI解码器,Point指的是点级别的PG-MPR模块设计©️【深蓝AI】编译

掩码引导设计的消融实验: 这部分验证了掩码引导设计(包括MAI解码器和PG-MPR模块)的重要性。MAI解码器通过掩码捕获全局结构信息,而PG-MPR模块专注于局部细节。结果显示,分别添加这两个模块可提升1.9mAP和2.6mAP,组合使用时达到最高mAP为61.4,证明了该设计在理解和定位目标方面的有效性。

在这里插入图片描述
表5|通过考察PV和BEV阶段多级特征的表现来研究EML颈部设计的消融实验。经验结果表明,利用BEV层级的EML颈部设计来辅助掩码引导设计能达到最佳性能©️【深蓝AI】编译

EML颈部设计的消融实验: 探索了EML(多尺度特征融合颈部)设计相较于传统FPN在PV和BEV空间的应用效果。实验发现,BEV空间中的EML设计显著提高了性能,特别是在处理复杂形状物体的检测上,而PV空间的直接应用效果不佳。此外,EML设计还增强了掩码生成的质量,进一步优化了掩码引导流程的性能。

在这里插入图片描述
表6|不同补丁大小(d)与细化阶段(s)下点级别PG-MPR设计的性能表现。第一行表示未采用点级别细化的结果©️【深蓝AI】编译

PG-MPR设计的消融实验: 针对位置引导的掩码补丁细化模块,研究了补丁大小和细化阶段数对性能的影响。实验结果显示,合理的补丁大小(例如0.1)和适当的细化阶段(两阶段)能最大化模型性能。过小或过大的补丁尺寸都会导致性能下降,表明了在保持信息相关性和细节捕捉之间的平衡是至关重要的。

6. 结论

本文提出了MGMap这一有效方法,旨在学习掩码的指导下实现在线高精地图矢量化。通过在实例和点两个层级利用掩码,本文缓解了由于高精地图中细微且稀疏标注所带来的粗略检测与细节丢失难题。所提出的MGMap不仅展现了当前最优的性能表现,还在多种实验设定下展示了在线地图矢量化方面的强大鲁棒性。对于未来研究,融合其他感知任务以构建更全面的表示形式仍是一个值得探索的方向,这有望为自动驾驶技术带来进一步的发展与进步。

编译|蒙牛二锅头

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/602352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android 网络请求 实现

Android 网络请求 实现 一、背景 在Android开发中,网络请求是一个非常常见的需求。应用程序可能需要与远程服务器通信来获取数据、上传文件、验证用户身份等等。背景下,Android应用通常会面临以下几个主要情况和挑战: ①数据交互: 许多应用程序需要从服务器获取数据,例…

taos数据库服务器安装

涛思数据库服务器安装分为两种情况 一。新服务器直接安装(非常好) 二。旧服务器删除后删除干净再安装(麻烦得很) 先来讲解一下情况一: 找需要的taos安装版本链接:https://docs.taosdata.com/releases/tde…

基于springboot实现体育馆管理系统项目【项目源码+论文说明】

基于springboot实现体育馆管理系统演示 摘要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本体育馆管理系统就是在这样的大环境下诞生,其可以帮助管理…

如何阅读:一个已被证实的低投入高回报的学习方法的笔记

系列文章目录 如何有效阅读一本书笔记 如何阅读:一个已被证实的低投入高回报的学习方法 麦肯锡精英高效阅读法笔记 读懂一本书笔记 文章目录 系列文章目录第一章 扫清阅读障碍破解读不快、读不进去的谜题一切为了阅读小学教师让你做,但中学老师阻止你做的…

Python - Excel拆分详解(按工作表、行、列、内容拆分)

目录 引言 安装Python Excel库 Python按工作表拆分Excel Python按行拆分Excel Python按列拆分Excel Python按内容拆分Excel 引言 拆分Excel文件是一种将大型工作簿分割为更小、更易管理的部分的有效方法。当面对包含大量数据或复杂信息的工作簿时,拆分文件可…

【Linux】25. 网络基础(一)

网络基础(一) 计算机网络背景 网络发展 独立模式: 计算机之间相互独立; 网络互联: 多台计算机连接在一起, 完成数据共享; 其实本质上一台计算机内部也是一个小型网络结构(如果我们将计算机内部某个硬件不存放在电脑中,而是拉根长长的线进行连接。这其实也就是网…

存储大作战:探索Local Storage与Session Storage的奥秘

欢迎来到我的博客,代码的世界里,每一行都是一个故事 存储大作战:探索Local Storage与Session Storage的奥秘 前言Local Storage与Session Storage简介数据存储生命周期容量限制安全性 前言 在Web的世界里,数据就像是一群流浪者&a…

C++ 递归函数

一 递归函数 递归函数(Recursive Function)即自调用函数,即在函数体内有直接或间接地自己调用自己的语句。 大多数递归函数都能够用非递归函数代替。 例如:求两个整数a,b的最大公约数。 算法描述: 大多数递归函数都能用非递归…

武汉星起航:亚马逊年终促销新策略——强化营销,优化体验赢未来

年终节日是电商平台的黄金销售期,也是各大电商平台竞相展示自身实力与智慧的重要舞台。作为全球电商巨头的亚马逊,自然也不例外。每年的年终节日,亚马逊都会推出一系列精彩纷呈的促销活动,吸引全球消费者的目光,实现销…

Vue 中 $nextTick 的作用是什么?

目录 一、NextTick是什么 为什么要有nexttick 二、使用场景 三、实现原理 一、NextTick是什么 官方对其的定义 在下次 DOM 更新循环结束之后执行延迟回调。在修改数据之后立即使用这个方法,获取更新后的 DOM 什么意思呢? 我们可以理解成&#xff0c…

web安全day03

MYSQL注入: SQL 注入的原理、危害及防御措施 SQL 注入的原理:原本的 SQL 语句在与用户可控的参数经过了如拼接、替换等字符串操作后,得到一个新的 SQL 语句并被数据库解析执行,从而达到非预期的效果。 SQL 注入的危害&#xff…

OpenAI泄密者加入马斯克xAI,技术版图扩张;OpenAI推出可识别DALL·E 3图像的AI检测工具

🦉 AI新闻 🚀 OpenAI泄密者加入马斯克xAI,技术版图扩张 摘要:最近,曾在OpenAI任职并被指控泄露机密的Pavel Izmailov迅速加入了马斯克旗下的xAI团队,成为研究员。在加入之前,Izmailov因涉嫌泄…

crossover不能生成容器 无法创建容器怎么办

CrossOver不能生成容器,我们应该先了解什么是容器,容器是盛放类虚拟机——CrossOver在macOS系统和Linux系统下载的win版软件的器皿。无法创建容器怎么办?无法创建多数情况是macOS系统与CrossOver不兼容所造成的。 首先,我们将介绍…

修图新风尚:AI技术赋能,Remini引领修图新纪元,从Remini到未来,AI修图如何改变我们的视觉世界?

最近一款名为Remini的AI修图软件凭借其独特的“丑萌”的黏土风格,迅速在海内外市场走红。 用户只需要上传一张照片,就可以利用AI技术生成对应的黏土滤镜风格的图像。 “黏土AI”风格的图像刷爆了今年的五一假期旅游照片“大赛”,在小红书、…

AI无人自动实景直播系统,挑战高效 实时 智能 全新的直播方式

随着科技的不断发展,人工智能(AI)已经涉足并改变了各个行业,直播领域也不例外。传统的直播方式依赖于真人主持和人工操作,而现在,AI无人自动实景直播系统的出现,正在挑战着传统直播的方式&#…

苹果iPad M4:Console级别图形和AI强大功能

苹果iPad M4:Console级别图形和AI强大功能 Apple近日发布了最新的M4芯片,旨在为iPad Pro系列带来明显的性能提升和电池续航时间延长。在本篇报道中,我们将详细介绍M4芯片的特点、性能改进和为创意专业人士带来的影响。 M4芯片的强大功能 …

【XR806开发板试用】SPI驱动数码管显示

准备工作 安装repo 创建repo安装目录。 mkdir ~/bin下载repo wget https://storage.googleapis.com/git-repo-downloads/repo -P ~/bin/改变执行权限 chmod ax ~/bin/repo设置环境变量,在~/.bashrc文件的最后输入 export PATH~/bin:$PATH和export REPO_URLhttps://…

STM32平衡车-MPU6050的DMP库移植

本文目录 一、硬件接线二、需要移植的三个文件夹1. DMP文件夹目录2. IIC文件夹目录3. MPU6050文件夹目录 三、文件内容IO12C.cIO12C.hMPU6050.cMPU6050.hmain.c 四、附录1.更改IIC引脚 一、硬件接线 SCL-- PA11 SDA-- PA12 VCC-- 3.3v GND-- GND 二、需要移植的三个文件夹 1.…

java-串口通讯-连接硬件

串口通信(Serial Communications)的概念非常简单,串口按位(bit)发送和接收字节。尽管比按字节(byte)的并行通信慢,但是串口可以在使用一根线发送数据的同时用另一根线接收数据。它很…

短视频矩阵系统源码saas开发--可视化剪辑、矩阵托管、多功能合一开发

短视频矩阵系统源码saas开发(可视化剪辑、矩阵托管、智能私信聚合、线索转化、数据看板、seo关键词、子账号等多个板块开发) 短视频矩阵系统是一种集成了多种功能的系统,旨在帮助用户在短视频平台上进行高效的内容创作、管理和发布。根据您提…