高精地图是怎么构建的?方案有哪些?高精度语义地图构建的一点思考

高精地图是怎么构建的?方案有哪些?高精度语义地图构建的一点思考

高精度(High-Definition, HD)语义地图是目前自动驾驶领域的一个重要研究方向,近年随着Transformer和BEV的大火,很多大佬团队都开展了HD语义地图构建相关的工作。2021年7月,清华大学MARS实验室提出了HDMapNet。紧随其后,同一团队又在今年6月公开了后续工作VectorMapNet。同时,MIT和上海交通大学也在今年5月提出了BEVFusion。今年11月底的时候,苏黎世联邦理工学院、毫末、国防科大、阿尔托大学又联合开发了SuperFusion。这四种方案基本上就是目前HD地图构建的主流方案。

本文将带领读者深入探讨这四种方案的优势与不足,通过对比方案来思考HD地图构建的重点与难点。当然笔者水平有限,如果有理解错误的地方欢迎大家一起讨论,共同学习。

温馨提示,本文讨论的方案都是开源的,各位读者可以在这些工作的基础上开展自己的研究!文末附原文链接和代码链接!

image

附赠自动驾驶学习资料和量产经验:链接

1. 为什么自动驾驶都要做BEV感知?

先说答案:因为自动驾驶要求的是空间感知

单纯的前视摄像头输入,看到的只是有限视角内的画面。而自动驾驶任务要求的是对车辆周围整体空间范围内的感知,因此往往需要对输入的环视相机/激光雷达进行投影,转到BEV视角下进行HD地图的构建。

那么BEV感知的难点是什么呢?

在自动驾驶的车道线检测、可行驶区域检测等任务中,都是针对前视摄像头输入进行逐像素的分割/检测,每个输入像素都对应一个输出类别。这种一一对应的关系使得我们可以很容易得应用CNN/Transformer模型进行分割/检测。

但自动驾驶BEV感知已经不仅仅是2D感知问题,在空间变换的过程中像素很有可能发生畸变!比如,前视摄像头中的车辆,转换到BEV视角下可能已经不是车辆的形状了!再比如,前视摄像头中相邻很近的两个物体,转换到BEV视角下变得相隔很远。

image

既然如此,可不可以先针对图像进行分割处理,然后再投影到BEV视角呢?

理论上来说这是一个很好的解决思路,避免了三维物体在投影过程中产生的畸变,但在实际操作过程中,会发现很容易造成多相机之间的不一致问题

image

因此,需要直接针对BEV空间进行处理以构建HD地图!此外,BEV空间也使得相机和雷达的融合变得简单。

2. 传统的HD语义地图构建有什么问题?

先说说传统的HD地图构建方案:

基本上目前SLAM的落地方案都是分成两部分,一个是配备高精度传感器的地图采集车,用于对环境信息进行高精度的采集和处理,一个是乘用车,也就是大家所熟知的SLAM中的仅定位。

具体思路是,首先利用高精度传感器(雷达/IMU/相机/GPS/轮速计)在园区上来回往复运行,得到带有回环的轨迹以后基于SLAM方法获得全局一致性地图,后面交友标注员进行手工处理,得到静态HD地图。后面的乘用车就是将自身提取到的特征和前面构建的HD地图进行特征匹配,进行仅定位。

这么做有什么问题呢?

(1) 整体的Pipeline非常长,导致工艺流程非常繁琐。

(2) 手工标注需要消耗大量人力。不知道大家有没有手动打深度学习标签的经历,真的是非常痛苦。

(3) 需要在实际运行过程中更新地图。我认为这也是最重要的一点,上述基于手工方法构建的HD地图是完全的静态地图,但实际运行场景必然与之前构建的地图有所区别(比如某个车移动了位置,某个箱子转运到了其他位置)。所以乘用车在实际运行过程中需要实时更新并存储HD地图,这也是个非常繁琐的课题。但基于学习的端到端的方案是可以解决这一问题的,虽然从目前来看基于学习的方案在精度上还稍有不足,但相信这一问题可以很快被解决。

image

我们希望实现什么效果呢?

(1) 简单,最好是端到端的网络架构。

(2) 自动、在线得构建HD地图。

(3) 能够不受动态环境影响,直接构建HD地图。

3. 清华大学开源HDMapNet

清华大学2021年7月开源的HDMapNet,其主要思路是输入环视相机和雷达点云,将相机和雷达点云分别进行特征提取后投影到BEV空间,在BEV空间里进行特征融合。注意,在BEV空间里进行特征融合是非常有优势的!之后,便是在BEV空间内进行解码。解码器共有三个输出,第一是地图的语义分割结果,里面包含了地图里哪个是车道线、哪个是路标、哪个是人行横道线。第二是实例Embedding,里面包含了实例信息,主要表达车道线和车道线直接、路标和路标之间的实例区分。第三是方向信息,主要表达了HD地图中每条线的方向。最后,语义分割HD地图首先和实例Embedding进行融合,得到实例化的HD地图,并融合方向信息以及NMS得到矢量化的HD地图。

image

需要特别注意的是,HDMapNet并不一定需要做多传感器融合,纯相机或者纯雷达也是可以基于HDMapNet构建HD地图,只是效果相对要弱一些。HDMapNet的结果显示,相机对于车道线、人行横道线这种视觉纹理丰富的特征识别的较好,雷达对于路沿这种物理边界的效果更好。但纯相机或纯雷达的操作真的给一些经费受限的小伙伴带来了福音!

image

一句话总结:HDMapNet实现了多模态BEV视角下的HD地图构建

4. 清华大学后续工作VectorMapNet

我们可以发现,HDMapNet的重点在于BEV空间下的特征提取。但问题是,这个Pipeline仍然有点长了,有没有更加端到端的方案?也就是说,直接输入图像和雷达,经过某个深度神经网络,直接输出HD地图。为解决这个问题,清华大学MARS实验室今年6月又开源了新的工作VectorMapNet。

他们的思路是啥?

(1) 需要找到一种更合适的图形来表示HD地图,MARS实验室认为折线更有利于HD地图的表达。此外,谷歌2020年的CVPR论文VectorNet: Encoding HD Maps and Agent Dynamics from Vectorized Representation也提出了这种用折线来表达HD地图的方案,谷歌官方没有开源,但Github上有Pytorch实现-Trajectory-Prediction,感兴趣的小伙伴可以复现一下,但目前该网络仍然需要非常大的显存(128G+)。

(2) 之前的HDMapNet还是处理的分割问题,但如果将分割问题转换为检测问题,会更有利于矢量地图的构建。(3) 基于DETR进行开发有利于HD地图的构建。

image

image

其实,VectorMapNet的网络架构就是三个部分:投影、检测、生成。投影就类似HDMapNet,将输入的相机和雷达转换到BEV视角,得到BEV特征图。检测就是提取HD地图元素,具体来说就是基于Query来提取关键点,这里的关键点可以是车道线的起点、终点、中间点。这个检测的思想其实非常巧妙,它没有在中间过程就得到非常多的输出点,而是选取了更简洁更统一化的表示!生成就是指得到折线化矢量化的HD地图,也是一个自回归模型,具体思路也是基于Transformer回归每个顶点坐标。

虽然整体来看架构有些复杂,但这个网络是直接端到端的,有利于训练和应用。笔者个人感觉,VectorMapNet的一个更有意思的点在于,它是一个端到端的多阶段网络。也就是说,网络不再是一个完全的黑盒子。如果网络的输出结果出现漏检/误检,那么我们可以打印出中间的关键点,看看具体是哪一个阶段出现了问题。

image

结果显示,VectorMapNet这种基于检测的方案性能远超HDMapNet。例如在人行横道上的预测AP提升了几乎32个点,在整体的mAP上也提升了22.7个点。

image

从定性结果也可以看出,VectorMapNet对于细节的把握是非常好的。HDMapNet和STSU经常出现漏检,但VectorMapNet很少。在Ground Truth上的车道线有时会出现一些细小的波折,HDMapNet和STSU很难检测出来,但VectorMapNet提取的HD地图轮廓与真值更吻合。

说到这里,也肯定有小伙伴关心VectorMapNet端到端方案和HDMapNet后处理方案之间的优劣。可以发现的是,HDMapNet在进行一些后处理时,很容易将一条检测线检测为两条,这主要是由于分割过程中对于车道线的分割结果过宽导致的。在实际使用中,这种将一条车道线检测为两条的结果会导致很严重的问题。这也说明了基于检测的HD地图方案要优于基于分割的HD地图方案。

image

不仅如此,VectorMapNet更强大的地方在于,它甚至可以检测出来未标注的车道线!从下图可以看出,在原始的数据集中漏标了一条车道线,HDMapNet无法检测出来,但VectorMapNet却输出了这一结果。

image

一句话总结:VectorMapNet基于检测思路优化了HDMapNet

5. MIT&上交&OmniML开源BEVFusion

这篇文章大家就都比较熟悉了, MIT韩松团队开源的BEVFusion,文章题目是BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation。注意和NeurIPS 2022论文BEVFusion: A Simple and Robust LiDAR-Camera Fusion Framework要区分开。

单从网络架构上来看,感觉和HDMapNet原理非常类似,都是先从相机、雷达输入分别提取特征并投影到BEV空间,然后做BEV视角下的解码,输出结果不太相同,BEVFusion除了HD地图外还输出了3D目标检测的结果。

这篇文章其实解答了困惑我很久的一个问题,就是为什么不先把图像投影到雷达,或者雷达投影到图像,然后再一起转到BEV空间下,而是要分别提取特征再到BEV空间下进行特征融合。这是因为相机到激光雷达的投影丢掉了相机特征的语义密度,对于面向语义的任务(如三维场景分割)有非常大的影响。

image

image

感觉BEVFusion的主要创新点还是基于BEV池化提出了两个效率优化方法:预计算与间歇降低。

预计算:

BEV池化的第一步是将摄像头特征点云的每个点与BEV网格相关联。与激光雷达点云不同,摄像头特征点云的坐标是固定的。基于此,预计算每个点的3D坐标和BEV网格索引。还有根据网格索引对所有点进行排序,并记录每个点排名。在推理过程中,只需要根据预计算的排序对所有特征点重排序。这种缓存机制可以将网格关联的延迟从17ms减少到4ms。

间歇降低:

网格关联后,同一BEV网格的所有点将在张量表征中连续。BEV池化的下一步是通过一些对称函数(例如,平均值、最大值和求和)聚合每个BEV网格内的特征。现有的实现方法首先计算所有点的前缀和,然后减去索引发生变化的边界值。然而,前缀和操作,需要在GPU进行树缩减(tree reduction),并生成许多未使用的部分和(因为只需要边界值),这两种操作都是低效的。为了加速特征聚合,BEVFusion里实现一个专门的GPU内核,直接在BEV网格并行化:为每个网格分配一个GPU线程,该线程计算其间歇和(interval sum)并将结果写回。该内核消除输出之间的依赖关系(因此不需要多级树缩减),并避免将部分和写入DRAM,从而将特征聚合的延迟从500ms减少到2ms。

通过优化的BEV池化,摄像头到BEV的转换速度提高了40倍:延迟从500ms减少到12ms(仅为模型端到端运行时间的10%),并且可以在不同的分特征辨率之间很好地扩展。

image

输出结果也很漂亮:联合实现了3D目标检测和语义地图构建。

image

一句话总结:BEVFusion大幅降低了计算量

6. 苏黎世联邦理工开源SuperFusion

说实话,这项工作感觉非常惊艳!

HDMapNet和VectorMapNet的指导老师赵行教授也表示过,现有的基于学习的HD地图构建方案的主要问题在于,所构建的HD地图仍然是短距离地图,对于长距离表达还有一些不足。而SuperFusion这项工作就专门解决了这个长距离HD建模问题,它可以构建90m左右的HD地图,而同年提出的HDMapNet建模长度也不过30m。

如下图所示,红色汽车代表汽车当前的位置,蓝色星星代表目标。结果显示,SuperFusion在生成短程(30 m)的HD语义地图基础上,预测高达90 m距离的远程HD语义地图。这给自动驾驶下游路径规划和控制模块提供了更强平稳性和安全性。

image

SuperFusion整体的网络结构是利用雷达和相机数据在多个层面的融合。在SuperFusion中体现了三种融合策略:

数据层融合:融合雷达的深度信息以提高图像深度估计的精度。

特征层融合:使用交叉注意力进行远距离的融合,在特征引导下进行BEV特征预测。

BEV级融合:对齐两个分支,生成高质量的融合BEV特征。

最后,融合后的BEV特征可以支持不同的头部,包括语义分割、实例嵌入和方向预测,进行后处理生成高清地图预测。

image

定性和定量结果也表明,SuperFusion相较于其他HD语义地图构建方案来说,性能提升很明显,尤其是长距离建模。这种长距离建模能力使得SuperFusion更有利于自动驾驶下游任务。

image

image

一句话总结:SuperFusion实现了长距离HD语义地图构建

7. 结论

本文带领读者探讨了自动驾驶任务中的HD语义地图构建的主要问题,并介绍了4种主流的HD语义地图构建方案,分别是清华大学开源的HDMapNet和VectorMapNet、MIT&上交开源的BEVFusion、苏黎世联邦理工&毫末&国防科大&阿尔托开源的SuperFusion。四种方案主要都是在nuScenes上进行评估的,其中HDMapNet和VectorMapNet主要解决的是如何端到端的实现HD地图构建问题,BEVFusion主要解决的是计算效率问题,SuperFusion主要解决的是长距离HD地图构建问题。四种方案的底层架构其实都是Transformer,这也说明了Transformer在多模态和CV领域的影响力越来越大了。其实,现有的HD语义地图中表达的语义信息也都是像车道线、人行横道线的这种低级语义。笔者个人认为,在未来,HD语义地图的发展趋势是提取更高级别的语义,比如车辆识别到了一个正在横穿马路的行人,我们想知道的不仅仅是马路上有个人,我们更想让自动驾驶车辆理解的是,这个人的具体意图是什么。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/595808.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

外贸企业邮箱是什么?做外贸企业邮箱哪个好?

外贸企业邮箱是什么?外贸企业在进行跨国沟通时必不可少的工具就是外贸企业邮箱,外贸企业邮箱需要具备的条件就是海外邮件抵达率高、安全稳定、多语言沟通。而我们又怎么选择一个适合的外贸企业邮箱呢?小编今天带您一起了解。 一、外贸企业邮…

小工具 - 用Astyle的DLL封装一个对目录进行代码格式化的工具

文章目录 小工具 - 用Astyle的DLL封装一个对目录进行代码格式化的工具概述笔记效果编译AStyle的DLL初次使用接口的小疑惑测试程序 - 头文件测试程序 - 实现文件测试程序 - RC备注END 小工具 - 用Astyle的DLL封装一个对目录进行代码格式化的工具 概述 上一个实验(vs2019 - ast…

AI 不仅会画画,还能造车 | 最新快讯

本周的北京,正在上演一场深刻的变革。 汽车产业,这个曾经以工业制造为核心的行业,正迅速地被数字化浪潮所改变,汽车、电商、互联网、人工智能等领域的界限变得模糊。在这样的背景下,车企们纷纷开始打破传统&#xff0c…

软考-系统集成项目管理中级--常见计算题考点汇总

1、决策树和期望货币价值(决策树、表)---风险管理 很简单的题目,如下题目我们不再讲解。相信大家听了基础课都会做如果不会做,建议再听下基础课。 有点难度的题目,请大家先做,如果有疑问,可以听课(课程私信…

Django高级表单处理与验证实战

title: Django高级表单处理与验证实战 date: 2024/5/6 20:47:15 updated: 2024/5/6 20:47:15 categories: 后端开发 tags: Django表单验证逻辑模板渲染安全措施表单测试重定向管理最佳实践 引言: 在Web应用开发中,表单是用户与应用之间进行交互的重要…

Spring IoCDI(2)—IoC详解

目录 一、IoC详解 1、Bean的存储 (1)Controller(控制器存储) 获取bean对象的其他方式 Bean 命名约定 (2)Service(服务存储) (3)Repository&#xff08…

鸿蒙开发-ArkTS语言-容器

鸿蒙开发-UI-交互事件-键鼠事件 鸿蒙开发-UI-交互事件-焦点事件 鸿蒙开发-UI-交互事件-手势事件 鸿蒙开发-UI-web 鸿蒙开发-UI-web-页面 鸿蒙开发-ArkTS语言-基础类库 鸿蒙开发-ArkTS语言-并发 鸿蒙开发-ArkTS语言-并发-案例 文章目录 前言 一、容器类库概述 二、线性容器 1…

如何将视频转换成gif表情包?超简单的方法分享

把视频中的片段截取制作成gif动画表情包是现在网络中常见的制作图片的一种方法。Gif表情包能够调节聊天中的氛围,快速有趣的传递信息。也因为gif动图兼容性高、体积小便于分享所以在现在的网络中非常的收欢迎。接下来,小编就给大家分享一下怎么把视频转g…

Linux字符设备驱动(一) - 框架

字符设备是Linux三大设备之一(另外两种是块设备,网络设备),字符设备就是字节流形式通讯的I/O设备,绝大部分设备都是字符设备,常见的字符设备包括鼠标、键盘、显示器、串口等等,当我们执行ls -l /dev的时候,就能看到大量…

2024.05.06作业

自由发挥应用场景,实现登录界面。 要求:尽量每行代码都有注释。 #include "yuanshen.h"yuanshen::yuanshen(QWidget *parent): QWidget(parent) {//窗口相关设置this->resize(1600,910);this->setFixedSize(1600,910);//窗口标题this-…

管理能力学习笔记九:授权的常见误区和如何有效授权

授权的常见误区 误区一:随意授权 管理者在授权工作时,需要依据下属的能力、经验、意愿问最自己:这项工作适合授权给Ta做吗?如果没有,可以通过哪些方法进行培训呢? 误区二:缺乏信任 心理暗示…

腾讯崛起!2024年最赚钱的电商平台,竟然来自视频号

大家好,我是电商月月 说到卖货平台,这两年“抖音”绝对是所有人心里最赚钱的电商平台 抖音小店的商家利用抖店后台的“精选联盟”引流,不用自己直播,也能靠直播卖货赚的盆满钵满 于是好多平台都效仿抖店的直播卖货形式来获取更…

BGP的选路 :

前提条件 : 丢弃所有不可用的路由信息。 属性的名称 传播范围 默认值 评判标准 PV(优选值) 不传播 0(0-65535) 越大越优 LP(本地优先级) IBGP对等体 之间 100 越大越优 AS_PATH …

中间件研发之Springboot自定义starter

Spring Boot Starter是一种简化Spring Boot应用开发的机制,它可以通过引入一些预定义的依赖和配置,让我们快速地集成某些功能模块,而无需繁琐地编写代码和配置文件。Spring Boot官方提供了很多常用的Starter,例如spring-boot-star…

PMO全面指南:一文读懂PMO的功能、职责、类型、构建

多年来,PMO 的概念在多个行业和类型的组织中越来越受欢迎。一开始,只有大型跨国公司才熟悉它,但后来,许多中小型公司开始采用 PMO 来进行高效的项目管理并实现其战略目标。 根据Statista的数据,目前有80%的组织设有至…

企业网站 | 被攻击时该怎么办?

前言 每天,数以千计的网站被黑客入侵。发生这种情况时,被入侵网站可用于从网络钓鱼页面到SEO垃圾邮件或者其它内容。如果您拥有一个小型网站,很容易相信黑客不会对它感兴趣。不幸的是,通常情况并非如此。 黑客入侵网站的动机与所…

09_电子设计教程基础篇(电阻)

文章目录 前言一、电阻原理二、电阻种类1.固定电阻1、材料工艺1、线绕电阻2、非线绕电阻1、实心电阻1、有机实心电阻2、无机实心电阻 2、薄膜电阻(常用)1、碳膜电阻2、合成碳膜电阻3、金属膜电阻4、金属氧化膜电阻5、玻璃釉膜电阻 3、厚膜电阻&#xff0…

segformer部分错误

亲测有用 1、TypeError: FormatCode() got an unexpected keyword argument ‘verify‘ mmcv中出现TypeError: FormatCode() got an unexpected keyword argument ‘verify‘-CSDN博客 pip install yapf0.40.0 2、“EncoderDecoder: ‘mit_b1 is not in the backbone regist…

达梦数据库导入数据问题

进行数据导入的时候遇到了导入数据问题 第一个问题: 该工具不能解析此文件,请使用更高版本的工具 这个是因为版本有点低,需要下载最新的达梦数据库 第二个问题: (1)本地编码:PG_GBK, 导入文…

美特CRM upload.jsp 文件上传致RCE漏洞复现(CNVD-2023-06971)

0x01 产品简介 MetaCRM是一款智能平台化CRM软件,通过提升企业管理和协同办公,全面提高企业管理水平和运营效率,帮助企业实现卓越管理。美特软件开创性地在CRM领域中引入用户级产品平台MetaCRM V5/V6,多年来一直在持续地为客户创造价值,大幅提升了用户需求满足度与使用的满意…