自动驾驶占据感知的综述:信息融合视角

24年5月香港理工的论文“A Survey on Occupancy Perception for Autonomous Driving: The Information Fusion Perspective“。

3D 占据感知技术旨在观察和理解自动驾驶车辆的密集 3D 环境。该技术凭借其全面的感知能力,正在成为自动驾驶感知系统的发展趋势,受到工业界和学术界的高度关注。与传统的鸟瞰(BEV)感知类似,3D占据感知具有多源输入的性质和信息融合的必要性。然而,不同之处在于它捕获了 2D BEV 忽略的垂直结构。

该综述回顾了 3D 占据感知的最新研究成果,并对各种输入模态的方法进行了深入分析。具体来说,总结了通用网络流水线,重点介绍了信息融合技术,并讨论了有效的网络训练。在最流行的数据集上评估和分析最先进的占据感知性能。此外,还讨论了挑战和未来的研究方向。

参考文献列表:https://github.com/HuaiyuanXu/3D-Occupancy-Perception。

如图所示是一个自动驾驶车辆系统框图。来自摄像头、激光雷达和雷达的传感数据使车辆能够智能地感知周围环境。随后,智能决策模块生成驾驶行为的控制和规划。占据感知在3D理解、密度和无遮挡方面超越了基于透视图、鸟瞰图或点云空间的感知。

请添加图片描述
占据感知源自占据网格映射(OGM)[21],这是移动机器人导航中的经典主题,旨在从噪声和不确定的测量中生成网格图。该地图中的每个网格都分配有一个值,该值对网格空间被障碍物占据的概率进行评分。语义占据感知源自 SUNCG [22],它从单个图像预测室内场景中所有体素的占据状态和语义。然而,与室内场景相比,研究室外场景的占据感知对于自动驾驶来说是必要的。 MonoScene [23] 是仅使用单目相机进行室外场景占据感知的开创性工作。与 MonoScene 同期,特斯拉在 CVPR 2022 自动驾驶研讨会上宣布了其全新的仅摄像头占据网络[24]。这个新网络根据环视 RGB 图像全面了解车辆周围的 3D 环境。随后,占据感知引起了广泛关注,促进了近年来自动驾驶占据感知研究的激增。

早期的户外占据感知方法主要使用激光雷达输入来推断 3D 占据情况 [25,26,27]。然而,最近的方法已经转向更具挑战性的以视觉为中心的 3D 占据预测 [28,29,30,31]。目前,占据感知研究的主导趋势是以视觉为中心的解决方案,辅以以激光雷达为中心的方法和多模态方法。占据感知可以作为端到端自动驾驶框架内 3D 物理世界的统一表示 [7, 32],随后是涵盖检测、跟踪和规划等各种驾驶任务的下游应用程序。占据感知网络的训练很大程度上依赖于密集的 3D 占据标签,从而导致了多样化街景占据数据集的发展 [10,9,33,34]。最近,利用大模型的强大性能,大模型与占据感知的集成在减轻繁琐的 3D 占据注释的需求方面显示出了希望[35]。

下表详细介绍了自动驾驶占据感知的最新方法及其特征。 该表详细说明了每种方法的发布地点、输入方式、网络设计、目标任务、网络训练和评估以及开源状态。根据输入数据的形式将占据感知方法分为三种类型:以激光雷达为中心的占据感知、以视觉为中心的占据感知和多模态占据感知。
请添加图片描述
其中
模态:C——相机; L——激光雷达; R——雷达。
特征格式:Vol - 体积特征; BEV——鸟瞰图特征; PV - 透视图特征; TPV - 三透视视图特征。
轻量级设计:TPV Rp - 三透视视图表征;稀疏 Rp - 稀疏表征。
头:MLP+T - 多层感知器接着加阈值。
任务:P——预测; F——预测; OP——开放词汇预测; PS - 全景分割。
损失:[几何] BCE - 二元交叉熵,SIL - 尺度不变对数,SI - Soft-IoU; [语义]CE - 交叉熵,PA - 位置感知,FP - 平截头体比例,LS - Lovasz Softmax,Foc - 焦点; [语义和几何] Aff - 场景-类别亲和,MC - 掩码分类; [一致性] SC - 空间一致性,MA - 模态对齐,Pho - 光度一致性;【蒸馏】KD——知识蒸馏。

如图所示:占据感知的架构,(a)激光雷达为中心网络:2D 分支 [68, 72], 3D 分支 [10, 25], 2D-3D 分支 [27];(b)视觉为中心网络,无时域融合 [28, 35, 75, 69, 33, 29, 89, 81, 76, 77] 和带时域融合 [73, 7, 53, 9, 79, 4];(c)多模态网络:点云和图像 [10, 87, 11, 14, 88]。
请添加图片描述
以 激光雷达 为中心的语义分割 [90,91,92] 仅预测稀疏点的语义类别。相比之下,以 激光雷达 为中心的占据感知提供了对环境的密集 3D 了解,这对于自动驾驶系统至关重要。对于激光雷达传感,获取的点云本质上是稀疏的,并且会受到遮挡。这要求以激光雷达为中心的占据感知不仅能够解决场景从稀疏到密集的占据推理,而且能够实现目标从部分到完整估计[11]。
图(a) 说明了以 激光雷达 为中心的占据感知一般流程。输入点云首先进行特征提取和体素化,然后通过编码器-解码器模块进行表示增强。最终推断出场景的完整且密集的占据。

受特斯拉自动驾驶汽车感知系统技术的启发[24],以视觉为中心的占据感知已经引起了工业界和学术界的广泛关注。与以激光雷达为中心的方法相比,仅依赖于摄像头传感器的以视觉为中心占据感知代表了当前的趋势。主要有以下三个原因:(i)摄像头对于在车辆上大规模部署来说具有成本效益。 (ii) RGB 图像捕捉丰富的环境纹理,有助于理解场景和目标,例如交通标志和车道线。 (iii) 深度学习技术的迅速发展使得从 2D 视觉实现 3D 占据感知成为可能。以视觉为中心的占据感知可分为单目解决方案[97,51,23,48,49,30,52,82,78]和多摄像头解决方案[50,98,28,35,58,73, 95、29、75、7]。多摄像头感知覆盖了更广泛的视野,遵循如图 (b )所示的一般流程。它首先从多摄像头图像中提取前视图特征图,然后进行 2D 到 3D 转换、空间信息融合和可选的时间信息融合,最后得到一个推断环境 3D 占据的占据头。

如下是视觉占据网络的主要架构组件图:(a)2D-3D转换;(b)空域信息融合;(c)时域信息融合。
请添加图片描述
摄像头捕获的RGB图像提供了丰富而密集的语义信息,但对天气条件变化敏感且缺乏精确的几何细节。相比之下,激光雷达或雷达的点云对天气变化具有鲁棒性,并且擅长通过精确的深度测量来捕获场景几何形状。然而,它们只产生稀疏特征。多模态占据感知可以结合多种模态的优点,并减轻单模态感知的局限性。上上图(c)说明多模态占据感知的一般流程。大多数多模态方法[10,87,11,14]将2D图像特征映射到3D空间,然后将它们与点云特征融合。此外,在融合过程中结合二维透视图特征可以进一步细化表征[13]。融合表征由可选的细化模块和占据头(例如 3D 卷积或 MLP)进行处理,以生成最终的 3D 占据预测。可选的细化模块[88]可以是交叉注意力、自注意和扩散去噪的组合[108]。

如下表是多模态3-D占据数据集:
请添加图片描述
如下表是3D占据网络感知在SemanticKitti测试集的性能比较:
请添加图片描述
如下表是Occ3D-nuScenes数据集的3D占据感知性能:

请添加图片描述

存在的一些挑战性问题:

3D占据感知能够全面了解3D世界并支持自动驾驶中的各种任务。现有的基于占据的应用程序包括分割、检测、交通预测和规划。 (1)分割:语义占据感知本质上可以被视为3D语义分割任务。 (2)检测:OccupancyM3D [5]和SOGDet [133]是两个基于占据的实现3D目标检测的工作。 OccupancyM3D 首先学习占据率来增强 3D 特征,然后将其用于 3D 检测。 SOGDet 开发了两个并发任务:语义占据预测和 3D 目标检测,同时训练这些任务以相互增强。 (3)交通预测:Cam4DOcc[9]从占据的角度预测3D空间中的前景交通,并实现对周围3D环境变化的理解。 (4)规划:OccNet[7]将物理3D场景量化为语义占据,并训练共享占据描述符。该描述符被馈送到各个任务头以实现驾驶任务。例如,运动规划头输出自车的规划轨迹。
然而,现有的基于占据的应用主要关注感知层面,较少关注决策层面。鉴于3D占据比其他感知方式(例如鸟瞰感知和透视感知)更符合3D物理世界,3D占据在自动驾驶中拥有更广泛的应用机会。在感知层面,它可以提高现有轨迹预测、3D目标跟踪和3D车道线检测的准确性。在决策层面,它可以帮助做出更安全的驾驶决策,并为驾驶行为提供 3D 可解释性。

对于复杂的3D场景,总是需要处理和分析大量的点云数据或多视图视觉信息,以提取和更新占据状态信息。为了实现自动驾驶应用的实时性能,解决方案通常需要在有限的时间内完成计算,并且需要具有高效的数据结构和算法设计。一般来说,在目标边缘设备上部署深度学习算法并不是一件容易的事。

目前,已经尝试了一些关于占据任务的实时工作。例如, [76]提出了一种解决方案FastOcc,基于输入分辨率、视图转换模块和预测头的调整来加速预测推理速度。[96]提出了SparseOcc,一种没有任何密集3D特征的稀疏占据网络,以最小化基于稀疏卷积层和掩码引导稀疏采样的计算成本。[84]提出采用稀疏潜表示代替TPV表示和稀疏插值操作,以避免信息丢失并降低计算复杂度。然而,上述方法距离自动驾驶系统的实时部署还有一段距离。

在动态且不可预测的现实驾驶环境中,感知鲁棒性对于自动驾驶车辆的安全至关重要。最先进的 3D 占据模型可能容易受到分布外场景和数据的影响,例如照明和天气的变化(这会引入视觉偏差)以及输入图像模糊(这是由车辆移动引起的)。此外,传感器故障(例如帧和相机视图丢失)也很常见。鉴于这些挑战,研究强大的 3D 占据感知非常有价值。

然而,对鲁棒 3D 占据的研究是有限的,主要是由于数据集的稀缺。最近,ICRA 2024 RoboDrive 挑战赛 [134] 为研究稳健的 3D 占据感知提供了不完善的场景。稳健 BEV 感知的相关工作 [135,136,137,138,44,45]可以启发稳健占据感知的研究。 M-BEV [136]提出随机掩码和重建相机视图,以增强各种丢失相机情况下的鲁棒性。 GKT [137] 采用粗投影来实现鲁棒的 BEV 表征。在大多数涉及自然损坏的场景中,多模态模型[138,44,45]通过多模态输入的互补性优于单模态模型。此外,在3D LiDAR感知中,Robo3D[139] 将知识从具有完整点云的教师模型提炼到具有不完善输入的学生模型,从而增强了学生模型的鲁棒性。基于这些工作,实现稳健的 3D 占据感知可以包括但不限于稳健的数据表示、多种模态、网络架构和学习策略。

3D 标注成本高昂,而且对现实世界进行大规模 3D 标注是不切实际的。在有限的 3D 标记数据集上训练的现有网络泛化能力尚未得到广泛研究。为了摆脱对 3D 标签的依赖,自监督学习代表了通向广义 3D 占据感知的潜在途径。它从大量未标记的图像中学习占据感知。然而,当前自监督的占据感知的性能[81,35,85,28]很差。在 Occ3D-nuScene 数据集上(见表 4),自监督方法的最高准确度大幅低于强监督方法。此外,当前的自监督方法需要使用更多数据进行训练和评估。因此,增强自监督广义 3D 占据感知是未来的一个重要研究方向。

此外,当前的 3D 占据感知只能识别一组预定义的目标类别,这限制了其通用性和实用性。大语言模型(LLM)[140,141,142,143]和大视觉-语言模型(LVLM)[144,145,146,147,148]的最新进展展示了推理和视觉理解有前途的能力。事实证明,集成这些预训练的大模型可以增强感知的泛化能力[8]。 POP-3D [8] 利用强大的预训练视觉-语言模型 [148] 来训练其网络,并实现开放词汇 3D 占据感知。因此,采用 LLM 和 LVLM 对于实现广义 3D 占据感知来说是挑战也是机遇。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/622676.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

简单实现---基于STL的演讲比赛流程管理系统(C++实现)

前言 事先声明:本文章中编写的代码仅用于学习算法思想和编写基础形式使用,并未进行太多的代码优化,因此,若需要对代码进行优化以及异常处理的小伙伴们,可自行添加相关操作,谢谢! 一、题…

绘图软件 excalidraw 部署流程 [ Ubuntu 22.4已验证 ]

文章目录 前置一、修改DNS二、添加docker 镜像三、pull excalidraw/excalidraw四、启动一个docker五、访问 简介:这篇文章介绍的是一份开源的绘图软件的部署过程 前置 安装docker:Ubuntu 系统,Docker 安装步骤 [Ubuntu 22.4已验证] 其他系…

回炉重造java----JVM

为什么要使用JVM ①一次编写,到处运行,jvm屏蔽字节码与底层的操作差异 ②自动内存管理,垃圾回收功能 ③数组下边越界检查 ④多态 JDK,JRE,JVM的关系 JVM组成部分 JVM的内存结构 《一》程序计数器(PC Register) 作用…

谷歌Gboard应用的语言模型创新:提升打字体验的隐私保护技术

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

浦语大模型笔记

书生浦语大模型全链路开源体系 浦语大模型全链路开源体系大模型成为发展通用人工智能的重要途径书生浦语 2.0(InternLM2)核心理念书生浦语 2.0(InternLM2)的主要亮点主要亮点 1:超长上下文支持主要亮点 2:性…

网络库-libevent介绍

1.简介 libevent是一个事件驱动的网络库,主要用于构建可扩展的网络服务器。它提供了跨平台的API,支持多种事件通知机制,如select、poll、epoll、kqueue等。 主要组件 event: 表示一个具体的事件,包括事件类型、事件回调等。eve…

大模型管理工具:SWIFT

目录 一、SWIFT 介绍 二、SWIFT 安装 2.0 配置环境(可选) 2.1 使用pip进行安装 2.2 源代码安装 2.3 启动 WEB-UI 三、部署模型 3.0 deploy命令参数 3.1 原始模型 3.2 微调后模型 一、SWIFT 介绍 SWIFT(Scalable lightWeight Infrastructure for Fine-Tuni…

golang创建式设计模式------单例模式

目录导航 1.单例模式1)什么是单例模式 2)使用场景3)实现方式1.懒汉式单例模式2.饿汉式3.双重检查式4.sysc.Once式 4)实践案例5)优缺点分析 1.单例模式 1)什么是单例模式 单例模式(Singleton Pattern)是一种常用的设计模式。单例模式的类提供了一种访问其唯一对象的方法&#…

UML快速入门篇

目录 1. UML概述 2. 类的表示 2.1. 类的表示 2.2. 抽象类的表示 2.3. 接口的表示 3. 类的属性,方法,访问权限的表示 3.1. 类的属性 3.2. 类的方法 3.3. 类的权限 4. 类的关联 4.1. 单向关联 4.2. 双向关联 4.3. 自关联 4.4. 类的聚合 4.5.…

sipeed 的 MaixCam显示图片

WiFi联网后,把固件升级到最新 一根tpyc-c连接线为MaixCam供电,点击液晶屏settings 在WiFi中设置确保联网,在更新MaixPy中升级固件 可以选择国内源加速,将固件升级到最新版 MaixVision的操作 1,在MaixVision左下角…

C语言(指针)6

Hi~!这里是奋斗的小羊,很荣幸各位能阅读我的文章,诚请评论指点,关注收藏,欢迎欢迎~~ 💥个人主页:小羊在奋斗 💥所属专栏:C语言 本系列文章为个人学习笔记&#x…

StackQueue+泛型简单理解

🍁 个人主页:爱编程的Tom💫 本篇博文收录专栏:Java专栏👉 目前其它专栏:c系列小游戏 c语言系列--万物的开始_ 🎉 欢迎 👍点赞✍评论⭐收藏💖三连支持一…

新的语言学习系统: 记忆镶嵌

摘要 记忆镶嵌是由多个关联记忆网络协同工作来完成感兴趣的预测任务。与transformer类似,记忆镶嵌具有组合能力和上下文学习能力。与transformer不同,记忆镶嵌以相对透明的方式实现这些能力。该研究在玩具示例上展示了这些能力,并且还表明记忆镶嵌在中等规模语言建模任务上的表…

JVM调优:JVM运行时数据区详解

一、前言 Java运行时数据区域划分,Java虚拟机在执行Java程序时,将其所管理的内存划分为不同的数据区域,每个区域都有特定的用途和创建销毁的时间。 其中,有些区域在虚拟机进程启动时就存在,而有些区域则是随着用户线程…

YOLOv9-20240507周更说明|更新MobileNetv4等多种轻量化主干

专栏地址:目前售价售价69.9,改进点70 专栏介绍:YOLOv9改进系列 | 包含深度学习最新创新,助力高效涨点!!! 本周已更新说明: ### ⭐⭐更新时间:2024/5/12⭐⭐ 1. YOLOv9…

企业网站HTTP网站业务被慢连接攻击了该怎么办

企业的网站建设中遇到网络攻击会出现哪些问题?一些中小型企业对于网络安全的认知不足,网站建设种类众多,电子商城类,小型游戏,支付类型,H5页面的网站,开发等等,如遇见网络攻击造成的…

ubuntu server 22.04.4 系统安装详细教程

本教程使用vmware workstation 17创建虚拟机进行安装演示,安装方式和真机安装没有区别。 1、下载镜像 下载ubuntu server版本系统镜像,官网下载地址:https://cn.ubuntu.com/download/server/step1 注意:自己下载时需要确认是否是…

ARP中间人

文章目录 ARP中间人ARP协议介绍使用kali进行ARP毒化使用kali进行ARP中间人使用kali进行ARP钓鱼ARP攻击防御ARP总结 ARP中间人 ARP协议介绍 维基百科ARP介绍 ARP(地址解析协议)在网络通信中扮演着至关重要的角色,它通过将网络层地址&#x…

运维基础(二)- 钉钉的使用

一、钉钉的介绍(来自百度百科) 免费沟通和协同的多端平台 帮助中国企业通过系统化的解决方案(微应用),全方位提升中国企业沟通和协同效率。 钉钉(Ding Talk) 是阿里巴巴打造的企业级智能移动…

Windows环境下代码文档生成工具Doxygen使用详细教程

背景 最近研究aom源码,发现编译需要依赖Doxygen工具,故此篇博客详细记录下Doxygen的安装和使用。 Doxygen Doxygen 是一个强大的源代码文档生成工具,它支持多种编程语言,能够直接从源代码中的注释提取文档,并生成多…