南开大学联合同济大学发布最新SOTA Occ OPUS:使用稀疏集进行占据预测,最快实现8帧22FPS

Abstract

占据预测任务旨在预测体素化的 3D 环境中的占据状态,在自动驾驶社区中迅速获得了关注。主流的占据预测工作首先将 3D 环境离散化为体素网格,然后在这些密集网格上执行分类。然而,对样本数据的检查显示,大多数体素是未占据的。对这些空体素执行分类需要次优的计算资源分配,并且减少这些空体素需要复杂的算法设计。为此,我们提出了一个新的占据预测视角:将其公式化为简化的集合预测范式,无需显式的空间建模或复杂的稀疏化程序。我们提出的框架称为 OPUS,使用 transformer 编码器-解码器架构,通过一组可学习的查询同时预测占据位置和类别。首先,我们使用 Chamfer 距离损失将集合到集合的比较问题扩展到前所未有的规模,使得端到端训练此类模型成为可能。随后,使用基于学习位置的最近邻搜索自适应地分配语义类别。此外,OPUS 还引入了一系列非平凡策略来增强模型性能,包括粗到细学习、一致性点采样、自适应重加权等。最终,与当前最先进的方法相比,我们最轻量的模型在 Occ3D-nuScenes 数据集上以接近 2 倍的 FPS 达到了更高的 RayIoU,而我们最重的模型则在 RayIoU 上超越了之前的最佳结果 6.1。

代码获取:https://github.com/jbwang1997/OPUS

 欢迎加入自动驾驶实战群

Introduction

与已经成熟的框表示法相比,基于体素的占据预测能够为周围场景提供更精细的几何和语义信息。例如,使用边界框描述车门打开的车辆或支撑脚展开的起重机并不简单,而占据预测可以自然地描述这些不常见的形状。因此,占据预测在自动驾驶社区中迅速受到重视。

最近的方法大多依赖于密集数据表示,特征点与物理体素之间有直接的一对一对应关系。然而,大多数物理体素是空的。例如,在 SemanticKITTI 数据集中,约 67% 的体素是空的,而在 Occ3D-nuScenes 数据集中,这一比例超过 90%。这种占据数据的稀疏性使得直接密集表示极其低效,因为大多数计算资源都用于空体素。为缓解这种低效,研究人员探索了稀疏的潜在表示,例如三视角表示或缩减解空间的方法,显著减少了计算成本。然而,这些方法仍将占据预测视为在特定位置上的分类问题,导致需要复杂的中间设计和显式的 3D 空间建模。

在这项工作中,我们将任务公式化为直接的集合预测问题,在并行回归占据位置的同时对相应的语义标签进行分类。我们提出的框架 OPUS 利用 transformer 编码器-解码器架构,包括:(1)一个图像编码器从多视角图像中提取 2D 特征;(2)一组可学习的查询用于预测占据位置和语义类别;(3)一个稀疏解码器使用相关图像特征更新查询特征。我们的 OPUS 消除了显式空间建模或复杂稀疏化过程的需求,提供了一个简洁的端到端解决方案。

3.Method

在这一部分中,我们首先回顾当前基于查询的稀疏化方法用于占据预测(3.1节)。然后,3.2节描述了我们将任务视为直接集合预测问题的公式化。最后,我们在3.3节详细介绍了所提出的OPUS框架。

3.1 回顾基于查询的占据稀疏化

使用稀疏查询的Transformer为解决占据表示中的固有稀疏性提供了有前景的途径。减少查询数量的一种显著方法是将每个查询分配给一块体素,而不是单个体素,如PETRv2中提出的那样。然而,这种方法仍然对3D空间生成密集预测,因此未能有效解决冗余问题。另一方面,VoxFormer和SparseOcc则将稀疏查询仅分配给已占据的体素。VoxFormer采用深度估计模块来识别可能占据的体素,而SparseOcc则通过多个阶段逐步过滤出空区域。然而,它们的稀疏化过程依赖于准确识别体素的占据状态,因此容易累积误差。此外,它们的流程需要复杂的3D空间的中间描述,妨碍了无缝的端到端操作。

当前方法的困境主要来自于将任务视为分类问题,每个查询被限制在特定的物理区域内进行语义标签分类。这一限制严重限制了查询的灵活性,无法自适应地关注适合的区域。为了解决这个问题,我们提出允许每个查询自主确定其相关区域,从而消除这一限制。最终,我们将占据预测视为一个直接的集合预测问题,每个查询同时预测点的位置和语义类别。

3.2 集合预测问题

我们工作的核心在于将占据预测任务概念化为集合预测任务。我们将地面真值中占据的体素记为{Pg, Cg},其中|Pg| = |Cg| = Vg。对于{pg, cg} ∈ {Pg, Cg}中的每个条目,pg表示体素中心的3D坐标,而cg存储相应体素的语义类别。给定预测的{P, C},我们面临的主要挑战是设计有效的策略进行集合到集合的匹配。换句话说,我们必须确定如何使用地面真值数据来监督无序的预测。

一种方法是采用匈牙利算法。然而,之前的讨论和实验表明其扩展性有限。与其追求预测结果与地面真值之间的一对一匹配,我们认识到匹配的目的是在预测中获得准确的位置和类别。这促使我们将任务解耦为两个并行目标:(1)鼓励预测的位置准确且全面。(2)确保为预测的点分配正确的地面真值语义类别。

第一个目标专注于通过Chamfer距离损失对齐预测点和地面真值点的分布,这在点云领域中被广泛验证。公式如下:

图片

最小化Chamfer距离可以使预测与地面真值的分布相似,从而直接学习占据体素,而不需要知道其顺序。

关于第二个目标,尽管由于位置不同,直接比较C和Cg是无效的,但我们可以利用体素的空间局部性找到代理。属于同一物体的附近点通常具有相同的语义标签,因此我们建议为每个预测点分配其在地面真值中的最近邻体素的类别:

图片

这里,

图片

是更新后的类别,用于监督预测的C的学习。

值得注意的是,公式(1)和(2)的计算可以高效并行地在GPU设备上执行。因此,单次匹配可以在毫秒内快速处理,从而将占据预测任务视为直接集合预测问题的大规模训练变为可行。接下来,我们详细讨论所提出的OPUS框架的具体细节。

3.3 OPUS的详细说明

这一部分描述了OPUS框架,如图2所示。首先,从多视角图像中提取图像特征。接着,初始化一组可学习的查询𝑄点位置 𝑃和分数𝐶。随后,这些查询特征和预测结果被输入到一系列解码器中,通过与图像特征的相关性进行迭代优化。在每个阶段,预测的位置和分数都会接受真实值的监督,从而为整个框架提供端到端的训练。可以看出,最重要的结构是多重解码器的序列。因此,接下来我们将详细说明解码器的输入/输出,以及如何在解码器中聚合和更新特征。

图片

符号表示:将可学习查询、点位置和点分数的集合分别表示为 

图片

,在输入解码器之前,以及表示为

图片

,对应第 𝑖个解码器的输出。所有这些集合的长度均为 𝑄,对应于查询的数量。每个查询特征

图片

,𝑖∈{0,1,⋯,6},在我们的实现中,通道大小 𝐶设为256。为了减少查询的数量(这是模型效率的瓶颈),每个查询 𝑞𝑖预测 𝑅𝑖个点,而不是单一一个点。因此,𝑝𝑖∈𝑃𝑖和 𝑐𝑖∈𝐶𝑖的大小分别为 𝑄×𝑅𝑖×3和 𝑄×𝑅𝑖×𝑁,其中 𝑁代表语义类别的数量。

粗到细的预测:从低层次特征准确预测高级语义信息是困难的。因此,我们允许模型在早期阶段预测“稀疏”的占据结果,而不是尝试预测整个3D环境的占据情况,如图2所示。为实现这一目标,我们采用粗到细的策略,逐步增加从一个查询生成的点数。换句话说,对于i∈{1,2,⋯,6},我们总是有

图片

值得注意的是,在这里 Chamfer 距离相较于匈牙利算法有另一个优势:即使预测的数量少于真实值,分配也不会收敛到真实值的局部形状。这是因为匈牙利算法由于缺乏分布约束,可能会将预测分配给真实值的任意子集。相比之下,Chamfer 距离保持了全局视角,考虑点的整体分布,而不是强制执行严格的一对一对应。这确保了预测点即使数量较少,也能更均匀地分布,并能代表实际的3D环境。

解码器的细节:我们的解码器类似于 SparseBEV,这是一种高效且稀疏的目标检测器。对于给定的查询

图片

及其对应的点位置

图片

第𝑖个解码器首先通过一致点采样(Consistent Point Sampling)聚合图像特征,这是一种在我们后续讨论中详细介绍的新方案。随后,查询特征通过图像特征和查询特征的自适应混合以及所有查询之间的自注意力更新为

图片

,这一操作类似于 SparseBEV 的操作。最后,一个包含线性层、层归一化(LayerNorm)和 ReLU 层的预测模块生成语义类别

图片

(大小为

图片

)和位置偏移

图片

(大小为

图片

。由于

图片

不能直接加到

图片

上,因为维度不一致,我们首先计算

图片

沿第一个维度的平均值,然后将结果复制

图片

次得到

图片

。最终位置为

图片

一致点采样:SparseBEV 中使用的特征采样方法不适用于我们的方法,因为它是专为检测输入而设计的。因此,我们提出了一种新的一致点采样(CPS)过程,旨在从 M 个图像特征中采样3D点并聚合特征。给定输入

图片

我们采样 S 个点并通过以下公式找到它们在第𝑚个图像特征中的相应坐标:

图片

其中

图片

 表示从当前3D空间到第𝑚个图像坐标的投影矩阵。

图片

使用线性层从查询特征𝑞生成 S 个3D点。

图片

图片

分别表示𝑝中 R 个点的均值和标准差。值得注意的是,我们用标准差

图片

对预测的偏移

图片

进行重新加权,以继承先前预测的分散度。本质上,如果输入的 𝑝包含多样化的点,我们倾向于更积极地采样;否则,我们在更窄的范围内采样点。实验表明,这一操作明显增强了预测性能。

并非所有

图片

中的坐标都是可行的,因为采样点可能在相应的摄像头中不可见。因此,我们生成一个掩码集

图片

,如果

图片

,则第 s 个值为1,否则为0,其中

图片

图片

。接下来,我们从图像特征

图片

中聚合信息,以用于后续的自适应混合阶段。具体地,我们有:

图片

其中

图片

表示

图片

中的第 s 个元素,

图片

是点 

图片

映射到第𝑚个图像特征中的坐标。操作𝐵指的是双线性插值。

图片

是由线性变换生成的点 

图片

在第 𝑚个图像特征上的权重,由查询特征𝑞生成。

带有自适应重加权的训练损失:我们框架的训练目标是监督

图片

的学习,真实值为

图片

。点位置可以用公式(1)进行训练。然而,原始的 Chamfer 距离损失关注于点分布的整体相似性,忽略了每个个体是否足够准确。实验中我们观察到这导致了不理想的表现。为了解决这个问题,我们采用了一种简单但有效的重新加权策略,以强调错误点,并修改 Chamfer 距离损失如下:

图片

其中

图片

是对距离最近真值较远的点进行惩罚的重新加权函数。在我们的实现中,我们使用一个阶跃函数,当 

图片

时W(d)=5,否则为1。

对于分类,我们首先使用公式(2为 

图片

生成目标类别

图片

。随后,语义类别可以用传统的分类损失进行训练。在我们的实现中,我们采用了带有手动搜索权重的 Focal Loss ,并将修改后的损失称为 FocalLossR。最终,所提出的 OPUS 的训练目标变为:

图片

其中

图片

明确鼓励初始点

图片

捕捉数据集的一般模式。

Experiment

定量性能。在本部分中,我们将OPUS与之前最先进的方法在Occ3D-nuScenes数据集上进行比较。我们的方法不仅在RayIoU指标上取得了优异的性能,并在mIoU上也获得了具有竞争力的结果,同时还展示了出色的实时性能。如表1所示,OPUS-T(8帧)达到了22.4 FPS,显著快于稠密模型的对手,几乎是稀疏对手SparseOcc(8帧)速度的1.3倍。尽管只使用了7帧历史数据,它的38.4 RayIoU结果轻松超过了其他模型,包括RayIoU为33.5(下降4.9)的FB-Occ(16帧)和RayIoU为35.1(下降3.3)的SparseOcc(16帧)。同样,OPUS-S(8帧)和OPUS-M(8帧)在性能与效率之间实现了良好的平衡。OPUS的最重版本最终实现了41.2的RayIoU,相比之前的最佳结果有显著的6.1的提升。

图片

可视化。我们在图3中可视化了预测的占据情况。可以观察到,FB-Occ相比稀疏方法产生了更稠密的结果。尽管在3D环境中看起来是完整的,但其预测的占据结果被严重高估,尤其是在远距离区域。高估可能会提升mIoU指标,但RayIoU主要考虑沿射线的第一个被占据的体素,因此会受到严重的惩罚。结果显示,FB-Occ获得了最佳的39.1 mIoU,但却有最差的RayIoU值。

图片

OPUS中提出策略的效果。在我们的工作中,我们为Chamfer距离损失和focal loss引入了自适应重新加权策略,并使用一致的点采样和粗到细的预测策略。我们在表2中展示了这些策略的影响。在没有额外优化的情况下,OPUS基线模型实现了17.4 mIoU和29.2 RayIoU。将原始CD损失替换为我们修改的CDR显著提高了mIoU和RayIoU,分别提升了6.4和0.9,展示了在此任务中关注错误预测位置的重要性。FocalLossR进一步提高了两个指标,分别增加了1.4。引入公式(3)中的σp进一步提升了mIoU和RayIoU,分别增加了0.4和0.8,展示了在当前采样过程中考虑之前点分布的有效性。提出的粗到细的查询预测策略逐步增加了各阶段生成的点数量。这一策略不仅减少了早期阶段的计算量,还显著提高了模型性能,尤其是在mIoU上,增加了1.7。这些结果突显了各个组件的累积效益,展示了它们的集成如何带来显著的性能提升。

图片

粗到细预测的可视化。我们在图4中可视化了不同阶段的预测结果。在图4(a)所示的基线场景中,所有解码器回归相同数量的点,我们观察到各阶段点分布不一致,并且在远距离处有大量的假阴性预测,特别是被圆圈标记的部分。这可能是由于在早期阶段学习细粒度占据表示的困难,阻碍了整个框架的高效训练。相比之下,我们的粗到细策略显著缓解了早期阶段的学习困难,从而提升了模型性能。最终,各阶段之间的点分布更加一致,最终的预测表现出更少的假阴性,如图4(b)所示。

图片

预测点的可视化。在图6中,我们选择了几个查询并可视化了它们的预测点。值得注意的是,大多数查询倾向于预测具有一致类别的点,甚至来自同一实例的点,如图6(a)-(g)所示。一个有趣的观察是,预测点在具有大体积的类别中往往表现出多样化的分布,例如可驾驶表面和人行道。相反,对于尺寸较小的对象,例如交通锥、摩托车和汽车,点分布则更紧密,符合实例的大小。这些模式可以通过图5进一步验证,我们在该图中展示了来自三类选择类别的查询点的标准差。这些结果突显了我们的模型在适应各种对象类别不同空间特征方面的有效性。

图片

初始点处理的影响。表3比较了初始点P0的三种不同处理方式。网格初始化将BEV空间划分为均匀分布的柱体,并有序地将柱体中心分配为初始位置,这种方法在BEVFormer中使用。随机初始化为每个位置分配一个在3D空间中的均匀分布。初始化之后,P0在训练期间保持可学习性。在随机初始化的基础上,我们的OPUS进一步对P0添加了真实值分布的监督(即公式(6)中的CDR(P0, Pg))。表6的结果显示,随机初始化优于网格初始化,分别实现了23.1的mIoU和29.9的RayIoU,而网格初始化则为22.8的mIoU和28.3的RayIoU。这种改进可能是因为随机初始化提供了更为多样化的3D分布。此外,引入的监督进一步提升了0.6的mIoU和0.2的RayIoU。这些结果揭示了随机初始化的有效性以及对初始位置附加监督的额外提升。

图片

结论

本文的贡献总结如下:

1.首次将占据预测视为直接的集合预测问题,促进了稀疏框架的端到端训练。
2.引入了若干策略,包括粗到细学习、一致性点采样和自适应重加权,以提高 OPUS 的性能。
3.在 Occ3D-nuScenes 上的大量实验表明,OPUS 可以在 RayIoU 结果上超越最新的方法,同时保持实时推理速度。

文章引用:OPUS: Occupancy Prediction Using a Sparse Set

最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

南开大学联合同济大学发布最新SOTA Occ OPUS:最快实现8帧22FPS

扫码加入自动驾驶实战知识星球,即可跟学习自动驾驶感知项目:环境配置,算法原理,算法训练,代码理解等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/883176.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Windows内核编程基础(3)

内存分配 在应用层编程时,系统提供了GlobalAlloc/HeapAlloc/LocalAlloc等函数。C/C库提供了malloc函数,以及new操作符在堆上分配内存。 在我前面一个关于Windows页交换文件的博客中,介绍了虚拟内存, 虚拟内存是计算机系统内存管…

Unity开发绘画板——03.简单的实现绘制功能

从本篇文章开始,将带着大家一起写代码,我不会直接贴出成品代码,而是会把写代码的历程以及遇到的问题、如何解决这些问题都记录在文章里面,当然,同一个问题的解决方案可能会有很多,甚至有更好更高效的方式是…

Go容器化微服务系统实战

1-1 本课的go微服务有什么不同? 聚焦于容器化可观测的购物微服务系统实战,通过介绍Go语言的应用趋势、容器化优势及微服务适用性,旨在解决学习微服务过程中遇到的难点。课程内容涵盖微服务整体架构、技术工具框架及容器平台等关键技术&#…

Java之路--瓦解逻辑控制与方法使用已是瓮中捉鳖

嗨嗨大家!今天我们来学习逻辑运算和方法的使用~ 目录 一 逻辑控制 1 分支结构 1.1 if语句 1.2 switch 语句 2 循环结构 2.1 while 循环 2.2 for 循环 2.3 do while 循环 2.4 break 2.5 continue 3. 输出输入 二、方法的使用 1 方法定义语法 2 实参和…

苹果macOS 15.0 Sequoia正式版发布:iPhone应用镜像玩、手机消息电脑知

9月17日苹果向 Mac 电脑用户推送了 macOS 15 更新(内部版本号:24A335),除了引入数个 iOS 18 的新功能外,macOS 15 Sequoia 还带来了全新的 Continuity 功能 ——iPhone 镜像。 iPhone 镜像功能可以让用户直接在 Mac 上…

[Linux] Linux操作系统 进程的状态

标题:[Linux] Linux操作系统 进程的状态 个人主页:水墨不写bug (图片来源于网络) 目录 一、前置概念的理解 1.并行和并发 2.时间片 3.进程间具有独立性 4.等待的本质 正文开始: 在校的时候,你一定学过《…

图解Transformer就这30页PPT,你们真不看啊

图解Transformer就这30页PPT,你们真不看啊 主要介绍了Seq2Seq模型,慢慢引出了transformer的整体模型架构,比较具体的介绍了编码器部分的数据处理过程,包括了位置编码、多头注意力机制、残差连接、Layer Norm以及前馈网络等基本结…

支付宝沙箱环境 支付

一 什么是沙箱: 沙箱环境是支付宝开放平台为开发者提供的安全低门槛的测试环境 支付宝正式和沙箱环境的区别 : AI: 从沙箱到正式环境: 当应用程序开发完成后,需要将应用程序从沙箱环境迁移到正式环境。 这通常涉及…

如何查看线程

1、首先找到我们的电脑安装jdk的位置,这里给大家展示一下博主本人的电脑jdk路径下的jconsole位置。 2、 ok,那么找到这个jconsole程序我们直接双击打开就可以查看我们电脑的本地进程: jconsole 这里能够罗列出你系统上的 java 进程&#xff0…

古代经典名方目录数据库-支持经典名方检索!

"古代经典名方目录"是指一系列历史上流传下来的,被认为具有一定疗效的中药方剂的汇总。这些方剂多来源于历代医学典籍,经过长期临床实践的检验,部分已被收录于官方的目录之中,以便于现代医疗实践中的参考和应用。 目前…

手机在网状态查询接口如何用C#进行调用?

一、什么是手机在网状态查询接口? 手机在网状态查询接口是利用实时数据来对手机号码在运营商网络中的状态进行查询的工具,包括正常使用状态、停机状态、不在网状态、预销户状态等。 二、手机在网状态查询适用哪些场景? 例如:商…

设计模式-结构型-11-代理模式

文章目录 1. 基本介绍2. 静态代理2.1 基本介绍UML 类图 2.2 应用实例定义接口目标对象代理对象调用代理 2.3 静态代理优缺点 3. 动态代理3.1 基本介绍3.2 JDK 中生成代理对象的 API参数说明UML类图 3.3 应用实例定义接口目标对象代理工厂调用代理 4. Cglib 代理4.1 基本介绍4.2…

求一个数的因子数(c语言)

1.计算并输出给定整数n的所有因子(不包括1与n自身)之和。规定n的值不大于1000。(因子是能整除n的数 即n%i0) // 例如,在主函数中从键盘给n输入的值为856,则输出为: sum763。 2.第一步我们先输入n的数&…

Koa (下一代web框架) 【Node.js进阶】

koa (中文网) 是基于 Node.js 平台的下一代 web 开发框架,致力于成为应用和 API 开发领域中的一个更小、更富有表现力、更健壮的基石; 利用 async 函数 丢弃回调函数,并增强错误处理,koa 没有任何预置的中间件,可快速…

mysql安装教程(新手版)

本教程不需要手动设置配置文件,比较简单,适合新手,过程需联网。 1.找到mysql官网 mysql官网 一.mysql的安装 1.界面如下图,点击箭头所指。 2.选择mysql版本,系统,安装。 3.下载完成后双击打开&#xff0…

golang操作mysql利器-gorm

1、傻瓜示例 GORM通过将数据库表中的数据映射到面向对象的模型中,简化了数据库操作,使得开发者可以很方便的使用代码来操作数据库,而无需编写SQL语句。 目前有个mysql表:miniprogram_orders,其存储了所有用户对应的订…

Android SystemUI组件(07)锁屏KeyguardViewMediator分析

该系列文章总纲链接:专题分纲目录 Android SystemUI组件 本章关键点总结 & 说明: 说明:本章节持续迭代之前章节的思维导图,主要关注左侧上方锁屏分析部分即可。 为了更好理解本文的内容,优先说明下SystemUI中与Ke…

CoreDNS实现跨集群service解析实践

CoreDNS实现跨集群service解析实践 背景介绍使用条件实现方案 CoreDNS是一款使用Go语言实现的专为云原生应用而生的DNS服务器。本文介绍CoreDNS在特定实际场景下的一种进阶使用实践,也许能为其他也在使用CoreDNS做服务发现的同学提供一些启发和思考。 背景介绍 在…

luceda ipkiss教程 76:设计光栅耦合器

案例分享:设计光栅耦合器 全部代码如下: from si_fab import all as pdk from ipkiss3 import all as i3 import numpy as npclass grating_coupler(i3.PCell):"""SOI grating coupler."""_name_prefix "grating_c…

mysql 05 InnoDB数据页结构

01.数据页结构的快速浏览 02.记录在页中的存储 在页的7个组成部分中,我们自己存储的记录会按照我们指定的 行格式 存储到 User Records 部分。但是在一开始生成页的时候,其实并没有 User Records 这个部分,每当我们插入一条记录&#xff0c…