【南开X上海交大】OPUS:效率显著提升的OCC网络

1. 摘要

占据预测任务旨在预测体素化的3D环境中的占据状态,在自动驾驶领域中迅速获得了关注。主流的占据预测方法首先将3D环境离散化为体素网格,然后在这些密集网格上执行分类。然而,样本数据分析显示,大多数体素实际上是未占据的。对这些空体素进行分类需要次优的计算资源分配,并且减少这些空体素需要复杂的算法设计。为此,我们提出了一个新的视角来看待占据预测问题:将其公式化为简化的集合预测范式,无需显式的空间建模或复杂的稀疏化程序。

我们提出的框架称为OPUS,使用transformer编码器-解码器架构,通过一组可学习的查询同时预测占据位置和类别。首先,我们使用Chamfer距离损失将集合到集合的比较问题扩展到前所未有的规模,使得端到端训练此类模型成为可能。随后,使用基于学习位置的最近邻搜索自适应地分配语义类别。此外,OPUS还引入了一系列非平凡策略来增强模型性能,包括粗到细学习、一致性点采样、自适应重加权等。最终,与当前最先进的方法相比,我们最轻量的模型在Occ3D-nuScenes数据集上以接近2倍的FPS达到了更高的RayIoU,而我们最重的模型则在RayIoU上超越了之前的最佳结果6.1。

1.1 研究背景与动机

占据预测任务旨在预测体素化的3D环境中的占据状态,在自动驾驶领域中迅速获得了关注。传统的占据预测方法首先将3D环境离散化为体素网格,然后在这些密集网格上执行分类。然而,样本数据分析显示,大多数体素实际上是未占据的。对这些空体素进行分类需要次优的计算资源分配,并且减少这些空体素需要复杂的算法设计。为此,我们提出了一个新的视角来看待占据预测问题:将其公式化为简化的集合预测范式,无需显式的空间建模或复杂的稀疏化程序。

1.2 主要贡献

我们提出的框架称为OPUS,使用transformer编码器-解码器架构,通过一组可学习的查询同时预测占据位置和类别。首先,我们使用Chamfer距离损失将集合到集合的比较问题扩展到前所未有的规模,使得端到端训练此类模型成为可能。随后,使用基于学习位置的最近邻搜索自适应地分配语义类别。此外,OPUS还引入了一系列非平凡策略来增强模型性能,包括粗到细学习、一致性点采样、自适应重加权等。最终,与当前最先进的方法相比,我们最轻量的模型在Occ3D-nuScenes数据集上以接近2倍的FPS达到了更高的RayIoU,而我们最重的模型则在RayIoU上超越了之前的最佳结果6.1。

2. 引言

2.1 占据预测的重要性

占据预测是自动驾驶系统中的一个关键任务,它旨在预测3D环境中哪些区域将被物体占据。这项技术对于自动驾驶车辆的安全导航至关重要,因为它能够提供对车辆周围环境的深入理解,尤其是在视线受阻或视线之外的情况下。例如,在城市驾驶场景中,占据预测可以帮助车辆预测即将穿过路口的行人或车辆,从而提前做出决策以避免潜在的碰撞。

占据预测的重要性还体现在以下几个方面:

  • 提高安全性:通过预测可能的障碍物位置,自动驾驶系统可以及时做出反应,避免事故的发生。
  • 优化路径规划:准确的占据预测可以为路径规划提供更准确的环境信息,从而规划出更安全、更高效的行驶路径。
  • 增强决策制定:占据预测为自动驾驶系统的决策模块提供输入,帮助系统在复杂的交通环境中做出更合理的决策。
  • 提升系统鲁棒性:在面对遮挡或传感器不完整信息的情况下,占据预测可以提供额外的信息来弥补传感器的不足,增强系统的鲁棒性。

2.2 相关工作回顾

在占据预测领域,研究人员已经探索了多种方法来提高预测的准确性和效率。早期的工作主要集中在基于规则的方法和传统的机器学习技术,但随着深度学习的发展,基于深度神经网络的方法已经成为主流。

  • 基于规则的方法:这些方法通常依赖于手工设计的规则和启发式方法来预测物体的占据状态。尽管这些方法在某些情况下仍然有效,但它们通常缺乏足够的灵活性和适应性,难以处理复杂和动态变化的环境。

  • 传统机器学习方法:如支持向量机(SVM)和随机森林等,这些方法在占据预测的早期研究中得到了广泛应用。它们通常需要手工特征提取,这限制了模型的性能和泛化能力。

  • 深度学习方法:近年来,深度学习方法在占据预测中取得了显著的进展。这些方法能够自动从原始数据中学习复杂的特征表示,显著提高了预测的准确性。例如,卷积神经网络(CNNs)已被用于从2D图像中预测物体的占据状态,而3D卷积网络则直接从点云数据中学习。

  • 基于注意力机制的方法:随着注意力机制的引入,模型能够更加关注于对预测任务至关重要的区域,从而提高了预测的准确性和鲁棒性。

  • 基于图的方法:图神经网络(GNNs)通过建模物体之间的拓扑关系,能够更好地理解和预测复杂场景中的占据状态。

综上所述,占据预测是一个活跃的研究领域,各种方法都在不断地发展和完善中。OPUS框架的提出,利用了transformer架构的优势,通过可学习的查询和一系列创新策略,为占据预测领域带来了新的可能性。

3. 方法

3.1 基于查询的占据稀疏化

在自动驾驶领域,占据预测任务的核心在于识别并预测3D空间中物体的占据状态。传统的占据预测方法依赖于将连续的3D空间离散化为体素网格,并在这些网格上执行分类任务。然而,这种方法存在一个显著的问题:大多数体素实际上是空的,这导致了大量的计算资源被浪费在这些空体素上。为了解决这一问题,我们提出了一种新的视角,即将占据预测问题转化为一个基于查询的稀疏化问题。

我们的方法的核心在于使用一组可学习的查询来预测占据位置和类别。这些查询不是针对每一个体素,而是针对那些可能被物体占据的区域。通过这种方式,我们可以显著减少计算资源的消耗,并且避免了复杂的稀疏化程序。具体来说,我们的方法包括以下几个关键步骤:

  1. 查询生成:我们首先生成一组可学习的查询,这些查询代表了3D空间中可能被物体占据的区域。
  2. 特征提取:对于每个查询,我们使用一个图像编码器从多视角图像中提取2D特征。
  3. 查询更新:通过一个稀疏解码器,我们使用相关图像特征来更新这些查询特征。
  4. 预测:最后,我们使用这些更新后的查询来预测占据位置和类别。

通过这种方法,我们不仅能够减少计算资源的消耗,而且还能够提高模型的预测性能。

3.2 集合预测问题公式化

将占据预测问题视为一个集合预测问题,我们的目标是设计一个有效的策略来匹配预测集合和地面真值集合。具体来说,我们定义了两个并行的目标:

  1. 位置准确性:我们通过Chamfer距离损失来鼓励预测的位置准确且全面。Chamfer距离是一种衡量两个点集之间距离的指标,它通过最小化预测点和地面真值点之间的距离来实现。这允许模型直接学习占据体素,而不需要知道它们的顺序。

C D ( P , P g ) = 1 ∣ P ∣ ∑ p ∈ P D ( p , P g ) + 1 ∣ P g ∣ ∑ p g ∈ P g D ( p g , P ) , where  D ( x , Y ) = min ⁡ y ∈ Y ∥ x − y ∥ 1 . \mathrm{CD}\left(\mathbb{P}, \mathbb{P}_g\right)=\frac{1}{|\mathbb{P}|} \sum_{\mathbf{p} \in \mathbb{P}} D\left(\mathbf{p}, \mathbb{P}_g\right)+\frac{1}{\left|\mathbb{P}_g\right|} \sum_{\mathbf{p}_g \in \mathbb{P}_g} D\left(\mathbf{p}_g, \mathbb{P}\right) \text {, where } D(\mathbf{x}, \mathbb{Y})=\min _{\mathbf{y} \in \mathbb{Y}}\|\mathbf{x}-\mathbf{y}\|_1 . CD(P,Pg)=P1pPD(p,Pg)+Pg1pgPgD(pg,P), where D(x,Y)=yYminxy1.

  1. 类别分配:尽管直接比较预测类别和地面真值类别是无效的,但我们可以通过利用体素的空间局部性来找到代理。我们为每个预测点分配其在地面真值中的最近邻体素的类别,从而确保每个预测点都能被正确分类。

{ C ^ , P ^ } = { arg ⁡ { c g , p g } ∈ { C g , P g } ∥ p g − p ∥ 2 , p ∈ P } . \{\hat{\mathbb{C}}, \hat{\mathbb{P}}\}=\left\{\arg _{\left\{\mathbf{c}_g, \mathbf{p}_g\right\} \in\left\{\mathbb{C}_g, \mathbb{P}_g\right\}}\left\|\mathbf{p}_g-\mathbf{p}\right\|_2, \quad \mathbf{p} \in \mathbb{P}\right\} . {C^,P^}={arg{cg,pg}{Cg,Pg}pgp2,pP}.

这种公式化不仅简化了占据预测问题,而且还使得端到端训练成为可能。

3.3 OPUS框架详细说明

OPUS框架的核心在于使用transformer编码器-解码器架构来处理占据预测问题。该框架包括以下几个关键组件:

  1. 图像编码器:我们使用一个图像编码器从多视角图像中提取2D特征。这些特征为后续的查询更新提供了必要的信息。
  2. 可学习查询:我们初始化一组可学习的查询,这些查询代表了3D空间中可能被物体占据的区域。每个查询都由一个位置和一个分数组成,分别表示预测的占据位置和类别。
  3. 稀疏解码器:通过一系列解码器,我们使用相关图像特征来更新这些查询特征。在每个阶段,预测的位置和分数都会接受真实值的监督,从而为整个框架提供端到端的训练。
  4. 预测模块:最后,我们使用一个包含线性层、层归一化(LayerNorm)和ReLU层的预测模块来生成语义类别和位置偏移。
    C D R ( P , P g ) = 1 ∣ P ∣ ∑ p ∈ P D R ( p , P g ) + 1 ∣ P g ∣ ∑ p g ∈ P g D R ( p g , P ) ,  where  D R ( x , Y ) = W ( d ) ⋅ d  with  d = min ⁡ y ∈ V ∥ x − y ∥ 1 . \begin{aligned} & \mathrm{CD}_R\left(\mathbb{P}, \mathbb{P}_g\right)=\frac{1}{|\mathbb{P}|} \sum_{\mathbf{p} \in \mathbb{P}} D_R\left(\mathbf{p}, \mathbb{P}_g\right)+\frac{1}{\left|\mathbb{P}_g\right|} \sum_{\mathbf{p}_g \in \mathbb{P}_g} D_R\left(\mathbf{p}_g, \mathbb{P}\right), \\ & \text { where } \quad D_R(\mathbf{x}, \mathbb{Y})=W(d) \cdot d \text { with } d=\min _{\mathbf{y} \in \mathbb{V}}\|\mathbf{x}-\mathbf{y}\|_1 . \end{aligned} CDR(P,Pg)=P1pPDR(p,Pg)+Pg1pgPgDR(pg,P), where DR(x,Y)=W(d)d with d=yVminxy1.

此外,OPUS框架还引入了一系列策略来增强模型性能,包括粗到细学习、一致性点采样和自适应重加权等。这些策略不仅提高了模型的预测性能,而且还增强了模型的鲁棒性。通过这些组件和策略,OPUS框架能够高效且准确地预测3D环境中的占据状态。
L OPUS  = C D R ( P 0 , P g ) + ∑ i = 1 6 ( C D R ( P i , P g ) +  FocalLoss  R ( C i , C ^ i ) ) , L_{\text {OPUS }}=\mathrm{CD}_R\left(\mathbb{P}_0, \mathbb{P}_{\mathrm{g}}\right)+\sum_{i=1}^6\left(\mathrm{CD}_R\left(\mathbb{P}_i, \mathbb{P}_g\right)+\text { FocalLoss }_R\left(\mathbb{C}_i, \hat{\mathbb{C}}_i\right)\right), LOPUS =CDR(P0,Pg)+i=16(CDR(Pi,Pg)+ FocalLoss R(Ci,C^i)),

4. 实验

4.1 定量性能评估

为了全面评估OPUS框架的性能,我们在Occ3D-nuScenes数据集上进行了广泛的定量实验。这些实验旨在比较OPUS与当前最先进的占据预测方法,并展示OPUS在不同配置下的性能。

  • 数据集介绍:Occ3D-nuScenes数据集是一个专为3D占据预测设计的大规模数据集,包含了丰富的自动驾驶场景。该数据集的复杂性和多样性使其成为评估占据预测方法的理想选择。

  • 评估指标:我们使用了RayIoU和mIoU作为主要的评估指标。RayIoU是一个衡量沿射线方向上预测占据状态准确性的指标,而mIoU则衡量整体的类别预测准确性。

  • 实验设置:我们将OPUS与包括FB-Occ和SparseOcc在内的多种先进方法进行了比较。此外,我们还测试了OPUS在不同配置下的性能,包括最轻量级和最重量级模型。

  • 性能对比:实验结果表明,OPUS在RayIoU指标上超越了所有先前的方法。具体来说,OPUS的最轻量级模型在保持接近2倍FPS的同时,实现了比SparseOcc高出3.3个绝对百分点的RayIoU。而OPUS的最重量级模型则在RayIoU上达到了41.2,比之前的最佳结果高出6.1个绝对百分点。

  • 效率分析:除了准确性,我们还评估了OPUS的实时推理速度。实验数据显示,OPUS在保持高准确性的同时,仍然能够实现实时推理,这对于自动驾驶应用来说是至关重要的。

4.2 可视化分析

为了进一步理解OPUS的预测性能,我们对预测结果进行了可视化分析。这些可视化结果有助于我们直观地理解模型的预测行为和性能。

  • 预测结果可视化:我们可视化了OPUS预测的占据位置和类别,并将这些结果与地面真值进行了比较。可视化结果显示,OPUS能够准确地预测出3D空间中的占据区域和相应的语义类别。

  • 错误案例分析:我们还分析了一些错误预测案例,以识别模型的潜在不足。这些分析揭示了模型在某些复杂场景下的局限性,并为未来的改进提供了方向。

4.3 提出策略的效果

为了验证OPUS框架中提出的策略的有效性,我们在实验中对这些策略进行了单独的评估。

  • 粗到细学习:通过逐步增加预测点的数量,粗到细学习策略显著提高了模型的性能,尤其是在mIoU指标上。实验结果表明,这种策略使得模型能够更有效地学习占据表示,并提高了预测的准确性。

  • 一致性点采样:一致性点采样策略通过从图像特征中采样3D点并聚合特征,提高了模型对场景的理解能力。实验数据显示,这种采样方法比传统的采样方法更能提高预测性能。

  • 自适应重加权:自适应重加权策略通过调整损失函数中的权重,使模型能够更加关注错误的预测点。实验结果表明,这种策略显著提高了模型在RayIoU和mIoU指标上的性能。

综上所述,这些实验结果不仅验证了OPUS框架的有效性,还展示了所提出策略在提高占据预测性能方面的重要作用。

5. 结论

在本研究中,我们提出了一种名为OPUS的新型占据预测框架,该框架利用transformer编码器-解码器架构,通过一组可学习的查询同时预测3D环境中的占据位置和类别。OPUS框架的创新之处在于其将占据预测问题转化为简化的集合预测范式,无需显式的空间建模或复杂的稀疏化程序,从而显著提高了计算效率。

5.1 框架优势分析

OPUS框架的主要优势在于其高效的计算性能和出色的预测准确性。通过在Occ3D-nuScenes数据集上的实验,我们证明了OPUS在保持实时推理速度的同时,能够在RayIoU指标上超越现有的最先进方法。具体来说,我们最轻量的模型在接近2倍FPS的速度下达到了比现有方法更高的RayIoU,而最重的模型则在RayIoU上提升了6.1个绝对百分点。

此外,OPUS框架引入的一系列策略,如粗到细学习、一致性点采样和自适应重加权,进一步增强了模型的性能。这些策略不仅提高了预测的准确性,还增强了模型对复杂场景的适应能力。

5.2 研究贡献总结

本研究的主要贡献可以总结为以下几点:

  1. 提出了一种新的占据预测视角,将问题公式化为集合预测范式,简化了传统的方法,避免了显式的空间建模和复杂的稀疏化程序。
  2. 开发了OPUS框架,该框架使用transformer编码器-解码器架构和可学习的查询,实现了端到端的占据预测。
  3. 引入了有效的策略来增强模型性能,包括粗到细学习、一致性点采样和自适应重加权,这些策略在实验中显示出了显著的效果。
  4. 在Occ3D-nuScenes数据集上的广泛实验验证了OPUS框架的有效性,特别是在RayIoU和mIoU指标上的性能提升。

5.3 未来工作展望

尽管OPUS框架在占据预测方面取得了显著的成果,但仍有进一步改进和扩展的空间。未来的工作可能包括:

  1. 探索更多的数据增强和正则化策略,以进一步提高模型的泛化能力和鲁棒性。
  2. 研究更高效的网络架构,以实现更快的推理速度和更高的预测准确性。
  3. 将OPUS框架应用于更多的3D理解和场景重建任务,验证其在不同领域的有效性。
  4. 进一步优化模型的计算效率,使其更适合实时和资源受限的应用场景。

总体而言,OPUS框架为占据预测领域提供了一种新的解决方案,其高效的计算性能和出色的预测准确性使其成为自动驾驶和3D场景理解中一个有前景的研究方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/896672.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《15分钟轻松学Go》教程目录

在AI快速发展的时代,学习Go语言依然很有用。Go语言擅长处理高并发任务,也就是说可以同时处理很多请求,这对于需要快速响应的AI服务非常重要。另外,Go适合用来处理和传输大量数据,非常适合机器学习模型的数据预处理。 …

并查集 --- Java通用模版

什么是并查集 并查集可以解决什么问题:判断两个节点是否在一个集合,也可以将两个节点添加到一个集合中。 并查集常用于处理大规模数据下的元素分组问题,特别是在数据量极大时,使用正常的数据结构可能会导致空间或时间复杂度过高…

2024年10月21日计算机网络,乌蒙第一部分

【互联网数据传输原理 |OSI七层网络参考模型】 https://www.bilibili.com/video/BV1EU4y1v7ju/?share_sourcecopy_web&vd_source476fcb3b552dae37b7e82015a682a972 mac地址相当于是名字,ip地址相当于是住址,端口相当于是发送的东西拿什…

推荐一款功能强大的数据备份工具:Iperius Backup Full

Iperius Backup是一款非常灵活而且功能强大的数据备份工具,程序可以非常好的保护您的文件和数据的安全。支持DAT备份、LTO备份、NAS备份、磁带备份、RDX驱动器、USB备份、并且支持zip压缩和军事级别的AES 256位数据加密技术! 主要特色 云备份 Iperius可以自动地发…

STM32F1+HAL库+FreeTOTS学习18——任务通知

STM32F1HAL库FreeTOTS学习18——任务通知 1. 任务通知1.1 任务通知的引入1.2 任务通知简介1.3 任务通知的优缺点 2. 任务相关API函数2.1 发送任务通知2.1.1 xTaskGenericNotify()2.1.2 xTaskNotifyGive()和xTaskNotifyGiveIndexed()2.1.2 xTaskNotify()和xTaskNotifyIndexed()2…

【LeetCode:910. 最小差值 II + 模拟 + 思维】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

低功耗4G模组的小秘密:RSA算法示例驾到,通通闪开...

在实际应用中,低功耗4G模组的RSA算法示例具有重要的价值,所以今天我们学习合宙低功耗4G模组Air780EP_LuatOS_rsa示例: 1.简介 RSA算法的安全性基于:将两个大质数相乘很容易,但是想要将其乘积分解成原始的质数因子却非…

微信小程序广告组件被驳回之后怎么重新提交广告组件?

有时候遇到广告组件被退回的问题 这时需要重新提交一次程序代码,然后提交审核然后发布新版本之后,找到广告管理,即可看到广告组件是在正在审核状态中

CANoe_数据回放功能功能介绍_时间段(区间)选择

CANoe的日志回放功能,可以选择时间段回放,这样可以在数据量很大的时候快速定位分析数据问题点 CANoe日志回放功能概述 CANoe的日志回放功能允许用户重现和分析已记录的CAN总线或其他网络总线数据。这些日志文件通常以CANoe自己的日志格式(.b…

C#学习笔记(一)

C#学习笔记(一) 简介第一章 上位机开发环境之 VS 使用和.NET 平台基础一、安装软件二、创建项目三、第一个Hello world四、解决方案与项目五、Debug 和 Release 的区别六、代码的生产过程七、CLR的其它功能 简介 C# .NET工控上位机开发 在工控领域&…

【AI 大模型】智能时代的核心驱动力

1. 引言📜1.1 AI大模型的崛起与影响力🌟1.2 本文的研究目的与结构🧐 2. AI大模型的基础概念与技术原理📚2.1 定义与核心特征🎯2.2 深度学习架构基础🧠2.3 大规模数据训练的重要性📊2.4 模型优化…

15分钟学Go 实战项目一:命令行工具

实战项目一:命令行工具 1. 引言 命令行工具是开发者常用的工具之一,它可以帮助用户通过命令行界面对程序进行控制和交互。在这节中,我们将创建一个简单的命令行工具,以帮助你理解Go语言的基本语法和如何处理命令行输入。在这个过…

HarmonyOS NEXT 应用开发实战(六、组件导航Navigation使用详解)

在鸿蒙应用开发中,Navigation 组件是实现界面间导航的重要工具。本文将介绍如何使用 Navigation 组件实现页面跳转及参数传递,确保你能轻松构建具有良好用户体验的应用。 当前HarmonyOS支持两套路由机制(Navigation和Router)&…

Dongle Sentinal在Jenkins下访问不了的问题

背景: 工作站部署的jenkins的脚本无法正常打包,定位后发现是本地获取不了license,但是使用usb over network的远程license都能获取并正常打包 分析: 获取不了license的原因是本地无法识别dongle。根据提供信息,之前…

力扣76~80题

题76(困难): 分析: 这道题其实不难,但是是我做最久的了,我居然去用res去接所有可能得值,然后再求长度导致空间暴力,我还以为是我queue的问题。。。 最后用暴力求解解的&#xff0c…

Apache Seata Raft模式配置中心

本文来自 Apache Seata官方文档,欢迎访问官网,查看更多深度文章。 本文来自 Apache Seata官方文档,欢迎访问官网,查看更多深度文章。 Apache Seata Raft模式配置中心 title: Seata Raft模式配置中心 author: 蒋奕晨-清华大学&…

Vue是一套构建用户界面的渐进式框架,常用于构建单页面应用

学习总结 1、掌握 JAVA入门到进阶知识(持续写作中……) 2、学会Oracle数据库入门到入土用法(创作中……) 3、手把手教你开发炫酷的vbs脚本制作(完善中……) 4、牛逼哄哄的 IDEA编程利器技巧(编写中……) 5、面经吐血整理的 面试技…

HCIE-Datacom题库_11_IPsecVPN【17道题】

一、单选题 1.IPsecSA(SecurityAssociation,安全联盟)有两种生成方式,分别是手工方式和IKE自动协商方式,以下关于这两种方式的描述中,错误的是哪一项? 手工方式和IKE方式建立的SA都支持动态刷新 IKE方式建立的SA,其生存周期由…

传奇架设GEE引擎数据库服务器提示:拒绝未授权ip连接服务器的解决办法

今天一个新手GM遇到一个问题,他有一个GEE引擎的传奇版本,数据库服务器提示:拒绝未授权ip连接服务器:222.186.50.212、111.162.159.87 1.189.121.156、14.204.122.13、1.189.141.27等等,出于担心服务器是否有异常&#…

【VUE安装本地自定义capacitor插件以及打包成安卓APK过程】

capacitor插件创建使用过程 1. 初始化一个vue项目2.安装capacitor依赖3.自动化创建插件4. 实现功能后构建插件,插件目录下生成dist文件夹5. vue项目中安装插件6. vue项目中使用接口7. 构建vue项目8.构建为安卓项目9.打包APK1. 初始化一个vue项目 过程省略,本案例用的vue3+ty…