【占用网络】FlashOcc:快速、易部署的占用预测模型

前言

FlashOcc是一个它只需2D卷积就能实现“占用预测模型”,具有快速、节约内存、易部署的特点。

它首先采用2D卷积提取图形信息生成BEV特征。然后通过通道到高度变换,将BEV特征提升到3D空间特征

对于常规的占用预测模型,将3D卷积改为2D卷积,将三维体素特征改为BEV特征。而且不用Transformer注意力算子。

论文地址:FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

代码地址:https://github.com/Yzichen/FlashOCC

一、模型框架

体素特征表示,需要大量内存和计算资源,而且通常会使用一些复杂算子,比如:3D卷积、Deformable Attention、Transformer

FlashOcc认为理想的框架,应该对不同的芯片进行部署友好,同时保持高精度。

采用了一种即插即用的范式,使用2D卷积层来提取特征,并通过一个通道到高度的转换来,提升BEV层的输出到3D空间。

  • FlashOcc首先采用2D卷积提取图形信息生成BEV特征。然后通过通道到高度变换,将BEV特征提升到3D空间特征
  • 对于常规的占用预测模型,将3D卷积改为2D卷积,将三维体素特征改为BEV特征。而且不用Transformer注意力算子。
  • 特点:快速、节约内存、易部署。

FlashOcc的模型框架如下图所示,核心步骤分为7步:

  1. 输入多视角图像数据,比如6个相机组成的,同时输入6张图像。
  2. 经过主干网络,提取图像信息,生成图像特征。
  3. 通过LSS(Lift-splat-shot)思路,将2D图像特征转为BEV特征,形成初步的BEV特征。
  4. 得到初步的BEV特征,可以选择是否使用“时序信息融合模块”。如果使用的,会融合历史的BEV特征信息。如果不用,进入直接下一步。
  5. BEV特征进一步编码,提取特征,形成BEV特征'。
  6. BEV特征'经过占用头的处理,得到BEV特征'';接着,通过通道到高度变换,将BEV特征''提升到3D空间特征
  7. 输出占用预测信息。

其中,通道到高度变换,是指将BEV特征(BxCxWxH),转为3D空间特征(BxC'xZxWxH)。

这里的B是指batch size,C是指BEV的特征通道数量,C'是指3D空间特征通道(类别数量);C = C' x Z,对应通道到高度变换思想。

W,H,Z分别对应三维空间中x,y,z的维度。

它由5个关键模型组成:

  1. 2D图像编码器:这个模块的任务是从由多个摄像头捕获的图像中提取特征。这些特征可能包括物体的形状、大小、颜色等,对于理解图像内容至关重要。
  2. 视图转换模块:该模块负责将2D感知图像特征,转换到鸟瞰视图(BEV)空间表示。
  3. BEV编码器:在完成视图转换后,BEV编码器处理鸟瞰视图中的特征信息。这一步进一步加工特征,使其适应于三维空间分析。
  4. 占用预测模块:这个模块的核心任务是预测每个体素(三维空间中的一个小立方体,类似于二维图像中的像素)是否被占用。这是通过分析前面模块提供的数据来完成的。
  5. 时间融合模块(可选):这个模块不是必须的,但可以用来提高模型的性能。它通过融合历史信息(如之前的观察或预测)来提供更准确的占用预测。

二、细节信息

 1、占用模型改进对比

细节展开,下图是常规的占用预测模型,使用3D体素特征表示,并用到3D卷积和Transformer等算子。

下图是FlashOcc模型,使用BEV特征表示,只用到2D卷积算子。

 

通过BEVDetOcc和UniOcc中组建替换为FlashOcc后,进行实验对比。

替换为FlashOcc后在速度、内存消耗和训练时间方面,都是更优的。

2、Efficient Sub-pixel Paradigm

子像素卷积技术: 这种技术首先在图像超分辨率中被提出,然后通道重排代替上采样提高低分辨率数据的分辨率,与去卷积层相比,成本更低

基于这种方法,提出了通道到高度转换作为一种高效的占用预测方法,直接从平坦的BEV级特征通过通道到高度变换重塑占用空间特征。

在传统的图像超分辨率方法中,一个低分辨率图像会被上采样(即插值)到一个更高的分辨率。然而,这种插值通常是一种线性过程,可能会导致细节的丢失或模糊。子像素卷积采用一种不同的方法来解决这个问题。

在子像素卷积中,网络被训练来学习如何重新排列在低分辨率特征图中的信息,以生成高分辨率的输出。这是通过以下步骤完成的:

  1. 卷积层: 首先,使用卷积层来提取低分辨率图像的特征。

  2. 特征映射扩展: 接着,使用多个卷积滤波器来增加特征映射的数量。例如,如果目标是将图像的分辨率提高2倍,那么就会使用4倍(2x2)的特征映射数量。

  3. 像素重排: 然后,通过一个特殊的重排操作(也称为“像素洗牌”),将这些额外的特征映射转换为高分辨率图像的形式。这个过程实际上是在一个更细粒度的层面上重新排列特征映射,以形成高分辨率输出。

这种方法的优势在于其避免了传统上采样方法可能引入的模糊,同时允许网络学习更加复杂的上采样模式。

在自动驾驶系统中,子像素卷积技术可以用于提高感知模型的分辨率,从而允许车辆更准确地理解其周围的环境,包括路面状况、周围车辆和行人等。

子像素卷积技术被提议用于通过通道到高度变换来实现高效的占用预测,这是一种在BEV级别上工作的技术。

这种方法允许直接从BEV特征中推断出3D结构的高度信息,避免了计算上昂贵的3D卷积操作,从而提高了计算效率并减少了内存消耗。

 3、View Transforme

View Transformer 将摄像头收集的2D图像数据,转换为BEV鸟瞰视图表示。

论文中默认使用LSS方案,它全称是Lift-Splat-Shoot,它先从车辆周围的多个摄像头拍摄到的图像进行特征提取,在特征图中估计出每个点的深度,然后把这些点“提升”到3D空间中。

接着,这些3D信息被放置到一个网格上,最后将这些信息“拍扁”到一个平面视图上,形成BEV特征图。 

  • Lift,是提升的意思,2D到3D特征转换模块,将二维图像特征生成3D特征;即:对每个像素预测深度值,然后结合相机内外参,投影到3D空间中。
  • Splat,是展开的意思,3D到BEV特征编码模块,把3D特征“拍扁”得到BEV特征图;由于一个BEV网格可能对应多个3D点,需要进行融合得到该网格的特征。
  • Shooting,是指在BEV特征图上进行相关任务操作,比如检测、分割、轨迹预测等。

 详细信息,看我这篇博客:【BEV感知 LSS方案】Lift-Splat-Shoot 论文精读与代码实现-CSDN博客

4、训练参数

数据情况 

  • 基准测试:实验使用了Occ3D-nuScenes数据集进行3D占用预测。这个数据集包含了700个训练场景和150个验证场景。
  • 数据集:数据集覆盖了-40m到40m沿X和Y轴的空间范围,以及-1m到5.4m沿Z轴的空间范围。占用标签是使用尺寸为0.4m x 0.4m x 0.4m的体素为17个类别定义的。
  • 数据收集:场景包含了20秒的注释感知数据,以2Hz的频率采集。数据收集车辆装备了一个激光雷达、五个雷达和六个摄像头,使得能够全面地观察车辆的周围环境。
  • 评估指标:评估指标为平均交并比(mIoU)。

训练细节

  • 设计:FlashOcc的设计为即插即用方式,并注重于泛化性和效率。
  • 比较:实验中将FlashOcc与其他主流基于体素的占用预测方法进行了比较,如BEVDetOcc和UniOcc。
  • 训练细节:所有模型都使用AdamW优化器进行训练,并应用了梯度裁剪,学习率为1e-4,总批量大小为64,分布在8个GPU上。
  • 训练周期:BEVDetOcc和UniOcc的总训练周期设置为24,而FBOcc只训练了20个周期。
  • 样本平衡:在所有实验中,没有使用类平衡的分组和采样。

下面表格展示了训练细节信息:

  • “R50*”表示使用了ResNet-50主干网络,“R101”是指ResNet-101,“SwinB”是指Swin Transformer。
  • “FL”是FPN LSS的缩写。
  • “MC”代表多卷积头。
  • MSO指的是指多尺度占用预测头。
  • F-VTM和B-VTM分别表示前向投影和深度感知的后向投影。
  • Stereo4D指的是使用立体声体积来增强LSS的深度预测,而不包括来自上一帧的BEV特征。
  • Mono-align-concat表示使用单目深度预测用于LSS,其中历史帧的bev特征被对齐并沿通道连接。


 

三、设计背景

这不是不是重点,放在后面。占用预测,能解决3D感知中的三个问题:复杂形状缺失、长尾缺陷、无限类别。

  • 复杂形状缺失: 有些物体的形状很复杂,无法描述细节和几何形状。比如,一辆挖掘机,由机械臂和车身组成,用3D目标检测只能框出这是一个矩形体,无法知道那部分是机械臂。
  • 长尾缺陷问题: 在现实世界中,某些物体出现得很少,而另一些则很常见。比如,在路上,普通汽车和卡车很多,但冰淇淋车或救护车就比较少,识别那些不常见的物体就比较难。
  • 无限类别问题:在真实世界中,存在数以万计的不同物体,常规训练任务中,只能识别的有限数量的类别。实际场景中会遇到预定义类之外的目标。

占用预测: 判断周围空间中哪些部分被物体占据,哪些是空的。

为了进行占用预测,一种常见的方法是使用三维体素表示物体和环境。这种方法可以提供非常详细的三维信息,但问题在于它需要大量的内存计算资源

因为体素是以三维网格的形式存在的,所以当细节级别增加时,所需处理的数据量会呈指数级增长。

同时当前大多占用预测模型使用Transformer注意力等复杂算子,阻碍了占用预测部署。

四、实验测试与效果

在Occ3D-nuScenes评估数据集上,进行的3D占用预测性能测试。使用ResNet-101和Swin Transformer-Base两种不同的基础网络进行了评估。

  • FlashOcc在BEVDetOcc和UniOcc框架上进行了评估,并与MonoScene、TPVFormer、OccFormer、CTF-Occ、RenderOcc和PanoOcc等流行方法进行了性能比较。
  • 表格中最后两行,将BEVDetOcc和UniOcc中组建替换为FlashOcc后,FlashOcc在BEVDetOcc上提高了1.3 mIoU,在UniOcc上提高了0.3 mIoU。
  • FlashOcc的实现超过了基于Transformer的PanoOcc方法1.1 mIoU,证明了该方法的性能。

  • 星号(*)表示这些模型在训练前已经在FCOS3D模型上进行了预训练。
  • “FO”是FlashOcc的缩写,而“FO()”表示对应名为“”的模型进行插件替换。

在训练和部署期间,资源消耗分析。FPS是在单个RTX3090上通过tensorrt以fp16精度测试的。

  • “Train. Dur.”是训练持续时间的缩写。
  • “Enc.”、“Occ.”和“Feat”分别代表编码器、占用预测和特征。
  • “GPU·H”表示“1个GPU × 1小时”。

模型预测效果,如下图所示,展示了其精确捕捉复杂形状的能力。

特别是在对行人的体素描述上,比如突出在胸部的体素可以表示行人手持的移动设备,或行李箱部分。

分享完成~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/322105.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

寿宁县五校迁建项目企业微电网能效管理系统项目的设计与应用-安科瑞 蒋静

基本信息: 项目名称:寿宁县五校迁建项目(现为寿宁县一中)企业微电网能效管理系统 项目地点:福建省寿宁县 实施时间:2023年4月 项目总览图: 项目简介: 寿宁县第一中学创办于1938年7月,是一所…

【Python数据可视化】matplotlib之绘制高级图形:散点图、热力图、等值线图、极坐标图

文章传送门 Python 数据可视化matplotlib之绘制常用图形:折线图、柱状图(条形图)、饼图和直方图matplotlib之设置坐标:添加坐标轴名字、设置坐标范围、设置主次刻度、坐标轴文字旋转并标出坐标值matplotlib之增加图形内容&#x…

新手做仓库进出货表格

对于新手来说,制作仓库进出货表格是一个非常重要的任务, 同时也是非常艰难的,因为新手对很多知识都不是很了解,所以制作起来无从下手,我们可以借助一些专业的软件来实现(例如:方可仓管系统&…

codeforces (C++ Satisfying Constraints)

题目: 翻译: 思路: 1、找到最大的下限min 2、找到最小的上限max 3、则max-min1满足1、2约束条件的个数 4、max-min1减去约束条件3的个数,即为最终答案 5、如果min大于max,则结果为0,不存在满足约束条件的数…

设计模式面试

C 面向对象设计 封装:隐藏内部实现继承:复用现有代码多态:改写对象行为 设计模式关键在于分解和抽象; 设计模式的主要目的是易于变化 面向对象设计原则–比设计模式更加重要 违背了设计原则,设计模式是错误的。 依赖倒置原则…

java小游戏——动漫美女拼图

1:继承 1.1 继承概述 首先,我们来说一下,什么是继承: 继承是面向对象三大特征之一(封装,继承和多态) 可以使得子类具有父类的属性和方法,还可以在子类中重新定义,追加属性和方法 也就是说&…

在线Hash文本工具

哈希文本 - BTool在线工具软件,为开发者提供方便。在线Hash文本工具是一种用于将任意长度的文本转换为固定长度哈希值的工具。本工具简单易用,只需在文本框中输入您想要转换的文本,然后选择想输出的hash结果编码格式,自动为你生成…

这玩意早该火了!前端大型项目必需品

当我们进行项目开发时,会经常需要反复检查node_modules目录中安装的模块版本。现有的解决方案(比如运行 npm list)速度缓慢,输出内容也杂乱无章。想要查看特定模块的 package.json 文件中的版本信息,需要耗费更多时间和…

在 .NET 中使用可以漫游的 Web 凭据

Windows 凭据管理器是一个内置在 Windows 操作系统中的功能,为用户提供一种安全的方式来存储和管理凭据。本文主要介绍如何在 .NET 中使用可以漫游的 Web 凭据,以及使用中的基本事项。 1. 引言 在前面的文章《试用 Windows Terminal 中的 Terminal Chat…

2024最新婚恋交友系统,PHP书写,前端UNI,前后端源码交付,支持二开,APP小程序H5,三端都有!

如何开发婚恋交友的软件 1、实名认证:每个申请注册用户必须提交真实可信的个人身份信息内容,并且必须通过平台的核查,然后才能正常使用。 2、用户量大:该平台汇聚了来自全国各地的未婚男女。用户可以线上发送私人信息&#xff0…

十、Three场景实现多个物体的合并

Three场景实现多个物体的合并 目的 产品需求是让物体的光柱墙包含一个多边形的区域,二而我的多边形只能使用原型,方向,多边形。那么再研究的时候就需要将这些多边形合并成为一个形状,那么就行实现了。 原先的图形 如上图,是两个mesh组成的。首先寻找mesh合并的方法。 第…

Unity Meta Quest 一体机开发(十三):【手势追踪】自定义交互事件 EventWrapper

文章目录 📕教程说明📕交互事件概述📕自定义交互逻辑⭐方法一:Inspector 面板赋值⭐方法二:纯代码处理 此教程相关的详细教案,文档,思维导图和工程文件会放入 Spatial XR 社区。这是一个高质量…

【XR806开发板试用】单总线协议驱动DHT11温湿度传感器

1.昨天刚收到极速社区寄来的全志XR806开发板,之前用过很多全志的SOC芯片,但是像这种无线芯片还是第一次用。这次打算使用XR806芯片驱动一下DHT11温湿度传感器。 2.代码如下: #include "common/framework/platform_init.h" #inclu…

四搭建dockerhub私有仓库

搭建dockerhub私有仓库 很多场景下,我们需使用私有仓库管理Docker镜像。相比Docker Hub,私有仓库有以下优势: 节省带宽,对于私有仓库中已有的镜像,无需从Docker Hub下载,只需从私有仓库中下载即可&#x…

浅学Linux之旅 day1 学习路线及计算机入门知识介绍

我不要做静等被掀起的轻波,我要生起翠绿的斑驳 偶尔过季的遭遭人事化长风拂过 思绪撕碎点燃了火 ——24.1.14 一、Linux学习路线 ①计算机入门知识介绍 ②Linux系统概述 ③Linux系统的安装和体验 ④Linux的网络配置和连接工具 ⑤Linux的目录结构 ⑥Linux的常用命令 …

【MATLAB】tvf_emd_LSTM神经网络时序预测算法

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 TVF-EMD-LSTM神经网络时序预测算法是一种结合了变分模态分解(Variational Mode Decomposition,VMD)、经验模态分解(Empirical Mode Decompo…

CANFD数据记录仪在新能源汽车复杂路测下的应用

汽车制造商在生产预批量阶段的耐久性测试中,为了检测潜在故障,必须让车辆在严酷的路况和环境下接受测试。为确保能回溯故障发生的现场情况,我们需要对测试数据精准记录与储存。这些数据是新车型优化迭代的关键,也是确保产品质量的重要依据。 在复杂路试环境中,数据记录面临多重…

有哪些品牌的超声波清洗机是值得入手的?超声波清洗机推荐

作为一个既对生活品质有追求,又只想躺平的懒人,一直在努力尝试让轻松的生活少一点绊脚石,而其中最重要的一个,就是清洗眼镜清洗日常生活的一些小物件,讲真,洗这些东西有时候就跟下班回家的KPI一样。白天不累…

【Python数据可视化】matplotlib之绘制三维图形:三维散点图、三维柱状图、三维曲面图

文章传送门 Python 数据可视化matplotlib之绘制常用图形:折线图、柱状图(条形图)、饼图和直方图matplotlib之设置坐标:添加坐标轴名字、设置坐标范围、设置主次刻度、坐标轴文字旋转并标出坐标值matplotlib之增加图形内容&#x…

24V 30V 36V 48V转3.3V 5V12V降压恒压芯片H6212L

关于24V、30V、36V和48V转3.3V、5V、12V的降压恒压芯片,它们的工作原理主要涉及以下几个方面: 降压转换: 这些芯片通常采用开关电源的原理,通过高频开关来实现电压的降低。具体而言,输入电压高于输出电压时&#xff0…