【原文链接】Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction

原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Tri-Perspective_View_for_Vision-Based_3D_Semantic_Occupancy_Prediction_CVPR_2023_paper.pdf

1. 引言

体素表达需要较大的计算量和特别的技巧(如稀疏卷积),BEV表达难以使用平面特征编码所有3D结构。

本文提出三视图(TPV)表达3D场景。为得到空间中一个点的特征,首先将其投影到三视图平面上,使用双线性插值获取各投影点的特征。然后对3个投影点特征进行求和,得到3D点的综合特征。这样,可以以任意分辨率描述3D场景,并对不同的3D点产生不同的特征。此外,本文还提出基于Transformer的编码器(TPVFormer),以从2D图像获取TPV特征。首先,在TPV网格查询与2D图像特征之间使用图像交叉注意力,将2D信息提升到3D。然后,在TPV特征之间使用跨视图混合注意力进行TPV跨平面交互。

在这里插入图片描述

本文进行的任务为3D语义占用估计,其中训练时只有稀疏激光雷达语义标签,但测试时需要所有体素的语义预测,如上图所示。但由于没有基准,只能进行定性分析,或在两个代理任务上进行定量分析:激光雷达分割(稀疏训练、稀疏测试)和3D语义场景补全(密集训练、密集测试)。两任务均仅使用图像数据;对激光雷达分割任务,仅使用激光雷达点云进行点查询以计算评估指标。

3. 提出的方法

3.1 将BEV推广到TPV

在这里插入图片描述
本文提出三视图(TPV)表达,不需像BEV表达一样压缩某轴,且可以避免体素表达的立方复杂度,如上图所示。具体来说,学习3个轴对齐的正交平面:
T = [ T H W , T D H , T W D ] , T H W ∈ R H × W × C , T D H ∈ R D × H × C , T W D ∈ R W × D × C T=[T^{HW},T^{DH},T^{WD}],T^{HW}\in\mathbb{R}^{H\times W\times C},T^{DH}\in\mathbb{R}^{D\times H\times C},T^{WD}\in\mathbb{R}^{W\times D\times C} T=[THW,TDH,TWD],THWRH×W×C,TDHRD×H×C,TWDRW×D×C

分别表达俯视图、侧视图和前视图。

点查询的形式:给定世界坐标系下的查询点 ( x , y , z ) (x,y,z) (x,y,z),TPV表达首先聚合其在三视图平面上的投影,以得到点的综合描述。设投影到TPV平面的坐标为 [ ( h , w ) , ( d , h ) , ( w , d ) ] [(h,w),(d,h),(w,d)] [(h,w),(d,h),(w,d)],采样的特征为 [ t h w , t d h , t w d ] [t_{hw},t_{dh},t_{wd}] [thw,tdh,twd],则聚合特征为:
t i j = S ( T , ( i , j ) ) = S ( T , P I J ( x , y , z ) ) , ( i , j ) ∈ { ( h , w ) , ( d , h ) , ( w , d ) } f x y z = A ( t h w , t d h , t w d ) t_{ij}=\mathcal{S}(T,(i,j))=\mathcal{S}(T,\mathcal{P}_{IJ}(x,y,z)),(i,j)\in\{(h,w),(d,h),(w,d)\}\\ f_{xyz}=\mathcal{A}(t_{hw},t_{dh},t_{wd}) tij=S(T,(i,j))=S(T,PIJ(x,y,z)),(i,j){(h,w),(d,h),(w,d)}fxyz=A(thw,tdh,twd)

其中 S \mathcal{S} S为采样函数, A \mathcal{A} A为聚合函数, P \mathcal{P} P为投影函数(由于TPV平面与世界坐标系对齐,实际仅进行缩放)。

体素特征的形式:TPV平面会沿其正交方向复制自身并与来自其余视图的特征求和,得到3D特征空间。其存储与计算复杂度为 O ( H W + D H + W D ) O(HW+DH+WD) O(HW+DH+WD)

总的来说,TPV可以通过多视图的相互补充提供更细粒度的3D场景理解,同时保持高效性。

3.2 TPVFormer

本文使用TPV编码器(TPVFormer),通过注意力机制将图像特征提升到TPV平面。

总体结构:本文引入TPV查询、图像交叉注意力(ICA)与跨视图混合注意力(CVHA)以保证有效生成TPV平面,如下图所示。TPV查询就是TPV平面上的网格特征, t ∈ T t\in T tT,用于编码视图特定的信息。跨视图混合注意力在同一平面或不同平面上各TPV查询之间交互,以获取上下文信息。图像交叉注意力则使用可变形注意力聚合图像特征。
在这里插入图片描述
本文还进一步建立了两种Transformer块:混合-交叉注意力块(HCAB,由CVHA与ICA组成,位于TPVFormer的前半部分,查询图像特征中的视觉信息)与混合注意力块(HAB,仅含CVHA,位于HCAB之后,专门进行上下文信息编码)。

TPV查询:每个TPV查询对应相应视图中 s × s   m 2 s\times s \ \text{m}^2 s×s m2的2D单元格区域或沿正交方向延伸的3D柱状区域。TPV查询首先会使用原始视觉信息增强(HCAB),再通过来自其余查询的上下文信息细化(HAB)。TPV查询被初始化为可学习参数。

图像交叉注意力:使用可变形注意力以节省计算。对于 ( h , w ) (h,w) (h,w)处的查询 t h w t_{hw} thw,首先通过逆投影函数 P H W − 1 \mathcal{P}^{-1}_{HW} PHW1计算其世界坐标系下的坐标 ( x , y ) (x,y) (x,y),然后沿平面的正交方向均匀采样 N H W r e f N_{HW}^{ref} NHWref个参考点:
( x , y ) = P H W − 1 ( h , w ) = ( ( h − H 2 ) × s , ( w − W 2 ) × s ) Ref h w w = { ( x , y , z i ) } i = 1 N H W r e f (x,y)=\mathcal{P}^{-1}_{HW}(h,w)=((h-\frac H 2)\times s,(w-\frac W 2)\times s)\\ \text{Ref}_{hw}^w=\{(x,y,z_i)\}^{N_{HW}^{ref}}_{i=1} (x,y)=PHW1(h,w)=((h2H)×s,(w2W)×s)Refhww={(x,y,zi)}i=1NHWref

其中 Ref h w w \text{Ref}_{hw}^w Refhww表示查询 t h w t_{hw} thw在世界坐标系下的参考点集。其余平面的查询类似,需要注意不同平面的 N r e f N^{ref} Nref不同,因为不同轴的范围不同。然后,将参考点投影到像素坐标系,以采样图像特征:
Ref h w p = P p i x ( Ref h w w ) \text{Ref}_{hw}^p=\mathcal{P}_{pix}(\text{Ref}_{hw}^w) Refhwp=Ppix(Refhww)

其中 Ref h w p \text{Ref}_{hw}^p Refhwp为查询 t h w t_{hw} thw在像素坐标系下的参考点集, P p i x \mathcal{P}_{pix} Ppix为由相机内外参确定的透视投影函数。若存在 N c N_c Nc个相机,则生成的参考点集为 { Ref h w p , j } j = 1 N c \{\text{Ref}_{hw}^{p,j}\}_{j=1}^{N_c} {Refhwp,j}j=1Nc。此外,可以剔除为落在图像范围外的参考点以节省计算。最后,将 t h w t_{hw} thw通过两个线性层生成偏移量与注意力权重,并通过加权求和采样图像特征产生更新的TPV查询:
ICA ( t h w , I ) = 1 ∣ N h w v a l ∣ ∑ j ∈ N h w v a l DA ( t h w , Ref h w p . j , I j ) \text{ICA}(t_{hw},I)=\frac 1{|N_{hw}^{val}|}\sum_{j\in N_{hw}^{val}}\text{DA}(t_{hw},\text{Ref}_{hw}^{p.j},I_j) ICA(thw,I)=Nhwval1jNhwvalDA(thw,Refhwp.j,Ij)

其中 N h w v a l N_{hw}^{val} Nhwval为有效视图的集合, I j I_j Ij为视图 j j j的图像特征, DA \text{DA} DA为可变形注意力函数。

跨视图混合注意力:该步骤使不同视图能交换信息,以提取上下文。同样使用可变形注意力,其中TPV平面作为键与值。首先将参考点分为3个不相交的子集,分属俯视图、侧视图和前视图:
R h w = R h w t o p ∪ R h w s i d e ∪ R h w f r o n t R_{hw}=R^{top}_{hw}\cup R_{hw}^{side}\cup R_{hw}^{front} Rhw=RhwtopRhwsideRhwfront

为收集俯视图平面的参考点,进行查询 t h w t_{hw} thw所在邻域内的随机采样。对侧视图与前视图,沿正交方向均匀采样并投影到侧视平面与前视平面:
R h w s i d e = { ( d i , h ) } i , R h w f r o n t = { ( w , d i ) } i R_{hw}^{side}=\{(d_i,h)\}_i,R_{hw}^{front}=\{(w,d_i)\}_i Rhwside={(di,h)}i,Rhwfront={(w,di)}i

然后进行可变形注意力:
C V H A ( t h w ) = DA ( t h w , R h w , T ) CVHA(t_{hw})=\text{DA}(t_{hw},R_{hw},T) CVHA(thw)=DA(thw,Rhw,T)

3.3 TPV的应用

需要将TPV平面 T T T转化为点或体素特征以输入任务头。

点特征:给定世界坐标系下的点坐标,与点查询相同,将点投影到TPV平面上检索特征并求和。

体素特征:将TPV平面沿正交方向广播得到3个大小相同的特征张量,并求和。

为进行分割任务,本文在点或体素特征上添加2层MLP以预测语义标签。

4. 实验

4.1 任务描述

3D语义占用预测:使用稀疏语义标签(激光雷达点)训练,但测试时需要生成所有体素的语义占用。

激光雷达分割:对应点查询形式,预测给定点的语义标签。注意仍使用RGB图像输入。

语义场景补全(SSC):使用体素标签监督训练。该任务对应体素查询形式。评估时,场景补全使用IoU(忽略类别),SSC使用mIoU。

4.2 实施细节

3D语义占用预测和激光雷达分割:训练时使用交叉熵损失和lovasz-softmax损失。其中3D语义占用预测会从稀疏点云生成逐体素的伪标签(不含点的体素标记为空),损失函数均使用体素预测;激光雷达分割任务使用点预测计算lovasz-softmax损失,体素预测计算交叉熵损失以提高点分类精度并避免语义模糊。

语义场景补全:使用MonoScene的损失。

4.3 3D语义占用预测结果

主要结果:可视化表明,预测结果比激光雷达更加密集,表明了TPV表达对建模3D场景和语义占用预测的有效性。

测试时的任意分辨率:可以在测试时随意调整TPV平面的分辨率,而无需重新训练网络。

4.4 激光雷达分割结果

作为第一个基于视觉的激光雷达分割任务,本文与其余基于激光雷达的任务比较。实验表明,本文方法能达到相当的性能水平。

4.5 语义场景补全结果

实验表明,本文的方法在性能和速度上均能超过MonoScene,且参数量更低。

4.6 分析

激光雷达分割中的损失函数:当损失函数的两项分别使用点预测和体素预测时,体素预测和点预测的mIoU均很高且相近。当仅使用点预测(体素预测)时,体素预测(点预测)的性能会比点预测(体素预测)明显更低。这表明连续与离散的监督对学习鲁棒表达的重要性。

TPV分辨率和特征维度:提高分辨率带来的性能提升更为显著,因为能增强细粒度结构的建模。

BEV、体素与TPV的比较:各表达使用相似的方法将图像特征提升到3D。结果表明,在相近的模型大小下,TPV的性能与速度均更高。

HCAB与HAB块的数量:当HCAB的数量增加时,IoU增大,这说明直接视觉线索对几何理解的重要性。但上下文信息也很重要,因为最高的mIoU是在适当数量的HCAB与HAB下得到的。

局限性:基于图像的方法的优势是做出3D空间密集预测的能力;但在激光雷达分割任务上,仍不如激光雷达方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/335699.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java(spring cloud)智慧工地(项目层+工地层+APP)源码

智慧工地提供工地智能管理服务,打通数据壁垒,互通管理中心各平台。实现:“可视”、“可控”、“可管”。智慧工地管理云平台是一种利用人工智能和物联网技术来监测和管理建筑工地的系统。它可以通过感知设备、数据处理和分析、智能控制等技术…

chatgpt国内使用网站(免费收藏级)

如果您认为本文对你有帮助,希望可以点赞收藏!感谢您的支持 下面我为你推荐我自己在用的gpt类工具,帮你在工作学习生活上解决一些大小问题 🎉智能GPT 地址: https://meet.adminjs.net 在他的详情中有详细的使用介绍&am…

统信UOS_麒麟KYLINOS安装JDBC驱动包

原文链接:统信UOS/麒麟KYLINOS安装JDBC驱动包 亲爱的读者们,大家好!今天,我为大家带来一篇非常实用的技术文章——在统信UOS和麒麟KYLINOS操作系统上,如何使用Dbeaver连接Oracle数据库。Dbeaver是一个广泛使用的数据库…

工业设备管理系统:助力企业实现数字化转型

随着工业4.0和智能制造的快速发展,数字化转型已成为企业提升竞争力、适应市场变化的必然选择。工业设备管理系统作为数字化转型的关键组成部分,能够为企业提供实时监控、数据分析、预警和远程控制等功能,助力企业实现数字化转型的目标。 一、…

list上

文章目录 初步了解list面试题:为什么会有list?vector的缺点:vector、list优点 list结构迭代器的分类list的简单运用insert、erase、迭代器失效(和vector的区别)erase class和structlist的迭代器为什么这个迭代器的构造…

Lua 快速入门 · 教程笔记

Lua语言快速入门 教程笔记 前言1. Lua 语言介绍2. Lua 语言基础之基本语法声明变量声明方法使用 if - else使用 for使用 while 3. Lua 语言基础之表4. Lua 语言基础之数组插入元素移除元素获取表的长度全局表 5. Lua 语言面向对象之复制表的方式面向对象实现继承和重写父类方法…

SwiftUI 框架有哪些主要优势

SwiftUI是苹果公司在2019年推出的一种用于构建用户界面的框架,它使用Swift语言编写,并且与iOS、iPadOS、macOS、watchOS和tvOS等平台兼容。下面简单的看下有哪些主要的优势。 声明式的界面描述 使用声明式编程风格,通过简洁的代码描述用户界…

SSL证书影响网站搜索结果吗?

SSL(Secure Sockets Layer)证书作为保障网站信息安全的重要工具,其对于网站的搜索引擎优化(SEO)以及搜索结果的表现产生了深远影响。本文将深入探讨SSL证书如何作用于搜索结果,并分析它为何成为现代网络营销…

图片批量建码怎么用?每张图片快速生成二维码

当我们需要给每个人分别下发对应的个人证件类图片信息,比如制作工牌、荣誉展示或者负责人信息展示时,现在都开始使用二维码的方法来展示员工信息。那么如何快速将每个人员的信息图片分别制作成二维码图片呢,最简单的方法就是使用图片批量建码…

【备战蓝桥杯】快来学吧~ 图论巩固,Delia的生物考试

蓝桥杯备赛 | 洛谷做题打卡day12 文章目录 蓝桥杯备赛 | 洛谷做题打卡day12最大食物链计数题目背景题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示题解代码总的思路:拓扑排序 我的一些话 最大食物链计数 题目背景 你知道食物链吗?Delia 生…

Qt/C++中英输入法/嵌入式输入法/小数字面板/简繁切换/特殊字符/支持Qt456

一、前言 在嵌入式板子上由于没有系统层面的输入法支持,所以都绕不开一个问题,那就是在需要输入的UI软件中,必须提供一个输入法来进行输入,大概从Qt5.7开始官方提供了输入法的源码,作为插件的形式加入到Qt中&#xff…

unity 编辑器开发一些记录(遇到了更新)

1、封装Toggle组件 在用toggle等会状态改变的组件时,通过select GUILayout.Toggle(select, text, options)通常是这样做,但是往往有些复杂编辑器需求,当select变化时需要进行复杂的计算,所以不希望每帧去计算select应该的信息。…

Java找二叉树的公共祖先

描述: 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个节点 p、q,最近公共祖先表示为一个节点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节…

目标检测数据集 - 跌倒检测数据集下载「包含VOC、COCO、YOLO三种格式」

数据集介绍:跌倒检测数据集,真实场景高质量图片数据,涉及场景丰富,比如交通事故跌倒、打架跌倒、运动跌倒、楼梯跌倒、生病跌倒、遮挡行人跌倒、严重遮挡行人跌倒数据;适用实际项目应用:公共场所监控或室内…

李沐《动手学深度学习》多层感知机 深度学习相关概念

系列文章 李沐《动手学深度学习》预备知识 张量操作及数据处理 李沐《动手学深度学习》预备知识 线性代数及微积分 李沐《动手学深度学习》线性神经网络 线性回归 李沐《动手学深度学习》线性神经网络 softmax回归 李沐《动手学深度学习》多层感知机 模型概念和代码实现 目录 …

Three.js 学习笔记之模型(学习中1.20更新) | 组 - 模型 - 几何体 - 材质

文章目录 模型 几何体 材质层级模型组- THREE.Group递归遍历模型树结构object3D.traverse() 模型点模型Points - 用于显示点线模型Line | LineLoop | LineSegments网格模型mesh - 三角形网格模型独有的属性与方法 几何体BufferGeometry缓冲类型几何体BufferGeometry - 基类创…

位运算的奇技淫巧

常见位运算总结&#xff1a; 1、基础位运算 左移<<运算 将二进制数向左移位操作&#xff0c;高位溢出则丢弃&#xff0c;低位补0。 右移>>运算 右移位运算中&#xff0c;无符号数和有符号数的运算并不相同。对于无符号数&#xff0c;右移之后高位补0&#xff…

SpringCloud Aliba-Sentinel【中篇】-从入门到学废【5】

&#x1f3b5;歌词分享&#x1f3b5; 岁月在墙上剥落看见小时候。 ——《东风破》 目录 &#x1f953;1.流控规则 &#x1f32d;2. 熔断规则 &#x1f9c8;3.热点规则 &#x1f9c2;4.系统规则 1.流控规则 1.资源名&#xff1a;唯一名称&#xff0c;默认请求路径 2.针对来…

【开源】基于JAVA语言的教学资源共享平台

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 课程档案模块2.3 课程资源模块2.4 课程作业模块2.5 课程评价模块 三、系统设计3.1 用例设计3.2 类图设计3.3 数据库设计3.3.1 课程档案表3.3.2 课程资源表3.3.3 课程作业表3.3.4 课程评价表 四、系统展…

[AI]文心一言出圈的同时,NLP处理下的ChatGPT-4.5最新资讯

前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家&#xff1a;https://www.captainbed.cn/z ChatGPT体验地址 文章目录 前言4.5key价格泄漏ChatGPT4.0使用地址ChatGPT正确打开方式最新功能语音助手存档…