经典文献阅读之--VoxFormer(基于Transformer的3D语义场景补全)

0. 简介
之前了解了很多BEV的相关操作,但是基本上要么是激光和视觉结合,要么是纯视觉完成的2D激光投影这两种,而那种3D Occupancy方法可以利用栅格的方法完成纯视觉占据栅格的生成。《VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion》就是这种方法对于被遮挡的物体和场景,人们可以很容易地联想出其完整的3D几何结构,这种吸引人的能力对于AI系统来说是一个至关重要的。为了应对这种挑战,语义场景补全(SSC)任务应运而生,以往的SSC通常以3D点云作为输入,或以密集特征投影将2D图像作为输入来得到3D语义补全结果。但是论文提出了VoxFromer,一个基于Transformer的语义场景补全 (SSC,Semantic Scene Completion) 框架,可以仅从二维图像中预测空间中的体素占据和类别。

VoxFromer的框架采用两阶段设计,首先从深度估计得到一组稀疏的可见和占据的体素 query proposals,然后从稀疏体素生成密集的三维体素。相关的代码已经在Github上开源了。

图1. (a) VoxFormer的示意图,用于基于相机的语义场景补全,仅通过2D图像预测完整的3D几何和语义信息。在根据深度获取体素查询提案后,VoxFormer通过类似MAE的架构生成语义体素[3]。(b) 在SemanticKITTI [5]数据集上与最先进的MonoScene [4]进行不同范围的比较。VoxFormer在安全关键的短距离区域表现更好,而MonoScene在三个距离上表现不佳。相对增益用红色标记。被遮挡区域进一步支持了这一任务的完成。

1. 主要贡献
现有的基于视觉方案的SSC,如MonoScence,使用密集特征投影将2D图像输入提升为3D空间。

然而,这样的投影不可避免地会将可见区域的2D特征分配给空的或被遮挡的体素。例如,被汽车遮挡的空体素仍将获得汽车的视觉特征。结果,生成的3D特征包含许多歧义,无法用于后续的几何补全和语义分割,导致性能不尽如人意。

与 MonoScene 不同,VoxFormer考虑3D到2D交叉注意力来表示 sparse query。所提出的设计受到以下启发:

1.遮挡区域场景推断:以重建的可见区域作为起点,可以更好地完成不可见区域的三维信息;

2.稀疏三维空间表示:由于三维空间大量的体素通常是不被占用的,使用稀疏表示而不是密集表示肯定更有效和可伸缩;

VoxFormer的主要贡献如下:

3.一种新颖的两阶段框架,将图像提升到一个完整的3D体素化语义场景

4.一种基于2D卷积的新型查询提议(query proposal)网络,可以从图像深度生成可靠的查询

5.一种新的 Transformer 类似于 sparse-to-dense MAE-like 的结构,产生完整的3D场景表示

6.VoxFormer 在 SemanticKITTI 的SCC任务上取得SOTA

 

 

3. 总体架构
我们基于Transformer从2D图像中学习SSC的3D体素特征,如图2所示:我们的架构从RGB图像中提取2D特征,然后使用一组稀疏的3D体素查询来索引这些2D特征,通过相机投影矩阵将3D位置与图像流链接起来。具体而言,体素查询是一种3D网格形状的可学习参数,通过注意机制[67]从图像中查询3D体积内的特征。我们的框架是一个由类别不可知的提议和类别特定分割组成的两阶段级联,类似于[68]:第一阶段生成类别不可知的查询提议,第二阶段使用类似于MAE的架构将信息传播到所有体素。最终,体素特征将被上采样用于语义分割。 

点击经典文献阅读之--VoxFormer(基于Transformer的3D语义场景补全) - 古月居 可查看全文

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/613528.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis如何避免数据丢失?——RDB

目录 1. RDB机制的配置 2. fork()函数和写时复制(Copy On Write) 什么是Copy On Write 系统fork中使用Copy On Write机制 3. RDB文件结构 RDB文件内容和内容顺序 InfoAuxFields是rdb信息数据 数据库数据 数据 数据存储格式 字符串编码 操作码 4. RDB的2…

Measurement and Analysis of Large-Scale Network File System Workloads——论文泛读

ATC 2008 Paper 分布式元数据论文阅读笔记整理 问题 网络文件系统在当今的数据存储中发挥着越来越重要的作用。使用网络文件系统可以降低管理成本,从多个位置可靠地访问的数据。这些系统的设计通常以对文件系统工作负载和用户行为的理解为指导[12,19&a…

STL——deque容器【双端动态数组】

deque容器的基本概念: 功能:双端数组,可以对头端进行插入删除操作 deque与vector的区别: vector队友头部的插入删除效率低,数据量越大,效率越低deque相对而言,对头部的插入删除速度会比vecto…

Type-C接口声卡OTG线

随着科技的飞速发展,移动设备已成为我们日常生活中不可或缺的一部分。而在这些设备中,Type-C接口凭借其高速、高效、易用等优点,逐渐成为主流的数据传输和充电接口。与此同时,OTG(On-The-Go)技术的兴起&…

Java刷题-基础篇

目录 题目1:打印1~100内奇数和、偶数和 题目2:计算5的阶乘 题目3:计算 1!2!3!4!5! 的和 题目4:找1~100之间即能被3整除,又能被5整除的数字,要求必须使用break/continue 题目5:实现猜数字小…

毕业论文答辩PPT该怎么做?推荐3个ai工具帮你做答辩ppt

在我原本的认知里面,答辩PPT是要包含论文各个章节的,在答辩时需要方方面面都讲到的,什么摘要、文献综述、实证分析、研究结果样样不落。但是,这大错特错! 答辩PPT环节时长一般不超过5分钟,老师想要的答辩P…

HarmonyOS NEXT星河版之美团外卖点餐功能实战(下)

文章目录 一、购物车逻辑1.1 购物车及加减菜1.2 菜品的加减---方案一1.3 菜品的加减---方案二1.4 购物车View完善1.5 清空购物车1.5 购物车数量和价格 二、小结 一、购物车逻辑 1.1 购物车及加减菜 在utils目录下新建CartStore.ets文件,如下: import …

IndexedDB解密:打开Web应用的数据存储之门

欢迎来到我的博客,代码的世界里,每一行都是一个故事 IndexedDB解密:打开Web应用的数据存储之门 前言IndexedDB简介数据库操作数据检索与索引异步操作与事件处理 前言 在Web的世界里,数据就像是一群旅行者,它们来自各个…

AGV混合型电机驱动器|伺服控制器CNS-MI50H系列对电机的要求

混合型电机驱动器 CNS-MI50H系列涵盖CNS-MI50HB-A、CNS-MI50HBN-A、CNS-MI50HDN-A、CNS-MI50HSN-A型号,专为 AGV 舵轮控制需求设计,集成舵轮转向角度控制和驱动电机闭环控制。支持增量式编码器,霍尔传感器, 角度电位计&#xff0c…

利用106短信群发平台能否提升沟通效率?

利用106短信群发平台确实能够显著提升沟通效率,具体体现在以下几个方面: 1.快速传递信息:106短信群发平台能够实现信息的快速传递。一旦设置好发送内容和接收群体,短信便能在瞬间发送至大量用户。这种即时性确保了信息的迅速传达…

Linux开发--Bootloader应用分析

Bootloader应用分析 一个嵌入式 Linux 系统从软件的角度看通常可以分为四个层次: 引导加载程序。包括固化在固件( firmware )中的 boot 代码(可选),和 Boot Loader 两大部分。 Linux 内核。特定于嵌入式板子的定制内核以及内核的启动参数。 文件系统…

idea-自我快捷键-2

1. 书签 创建书签: 创建书签:F11创建特色标记书签:Ctrl F11快速添加助记符书签:ctrl shift 数字键 查看书签: shift F11快速定位到助记符书签:Ctrl 数字键 删除书签: delete 2. 自动…

2024年第四届电子信息工程与计算机科学国际会议(EIECS 2024)

2024年第四届电子信息工程与计算机科学国际会议(EIECS 2024) 2024 4th International Conference on Electronic Information Engineering and Computer Science 中国延吉 | 2024年9月27-29日 投稿截止日期:2023年7月15日 收录检索:EI Compendex和Sc…

Remix Client/Server 架构

Remix 框架是服务端渲染架构,当路由请求时生成 HTML 并返回浏览器。这种 SSR 是如何实现的呢?如果不使用 Remix 这种框架,可以在服务器段启动一个无头浏览器进行页面渲染并返回,代价就是要在服务器上启动一个 Chrome 服务&#xf…

微信小程序按钮去除边框线

通常我们去掉按钮边框直接设置 border:0 但是在小程序中无效,设置outline:none也没用,当然可能你会说加权重无效 实际上该样式是在伪元素::after内,主要你检查css 还看不到有这个关系,鹅厂就是坑多 类样式::after {border: non…

【北京迅为】《iTOP-3588从零搭建ubuntu环境手册》-第3章 Ubuntu20.04系统设置

RK3588是一款低功耗、高性能的处理器,适用于基于arm的PC和Edge计算设备、个人移动互联网设备等数字多媒体应用,RK3588支持8K视频编解码,内置GPU可以完全兼容OpenGLES 1.1、2.0和3.2。RK3588引入了新一代完全基于硬件的最大4800万像素ISP&…

论文精读-存内计算芯片研究进展及应用

文章目录 论文精读-存内计算芯片研究进展及应用概述背景介绍前人工作 存内计算3.1 SRAM存内计算3.2 DRAM存内计算3.3 ReRAM/PCM存内计算3.4 MRAM存内计算3.5 NOR Flash存内计算3.6 基于其他介质的存内计算3.7 存内计算芯片应用场景 总结QA 论文精读-存内计算芯片研究进展及应用…

Echarts旭日图的配置项,强大的层级关系展示图表。

ECharts中的旭日图(Sunburst Chart)是一种数据可视化图表,用于展示层级关系数据。它通常用于呈现树状结构或层级结构的数据,例如组织结构、文件目录结构、地理区域层级等。 旭日图通过圆形的方式展示数据的层级结构,每…

动手学深度学习16 Pytorch神经网络基础

动手学深度学习16 Pytorch神经网络基础 1. 模型构造2. 参数管理1. state_dict()2. normal_() zeros_()3. xavier初始化共享参数的好处 3. 自定义层4. 读写文件net.eval() 评估模式 QA 1. 模型构造 定义隐藏层–模型结构定义前向函数–模型结构的调用 import torch from torch…

Windows密码破解常见手段

mimikatz导出lsass破解 如果域管在成员机器上登录过,那么密码机会保存到lsass.exe进程当中,可以通过mimikatz读取密码 用本地管理员登录本地机器 导出hash reg add HKLM\SYSTEM\CurrentControlSet\Control\SecurityProviders\WDigest /v UseLogonCred…