经典文献阅读之--VoxFormer(基于Transformer的3D语义场景补全)

0. 简介
之前了解了很多BEV的相关操作，但是基本上要么是激光和视觉结合，要么是纯视觉完成的2D激光投影这两种，而那种3D Occupancy方法可以利用栅格的方法完成纯视觉占据栅格的生成。《VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Completion》就是这种方法对于被遮挡的物体和场景，人们可以很容易地联想出其完整的3D几何结构，这种吸引人的能力对于AI系统来说是一个至关重要的。为了应对这种挑战，语义场景补全（SSC）任务应运而生，以往的SSC通常以3D点云作为输入，或以密集特征投影将2D图像作为输入来得到3D语义补全结果。但是论文提出了VoxFromer，一个基于Transformer的语义场景补全 (SSC，Semantic Scene Completion) 框架，可以仅从二维图像中预测空间中的体素占据和类别。

VoxFromer的框架采用两阶段设计，首先从深度估计得到一组稀疏的可见和占据的体素 query proposals，然后从稀疏体素生成密集的三维体素。相关的代码已经在Github上开源了。

图1. (a) VoxFormer的示意图，用于基于相机的语义场景补全，仅通过2D图像预测完整的3D几何和语义信息。在根据深度获取体素查询提案后，VoxFormer通过类似MAE的架构生成语义体素[3]。(b) 在SemanticKITTI [5]数据集上与最先进的MonoScene [4]进行不同范围的比较。VoxFormer在安全关键的短距离区域表现更好，而MonoScene在三个距离上表现不佳。相对增益用红色标记。被遮挡区域进一步支持了这一任务的完成。

1. 主要贡献
现有的基于视觉方案的SSC，如MonoScence，使用密集特征投影将2D图像输入提升为3D空间。

然而，这样的投影不可避免地会将可见区域的2D特征分配给空的或被遮挡的体素。例如，被汽车遮挡的空体素仍将获得汽车的视觉特征。结果，生成的3D特征包含许多歧义，无法用于后续的几何补全和语义分割，导致性能不尽如人意。

与 MonoScene 不同，VoxFormer考虑3D到2D交叉注意力来表示 sparse query。所提出的设计受到以下启发：

1.遮挡区域场景推断：以重建的可见区域作为起点，可以更好地完成不可见区域的三维信息;

2.稀疏三维空间表示：由于三维空间大量的体素通常是不被占用的，使用稀疏表示而不是密集表示肯定更有效和可伸缩；

VoxFormer的主要贡献如下：

3.一种新颖的两阶段框架，将图像提升到一个完整的3D体素化语义场景

4.一种基于2D卷积的新型查询提议（query proposal）网络，可以从图像深度生成可靠的查询

5.一种新的 Transformer 类似于 sparse-to-dense MAE-like 的结构，产生完整的3D场景表示

6.VoxFormer 在 SemanticKITTI 的SCC任务上取得SOTA

3. 总体架构
我们基于Transformer从2D图像中学习SSC的3D体素特征，如图2所示：我们的架构从RGB图像中提取2D特征，然后使用一组稀疏的3D体素查询来索引这些2D特征，通过相机投影矩阵将3D位置与图像流链接起来。具体而言，体素查询是一种3D网格形状的可学习参数，通过注意机制[67]从图像中查询3D体积内的特征。我们的框架是一个由类别不可知的提议和类别特定分割组成的两阶段级联，类似于[68]：第一阶段生成类别不可知的查询提议，第二阶段使用类似于MAE的架构将信息传播到所有体素。最终，体素特征将被上采样用于语义分割。