InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction
https://github.com/DanielMing123/InverseMatrixVT3D
InverseMatrix3D过程总结如下:
1. 用2D backbone提取N个视角的多尺度图像特征,表示如下:
2. 针对每个level的特征,都构造2个投影矩阵,分别叫全局投影矩阵和局部投影矩阵。
全局投影矩阵表示如下:
局部投影矩阵表示如下:
其中,X、Y、Z表示3D occ空间中每个grid的位置。矩阵是根据相机内、外参计算得到,作者没有预测depth。
3. 各个level的局部特征和全局特征生成。
局部特征:
全局特征:
其中,X^l表示该level的图像特征。作者发现,局部投影矩阵和全局投影矩阵比较稀疏,在这里,作者引入了稀疏矩阵。将对内存的消耗由15G降到了200M。
4. 局部特征和全局特征融合。作者引入了全局-局部注意力融合模块,如下图所示。
用2d卷积、efficient window attention、aspp refine局部全局特征。用3d卷积、FFN(Feed-Forward Network)生成注意力权重。其中,σ为sigmoid函数。
5. 在融合后的occ特征中,接occ head。
实验
消融实验