BEVFormer 是一篇今年中稿 ECCV 2022 的论文,其中提出了一种纯视觉(camera)感知任务的算法模型,用于实现3D目标检测和地图分割任务。该算法通过提取环视相机(Bird’s Eye View Camera)采集到的图像特征,并通过模型学习的方式将这些特征转换到BEV空间(Bird’s Eye View),从而实现对目标的检测和分割,并且在实验证明其具有优越的性能。
论文链接:https://arxiv.org/pdf/2203.17270.pdf
BEVFormer的主要流程:
-
Backbone + Neck(ResNet-101-DCN + FPN):BEVFormer使用了ResNet-101作为主干网络,并结合了DCN(Deformable Convolutional Networks)和FPN(Feature Pyramid Network)来提取环视图像的多尺度特征。ResNet-101-DCN用于提取高级语义特征,FPN用于融合不同分辨率的特征图。
-
Encoder模块:BEVFormer引入了Encoder模块,用于将环视图像特征转换为BEV特征。Encoder模块包括两个子模块:Temporal Self-Attention模块和Spatial Cross-Attention模块。Temporal Self-Attention模块用于捕捉时间序列上的运动信息,Spatial Cross-Attention模块用于学习不同视角的特征之间的关系。
-
Decoder模块:BEVFormer的Decoder模块类似于Deformable DETR(Detection Transformer)模块,用于完成3D目标检测的分类和定位任务。Decoder模块接受BEV特征作为输入,对各个位置上的物体进行分类和位置回归。
-
正负样本的定义:BEVFormer采用了Transformer中常用的匈牙利匹配算法来定义正负样本。通过匈牙利匹配,将BEV中的ground truth与预测框进行匹配,得到每个预测框的分类标签和位置目标。
-
损失的计算:BEVFormer的损失函数由两部分组成。分类损失使用Focal Loss计算,位置回归损失使用L1 Loss计算。两部分损失被加权求和,得到总体损失。
-
反向传播和参数更新:根据总体损失,通过反向传播算法更新网络模型参数,使其逐渐优化。
这篇文章很适合精读,推荐给大家了解