原文链接:https://arxiv.org/abs/2302.02367
1. 引言
目前基于激光雷达的主流方法分为基于点云的方法和基于体素的方法。前者能保留最多的几何信息,但点查询和遍历耗时;后者使用3D/2D卷积处理体素化点云,但用于提高效率的3D稀疏卷积在部署时会遇到困难。
PointPillars作为设备部署的流行方法,使用对部署有利的2D卷积。但其使用最大池化提取每个柱体内点的特征,无法获取细粒度特征,影响最终性能(特别是对于小物体)。此外,其颈部网络FPN直接融合多尺度特征,缺少充分的特征交互。尽管PillarNet提高了PointPillars的性能,但其使用了部署困难的稀疏卷积。
本文提出FastPillars,基于标准卷积,容易部署。网络包含4个部分:柱体编码、特征提取、特征融合和3D边界框回归。对于柱体编码,本文提出最大-注意力柱体编码(MAPE)模块,在不引入额外计算时间的情况下自动学习局部几何模式。对于特征提取,本文提出紧凑而高效的主干网络CRVNet。特征融合模块中,通过层次融合不同尺度和感受野的特征丰富语义特征。3D边界框回归使用基于中心的方法。
2. 相关工作
3D目标检测中的工业级轻量网络结构:YOLO系列使用CSPNet,在独立的两个分支中处理部分特征,达到更丰富的梯度组合,从而减小存储和计算并提高性能。
RepVGG使用重参数化结构,使用3个分支替代VGG中的Conv-BN-ReLU结构,以帮助优化;推断时使用重参数化将3个分支合并以提高推断速度。
3. 本文的方法
网络结构如下图所示。网络包含4个部分:柱体编码、特征提取、特征融合和3D边界框回归。
3.1 最大-注意力柱体编码(MAPE)
如下图所示,本文的MAPE包含三个单元:点编码单元、最大池化编码单元和注意力池化编码单元。记非空柱体
i
i
i内的点集为
p
i
∈
R
N
×
5
p_i\in\mathbb{R}^{N\times 5}
pi∈RN×5(5表示3维位置、反射强度和相对时间戳)。
点编码:首先使用各点与柱体中心的偏移量
(
x
i
c
,
y
i
c
,
z
i
c
)
(x^c_i,y_i^c,z_i^c)
(xic,yic,zic)以及各点坐标与最小坐标的偏移量
(
x
i
r
,
y
i
r
,
z
i
r
)
(x^r_i,y_i^r,z_i^r)
(xir,yir,zir)增强各点的特征,得到
p
^
i
∈
R
N
×
11
\hat{p}_i\in\mathbb{R}^{N\times 11}
p^i∈RN×11。注意此处与PointPillars不同,不会为了保证各柱体点数相同而丢弃任何点。然后使用MLP将各点映射到高维空间得到
p
i
e
∈
R
N
×
D
p_i^e\in\mathbb{R}^{N\times D}
pie∈RN×D。
最大池化编码:使用最大池化聚合柱体内点的特征,得到
f
i
m
e
∈
R
D
f_i^me\in\mathbb{R}^{D}
fime∈RD。
注意力池化编码:用于保留细粒度信息。使用MLP处理柱体内的点得到注意力分数
s
i
∈
R
N
×
D
s_i\in\mathbb{R}^{N\times D}
si∈RN×D,然后根据
s
i
s_i
si加权求和:
f
i
a
=
∑
s
i
⋅
p
i
e
∑
s
i
f_i^a=\frac{\sum s_i\cdot p_i^e}{\sum s_i}
fia=∑si∑si⋅pie
其中
f
i
a
∈
R
D
f^a_i\in\mathbb{R}^{D}
fia∈RD。
最后,平均 f i a f_i^a fia与 f i m f_i^m fim得到 f i ∈ R D f_i\in\mathbb{R}^{D} fi∈RD,其包含了柱体内的全局信息和细粒度局部信息。MAPE能极大提升小物体的检测能力。
3.2 CRVNet主干
基于CSPNet和RepVGG,本文提出CRVNet,基于VGG或ResNet34搭建模型,其基本结构单元如下图所示。使用CSP结构能实现紧凑而高效的网络。由于单路径网络的计算代价和参数量会随模型容量指数增加,本文引入RepBlock。推断时,每个RepBlock会被转化为
3
×
3
3\times3
3×3卷积+激活函数的形式(称为RepConv),以减小推断时间。
3.3 颈部与基于中心的头部
颈部使用PillarNet的颈部设计,融合主干网络多尺度特征。回归头在CenterPoint的基础上添加IoU分支,估计预测边界框和真实边界框的IoU,并使用IoU感知的修正函数减小分类与回归预测的间隙。修正的置信度分数
C
C
C按下式计算,并用于NMS后处理:
C
=
S
1
−
α
+
I
α
C=S^{1-\alpha}+I^{\alpha}
C=S1−α+Iα
其中
S
S
S为预测置信度分数,
I
I
I为预测IoU,
α
∈
[
0
,
1
]
\alpha\in[0,1]
α∈[0,1]。
分类与回归预测的间隙/不一致性:分类分数最高的框不一定是最回归最准的框。
3.4 损失函数
使用CenterPoint的损失函数。对于IoU预测,使用L1损失,回归目标
I
I
I被缩放到
2
×
(
I
−
0.5
)
∈
[
−
1
,
1
]
2\times(I-0.5)\in[-1,1]
2×(I−0.5)∈[−1,1]内;此外添加DIoU损失
L
o
d
−
i
o
u
\mathcal{L}_{od-iou}
Lod−iou。总损失如下:
L
t
o
t
a
l
=
λ
1
L
c
l
s
+
λ
2
L
i
o
u
+
λ
3
(
L
o
d
−
i
o
u
+
L
r
e
g
)
\mathcal{L}_{total}=\lambda_1\mathcal{L}_{cls}+\lambda_2\mathcal{L}_{iou}+\lambda_3(\mathcal{L}_{od-iou}+\mathcal{L}_{reg})
Ltotal=λ1Lcls+λ2Liou+λ3(Lod−iou+Lreg)
4. 实验
实施细节:使用随机翻转、旋转和缩放数据增广、GT增广(带衰退策略);测试时使用双翻转数据增广。
4.1 主要结果
4.1.1 定量评估
在nuScenes测试集上,FastPillars能超过SotA方法的性能,且能达到实时性。
4.1.2 与实时一阶段方法比较
与PillarNet比较,本文的方法有2倍的速度而性能相当。
4.2 消融实验
4.2.1 最大-注意力柱体编码模块
与最大池化相比,本文的MAPE模块能提高性能,且在小物体上的性能提升较大。这证明了MAPE能提取细粒度的局部集合信息。
补充材料
B. MAPE不同池化操作的消融实验
与仅使用注意力池化或仅使用最大池化等方法相比,本文的最大+注意力池化方法有最高的性能,因其融合了主要特征和局部几何特征。