1. 为什么提出稀疏卷积?它有什么好处?
卷积神经网络已经被证明对于二维图像信号处理是非常有效的。然而,对于三维点云信号,额外的维度显著增加了计算量。
另一方面,与普通图像每个像素都有值不同的是,一般情况下三维点云中多数空间都是空的,这使得三维体素中的点云数据通常是稀疏信号。
我们是否能只计算有效数据的卷积,而不是扫描所有的图像像素或空间体素?否则这些空白区域带来的计算量太多余了。这就是 sparse convolution 提出的motivation。
2. 稀疏卷积的原理
为了逐步解释稀疏卷积的概念,使其更易于理解,本文以二维稀疏图像处理为例。由于稀疏信号采用数据列表和索引列表表示,二维和三维稀疏信号没有本质区别。
2.1. 输入定义
使用以下稀疏图像作为输入
如图所示,我们有一个5×5的3通道图像。除了P1和P2两点外,所有像素都是空,我们称像P1和P2这样的非空点为active input site。
在稀疏格式中,数据列表是[[0.1,0.1,0.1], [0.2,0.2,0.2] ,索引列表是[1,2] ,[2,3] ,并且是YX顺序。
2.2. kernel定义
在卷积过程中卷积核如下定义,每个卷积核是一个3x3矩阵。深色和浅色代表两种滤镜。
2.3. 输出的定义
有两种稀疏卷积。
一种是 regular output definition,就像普通的卷积一样,只要kernel 覆盖一个 active input site,就可以计算出output site。
另一个称为submanifold output definition。只有当kernel的中心覆盖一个 active input site时,卷积输出才会被计算。
上图说明了这两种输出之间的区别。
A1代表 active site,即 P1产生的卷积结果。
类似地,A2代表从 P2计算出的 active site。A1A2代表 active site,它是 P1和 P2输出的总和。
深色和浅色代表不同的输出通道。
参考文献
通俗易懂的解释Sparse Convolution过程 - 知乎
点云深度学习-PointPillar_哔哩哔哩_bilibili