深度学习(DL)已成为点云分析任务(如检测、分割和分类)的主流和有效方法之一。为了减少深度学习模型训练过程中的过拟合,提高模型性能,尤其是在训练数据的数量和/或多样性有限的情况下,增强往往至关重要。虽然各种点云数据增强方法已被广泛应用于不同的点云处理任务中,但目前还没有关于这些方法的系统调查或综述。因此,本文对这些方法进行了调查,并将它们归入一个分类框架,其中包括基本的和专门的点云数据增强方法。通过对这些扩增方法的综合评估,本文指出了它们的潜力和局限性,为选择合适的扩增方法提供了有用的参考。此外,还提出了未来研究的潜在方向。本调查报告有助于全面概述点云数据扩增的现状,促进其更广泛的应用和发展。
Basic point cloud augmentation
Typical basic operations
Affine transformation
仿射变换涉及仿射空间的变换,它保留了共线性和距离比。在图像数据增强方面,常用的仿射变换方法包括缩放、平移、旋转、反射和剪切。同样,仿射变换也可用于点云数据增强。典型的方法包括平移、旋转、翻转和缩放,这些方法已被广泛用于生成额外的新训练数据。这些操作可应用于整个点云数据集,也可使用特定策略应用于点云数据中的选定实例(实例指语义对象,如图 2(a) 中所示的车辆),或选定实例的特定部分。通过仿射变换增强的数据可能会面临信息丢失或语义不合理的问题,具体操作将在下文中说明。
平移表示将选定的点云数据按特定距离和方向移动,如图 2(b)所示。这种增强功能可以帮助 DL 模型更好地学习不同位置的实例,降低模型对场景中实例空间变化的敏感性。不过,谨慎选择平移范围和方向非常重要。例如,平移可能会导致遮挡或使实例出现在语义不恰当的位置,如汽车与建筑物重叠时,就会偏离合理的场景。此外,大范围的平移可能会将实例移到目标场景之外,造成信息丢失。
旋转表示按照指定的方向和角度旋转选定的点云数据,如图 2(c) 所示。这种增强可用于模拟不同的物体方向或传感器视点,增强 DL 模型处理实例姿态变化的能力。在数据集中,实例的姿态主要是,旋转增强应考虑到现实世界中涉及传感器倾斜和实例旋转的情况。在旋转增强中,可能需要一组不同的旋转来充分代表不同的实例方向,尤其是不常见的方向。但是,这种增强可能不适合绝对物体方向至关重要的情况。此外,较大的旋转可能会扭曲实例,从而影响模型学习有意义特征的能力。
缩放包括对选定的点云数据进行比例变换,如图 2(d) 所示。这种增强可以模拟各种物体尺寸,增强 DL 模型对比例变化的适应性。由于网络感受野的变化,原始输入数据可能不是网络的最佳比例。通过缩放操作,网络可以处理不同输入尺寸的点云数据。许多研究都强调了多尺度训练的有效性[10],尤其是在小目标感知方面[11]。不过,应注意选择适当的缩放比例,以避免引入不切实际的几何图形,从而影响数据点之间的空间关系。此外,缩放范围的选择应避免对点云数据中的实例或区域过度采样或采样不足,因为缩放会增加或减少点数据的密度。
如图 2(e)所示,翻转表示将选定的点云数据沿指定轴翻转的操作。这种方法增强了 DL 模型对实例方向和对称特征的泛化能力。在实例级数据集中,水平翻转和垂直翻转都很常用。然而,在场景级数据集中,垂直翻转无助于提高模型的可区分性[12]。例如,在自动驾驶数据集 nuScenes [13]中,为了防止语义模糊,只使用了水平翻转。场景中垂直翻转的人和车的实例在语义上可能不真实,从而可能影响模型性能。
Drop
如图 3 所示,删除指的是丢弃点云数据中的某些数据点。如何选择要删除的点取决于研究人员制定的具体策略。丢弃的点可以是整个点云数据的一部分,也可以是场景中随机选择的点。丢弃点扩增可以帮助 DL 模型更稳健地应对缺失或不完整的数据,这些数据代表了遮挡或部分可见的场景。它还可以防止 DL 模型过于依赖于训练数据集中的特定数据点。然而,丢失过多或关键的点云信息可能会导致训练数据中真实世界物体的表现不真实,并影响 DL 模型的训练,尤其是在数据密度较大或物体较小的情况下。