经典文献阅读之--iDet3D(交互式3D目标检测器)

Tip: 如果你在进行深度学习、自动驾驶、模型推理、微调或AI绘画出图等任务，并且需要GPU资源，可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU，按时收费每卡2.6元，月卡只需要1.7元每小时，并附带200G的免费磁盘空间。通过链接注册并联系客服，可以获得20元代金券（相当于6-7H的免费GPU资源）。欢迎大家体验一下~

0. 简介

在激光雷达场景中准确标注多个3D物体是费时且具有挑战性的工作。虽然之前有一些研究尝试利用半自动方法进行成本效益高的包围盒标注，但这些方法在有效处理大量多类别物体时存在局限。为了有效加速3D标注流程，《iDet3D: Towards Efficient Interactive Object Detection for LiDAR Point Clouds》提出了iDet3D，一个高效的交互式3D物体检测器。iDet3D支持用户友好的2D界面，该界面可以减轻用户在3D空间中进行点击交互的认知负担，使用户能够通过最少的交互完成每个场景中全部物体的标注。考虑到3D点云的稀疏性，我们设计了一种负点击模拟(NCS)机制来提高准确性，通过减少误报预测。此外，iDet3D结合了两种点击传播技术，充分利用用户交互：(1) 稠密点击引导(DCG)，保持网络中用户提供的信息；(2) 空间点击传播(SCP)，基于用户指定的物体检测同一类别的其他实例。通过我们的广泛实验，我们展示了我们的方法可以在几次点击中构建精确的标注，这表明它作为3D物体检测的高效标注工具具有实用性。这个工具目前还没开源，可以期待一波

1. 主要贡献

在图1中，我们展示了我们提出的iDet3D的一个交互式标注示例，通过在行人身上进行正点击，然后进行负点击来抑制误报。我们的主要贡献如下：

我们提出了iDet3D，这是一个新颖的交互式3D物体检测器，能够在用户点击几次后检测激光雷达点云中的不同类别的多个物体。
NCS策略使得iDet3D能够利用用户给定的负点击来减少误报。
我们精心设计了有效的点击传播方法(DCG和SCP)，以充分利用网络和3D场景中用户提供的交互。
我们在几个3D激光雷达数据集上进行的广泛实验显示了iDet3D作为标注工具的有效性。

在这里插入图片描述

图1：iDet3D的迭代标注过程示例。(a) 给定的输入点云。(b) 在行人上提供正点击（红圈），提出的iDet3D可以在单次点击中检测场景中各类多个物体。(c ) 在第二次迭代中，可以通过增加单个负点击（蓝圈）一次性过滤掉误报。(d) 真实标注。在几次迭代内，可以获得高质量的标注结果。

2. 方法

2.1 概述

在本文中，我们基于IA-SSD主干（张等人，2022年）描述了我们提出的iDet3D，这是一个最近提出的3D物体检测器。值得注意的是，我们的原则可以轻松地适用于其他单阶段基于点的检测器。iDet3D支持两种类型的用户交互：特定类别的正点击和与类别无关的负点击，分别用来指示前景物体的位置和背景区域。图2展示了iDet3D的整体架构。
在这里插入图片描述

图2：iDet3D的训练工作流程。给定用户在目标物体上的点击，这些点击被转换为点击编码。
(a) 密集点击引导（DCG）不仅在输入端而且在中间层将编码融合到主干网络架构中。
(b) 负点击模拟（NCS）通过选择具有高前景分数的具有挑战性的背景点来随机模拟可能的负点。
© 接下来的空间点击传播（SCP）模块有效地传播用户点击，以便根据特征嵌入之间的相似性检测同一类别的其他物体。

2.2 点击编码

在给定的3D场景中提供交互的一种直接方法是直接点击感兴趣的物体（Kontogianni等人，2022年）。然而，指定广阔3D空间中一个小点的3D坐标对用户来说是一个巨大的认知负担。

因此，我们开发了一个用户友好的2D视图界面，用户可以在其中提供简单的2D点击以标注目标物体。为了更好地理解，我们可视化了3D和我们的2D界面之间的区别。在3D界面中，光标的轻微移动可能会导致另一个轴上的坐标发生不希望的移动。然而，我们的2D标注环境可以通过消除指定z轴位置的需求来减少此类错误。

假设在一个场景上提供了 $K$ 个特定类别的正点击以标注 $C$ 个类别的总共的前景物体。那么，第 $k$ 个点击可以写为 $p_k，c_k)$ ，其中 $p_k = (p_{k,x}, p_{k,y})$ 表示点击的2D坐标， $c_k ∈ \{1, · · · , C\}$ 是相应的类别。遵循深度交互式标注方法的传统（Xu等人，2016年），我们将用户点击转换为相应的距离热图以生成适合基于点的检测器的合适输入。给定由N个点组成的3D点云场景 ${(x_i，y_i，z_i)\}^{N_{i=1}}$ ，我们将(pk, ck)编码成点击编码 $E_k ∈ \mathbb{R}^N$ ，其第 $i$ 个元素是

在这里插入图片描述
在等式(1)中， $=\sqrt{(p_{k,x} − x_i)^2 + (p_{k,y} − y_i)^2}$ 表示 $p_k$ 和 $x_i, y_i)$ 之间的2D欧几里得距离， $τ$ 是一个超参数，用于控制距离阈值。注意 $E_k$ 的设计是为了在[0, 1]的范围内突出显示 $p_k$ 及其邻近点。

为了有效地将编码后的点击 $\{E_k\}^K_{k=1}$ 输入到网络，我们通过逐元素最大池化定义了类别 $c ∈ \{1, · · · , C\}$ 的类别级点击编码 $U_c ∈ \mathbb{R}^N$ ，即：

在这里插入图片描述
在生成了 $C$ 个编码后，我们将 $\{U_c\}^C_{c=1}$ 与对应的输入点连接起来。为了更好地理解，我们在图3中展示了由两次点击“汽车”类别计算出的Uc的示例。我们通过结合该点击编码和背景编码器来定义一个基本模型。
在这里插入图片描述

图3：我们的iDet3D中点击编码的视觉示例。 (a) 输入点云和用户点击（红色箭头）。 (b) 目标物体上突出显示的相应距离编码用户交互。

2.3 负点击模拟

我们观察到，仅含有正点击的基本模型未能将背景点云与前景点云分开，导致了意外的假阳性预测。为了缓解类似问题，之前关于交互式分割的研究（Xu et al. 2016; Sofiiuk, Petrov, and Konushin 2022）利用了负点击来指示不需要的区域。通常情况下，他们会基于这样的假设来随机抽样负点击：真实用户可能会在前景区域外但靠近物体边界的区域提供负点击。然而，由于3D物体检测中的假阳性无论前景物体位置如何都可能发生，交互式分割的模拟策略可能无法合理地推导出负点击。

相反，我们提出了适合3D物体检测的负点击模拟（NCS），旨在抽样具有挑战性的背景点，这些点可能会被不准确地预测为前景。为此，我们利用了最近基于点的检测器的下采样方法中嵌入的MLP基础评分（Zhang et al. 2022; Chen et al. 2022）。该方法为潜在的前景点分配高分，并选择排名前n的点进行下采样，这意味着一些具有挑战性的背景点可能会被排在前n名。

我们将这一层的功能扩展为负点击模拟器，通过选择具有高前景分数的背景点作为负点击。采用此模拟策略后，我们抽样前 $K_n$ 个背景点，并以与正点击相同的方式进行编码，即点击编码变为 $(C + 1)$ 通道，其中额外的单个通道用于类别不可知的负点击。

2.4 用户点击传播

除了假阳性预测的局限性外，我们发现原始模型有时无法检测到用户指定的对象。这一发现意味着模型的两个缺点：（1）用户意图可能在网络层的前向传播中被稀释；（2）用户点击在影响多个对象方面受到限制。为了解决这些问题，我们提出了两种点击传播方法，即DCG（密集点击引导）使iDet3D维持用户意图，以及SCP（空间点击传播）增强用户点击对同一类别其他对象的影响力。