【论文解读】QUEST: Query Stream for Practical Cooperative Perception

QUEST

摘要
引言
QUERY COOPERATION PARADIGM
QUEST FRAMEWORK
- A. Overall Architecture
- B. Cross-agent Query Interaction
实验
结论

摘要

合作感知通过提供额外的视点和扩展感知领域，可以有效地提高个体感知性能。现有的合作模式要么是可解释的(结果合作)，要么是灵活的(特征合作)。在本文中，我们提出了查询协作的概念，以实现可解释的实例级灵活的特征交互。为了具体解释这一概念，我们提出了一个称为QUEST的合作感知框架，该框架允许查询流在代理之间流动。跨代理查询通过对共同感知实例的融合和对单个未感知实例的补充进行交互。以基于摄像头的车辆基础设施感知为典型的实际应用场景，在DAIR-V2X-Seq真实数据集上的实验结果验证了QUEST的有效性，进一步揭示了查询协作范式在传输灵活性和对丢包的鲁棒性方面的优势。我们希望我们的工作能够进一步促进跨代理表示交互，从而在实践中获得更好的合作感知。

引言

我们提出了查询协作的概念，这是一种基于跨代理的查询流的实例级特征交互范式，位于场景级特征协作和实例级结果协作之间的中点（图1）。在这里插入图片描述
实例级的协作使其更具物理可解释性，特征交互引入了更多的信息弹性。具体来说，我们提出了一个名为QUEST的框架，作为描述这一概念的代表性方法，其中查询在代理之间的流中流动。

首先，每个代理执行基于个体变换器的感知。解码器输出的每个查询都对应于一个可能检测到的对象，如果其置信度分数满足请求代理的要求，则该查询将被共享。当跨代理查询到达时，它们被用于查询融合和互补，理论上，从其他角度来看，查询融合可以利用特征增强感知实例的特征，而查询互补可以直接补充局部感知系统的未感知实例。
然后，将查询用于协作感知，得到最终的感知结果。为了评估QUEST的性能，我们在DAIR-V2X-Seq上基于在图像捕获时间戳标记的单侧地面实况生成以相机为中心的协作标签。

贡献：

我们提出了合作感知任务的查询合作范式的概念，它比场景级的特征合作更具可解释性，比结果合作更具灵活性。
提出了一种具有代表性的查询协作框架QUEST。跨代理查询通过融合和互补在实例级别进行交互。
我们以基于摄像头的车辆基础设施协同目标检测为典型的应用场景。在真实世界数据集DAIRV2X-Seq上的实验结果证明了QUEST的有效性，并进一步展示了查询协作范式在灵活性和稳健性方面的优势。此外，还生成了以相机为中心的合作标签，以促进相关研究的进一步发展。

QUERY COOPERATION PARADIGM

共享什么和如何合作是实际合作感知的两个主要问题，特别是考虑到无线通信的带宽有限。为了设计更好的合作策略，它既要有可解释性，也要有灵活性，因为可解释性导致了可控的合作，而灵活性提供了更多的操作空间和可能性。考虑到这一点，我们提出了查询合作范式，该范式跨代理共享特征，并通过实例级特征交互进行合作。
Query Generation。车辆和基础设施始终进行个体感知，每个感知预测P对应一个对象查询Q，根据基于变压器的感知理论，
P = g(Q) = g(f (D))(1)，
其中f(·)为查询的特征提取函数，g(·)为基于查询的预测函数，D为输入传感器数据。
Query Transmission。当车辆从基础设施端请求附加信息时，将触发查询协作。注意，查询请求可以与特定的实例级需求一起出现，如置信度阈值和区域掩码。然后，将满足要求的查询发布到车辆侧。
Query Interaction。同时利用接收到的查询Qinf和本地查询Qveh进行进一步的协同感知，查询交互策略是确定如何用Qinf对Qveh进行增强和补充。
qcoop = h(Qveh, Qinf)(2)，
其中h(·)表示查询交互函数，qcoop是生成的协作查询集。
Query-based Prediction。Qcoop被进一步馈送到基于查询的感知任务预测头中，从而产生最终的合作感知预测Pcoop。
Pcoop = g(Qcoop)。

QUEST FRAMEWORK

A. Overall Architecture

为了详细说明查询合作的概念，我们在本节中描述了提出的代表性框架。基于摄像机的传感器系统由于部署方便，在实际应用中得到了广泛的应用。因此，我们以基于摄像头的车辆-基础设施协同感知为典型场景来描述该框架。
如图2所示，QUEST通过跨代理查询流实现协作感知。当查询协作由车辆触发时，对象查询从基础设施端流向车辆端。该框架主要由两个功能模块组成，分别是基于单agent查询的感知模块和跨agent查询交互模块。在这里插入图片描述
对于每个单独的智能体，比如车辆，基于查询的感知模块会持续运行，以确保基本的个体感知能力，利用其自身从车载系统获得的传感器数据。无论查询合作是否被触发，它都会输出感知预测。理论上，每一种基于查询的感知方法都可以直接插入，本文我们以PETR[20]为例。将捕获的图像输入主干进行特征提取，并将特征和校准参数输入到基于变压器的解码器中进行目标检测。每个预测都匹配一个相应的对象查询，它是查询流的源。考虑到无线通信的带宽有限，根据车辆侧所需的置信度阈值对基础设施侧查询流进行分流，从而实现高质量的稀疏特征传输。
当基础设施侧查询流流到车辆侧时，与本地查询流结合形成协同查询流。跨代理查询交互模块设计用于集成来自不同源的对象查询，这将在下一小节中详细说明。联合查询流最终聚集到基于变压器的解码器，并输出合作预测。

B. Cross-agent Query Interaction

与所有其他合作范式一样，如何对跨代理信息进行聚合一直是该框架中最重要的部分。得益于可解释的实例级协作，查询交互机制是自然的，包括对共同感知对象的查询融合和对未意识对象的查询补充。
首先，交叉代理查询的相应位置应该转换成一个统一的坐标系，通常是车辆侧的激光雷达坐标系。由于每个查询都与3D参考点一起，因此使用校准参数（旋转和平移矩阵）可以容易地执行变换。
实例级预测在结果协作中根据它们的位置进行匹配。虽然该策略可以直接在QUEST中采用，但它依赖于精确的位置预测和精确的坐标变换。为了实现更健壮的查询匹配，我们提出了双空间查询嵌入。
【Dual-space Query Embedding】
同时考虑了位置信息和语义信息，这些信息嵌入在物理空间和特征空间中。对于位置嵌入，我们将精确的中心扩展到网格，以提供对位置噪声的高容忍度，如图3所示。网格中的3D坐标在归一化后被连接以形成网格嵌入。然而，位置的松散约束不可避免地会引入错误的匹配对。
在这里插入图片描述
双空间查询嵌入的位置网格说明。与精确的基于中心的匹配相比，基于网格的匹配对位置噪声具有更强的鲁棒性。
我们进一步考虑语义信息，以额外关注外观。从技术上讲，查询的特征与网格嵌入Eg连接，并且使用多层感知器（MLP）编码器生成双空间查询嵌入
Cross-agent Query Alignment
是查询协作的一种具体和必要的操作，这主要是由于实例级方向的隐式编码。预测结果的方向在结果合作中明确表示，密集特征图的方向与相应的坐标系直接相关。因此，它们都可以通过显式坐标系变换来实现方向变换。然而，实例级查询中的隐式编码特征不能手动操作，即使方向相关特征与其他特征解耦。我们采用 MLP 进行特征空间对齐，从而实现隐式方向变换和多智能体特征对齐。
Attentive Query Fusion
是通过基础设施侧视图的查询来增强车辆侧感知查询。双空间查询嵌入对融合有很好的指导作用。具体来说，我们计算每两个查询对之间的嵌入距离，并在此基础上通过MLP生成注意融合权重。
Query Complementation
查询补充是用接收到的基础结构侧查询来补充车辆侧不知道的对象查询。我们不再简单地将跨代理查询插入到本地查询流中，而是采用替换策略来降低额外的计算成本。首先，根据置信度得分对车辆侧查询进行排序。然后使用接收到的查询来替换置信度较低的查询，如图4所示。
在这里插入图片描述

实验

在这里插入图片描述

结论

针对可解释和灵活的协作感知，本文提出了查询协作的概念，通过查询流实现代理之间的实例级特征交互。为了具体描述查询协作，提出了一个具有代表性的协作感知框架（QUEST）。它通过融合和互补的方式实现跨代理查询交互，分别针对共知对象和非共知对象设计。以基于摄像头的车辆基础设施协同感知为典型场景，生成DAIR-V2X-Seq的以摄像头为中心的协同标签，并在其上对所提出的框架进行了评估。实验结果不仅证明了该框架的有效性，而且显示了传输灵活性和对丢包的鲁棒性。此外，我们还从可能的扩展和可预见的局限性讨论了查询合作范式的利弊。从我们的角度来看，查询合作具有巨大的潜力，值得进一步探索。我们希望我们的工作能够促进合作感知研究的实际应用。计划的未来工作将包括1）适应其他协作任务，例如预测和规划，2）跨代理和时间的查询对齐，以及3）为了实用方便而进行的查询选择和压缩。