【论文解读】QUEST: Query Stream for Practical Cooperative Perception

QUEST

  • 摘要
  • 引言
  • QUERY COOPERATION PARADIGM
  • QUEST FRAMEWORK
    • A. Overall Architecture
    • B. Cross-agent Query Interaction
  • 实验
  • 结论

摘要

合作感知通过提供额外的视点和扩展感知领域,可以有效地提高个体感知性能。现有的合作模式要么是可解释的(结果合作),要么是灵活的(特征合作)。在本文中,我们提出了查询协作的概念,以实现可解释的实例级灵活的特征交互。为了具体解释这一概念,我们提出了一个称为QUEST的合作感知框架,该框架允许查询流在代理之间流动。跨代理查询通过对共同感知实例的融合和对单个未感知实例的补充进行交互。以基于摄像头的车辆基础设施感知为典型的实际应用场景,在DAIR-V2X-Seq真实数据集上的实验结果验证了QUEST的有效性,进一步揭示了查询协作范式在传输灵活性和对丢包的鲁棒性方面的优势。我们希望我们的工作能够进一步促进跨代理表示交互,从而在实践中获得更好的合作感知。

引言

我们提出了查询协作的概念,这是一种基于跨代理的查询流的实例级特征交互范式,位于场景级特征协作和实例级结果协作之间的中点(图1)。在这里插入图片描述
实例级的协作使其更具物理可解释性,特征交互引入了更多的信息弹性。具体来说,我们提出了一个名为QUEST的框架,作为描述这一概念的代表性方法,其中查询在代理之间的流中流动。

  • 首先,每个代理执行基于个体变换器的感知。解码器输出的每个查询都对应于一个可能检测到的对象,如果其置信度分数满足请求代理的要求,则该查询将被共享。当跨代理查询到达时,它们被用于查询融合和互补,理论上,从其他角度来看,查询融合可以利用特征增强感知实例的特征,而查询互补可以直接补充局部感知系统的未感知实例。
  • 然后,将查询用于协作感知,得到最终的感知结果。为了评估QUEST的性能,我们在DAIR-V2X-Seq上基于在图像捕获时间戳标记的单侧地面实况生成以相机为中心的协作标签。

贡献:

  • 我们提出了合作感知任务的查询合作范式的概念,它比场景级的特征合作更具可解释性,比结果合作更具灵活性。
  • 提出了一种具有代表性的查询协作框架QUEST。跨代理查询通过融合和互补在实例级别进行交互。
  • 我们以基于摄像头的车辆基础设施协同目标检测为典型的应用场景。在真实世界数据集DAIRV2X-Seq上的实验结果证明了QUEST的有效性,并进一步展示了查询协作范式在灵活性和稳健性方面的优势。此外,还生成了以相机为中心的合作标签,以促进相关研究的进一步发展。

QUERY COOPERATION PARADIGM

共享什么和如何合作是实际合作感知的两个主要问题,特别是考虑到无线通信的带宽有限。为了设计更好的合作策略,它既要有可解释性,也要有灵活性,因为可解释性导致了可控的合作,而灵活性提供了更多的操作空间和可能性。考虑到这一点,我们提出了查询合作范式,该范式跨代理共享特征,并通过实例级特征交互进行合作。
Query Generation。车辆和基础设施始终进行个体感知,每个感知预测P对应一个对象查询Q,根据基于变压器的感知理论,
P = g(Q) = g(f (D))(1),
其中f(·)为查询的特征提取函数,g(·)为基于查询的预测函数,D为输入传感器数据。
Query Transmission。当车辆从基础设施端请求附加信息时,将触发查询协作。注意,查询请求可以与特定的实例级需求一起出现,如置信度阈值和区域掩码。然后,将满足要求的查询发布到车辆侧。
Query Interaction。同时利用接收到的查询Qinf和本地查询Qveh进行进一步的协同感知,查询交互策略是确定如何用Qinf对Qveh进行增强和补充。
qcoop = h(Qveh, Qinf)(2),
其中h(·)表示查询交互函数,qcoop是生成的协作查询集。
Query-based Prediction。Qcoop被进一步馈送到基于查询的感知任务预测头中,从而产生最终的合作感知预测Pcoop。
Pcoop = g(Qcoop)。

QUEST FRAMEWORK

A. Overall Architecture

为了详细说明查询合作的概念,我们在本节中描述了提出的代表性框架。基于摄像机的传感器系统由于部署方便,在实际应用中得到了广泛的应用。因此,我们以基于摄像头的车辆-基础设施协同感知为典型场景来描述该框架。
如图2所示,QUEST通过跨代理查询流实现协作感知。当查询协作由车辆触发时,对象查询从基础设施端流向车辆端。该框架主要由两个功能模块组成,分别是基于单agent查询的感知模块和跨agent查询交互模块。在这里插入图片描述
对于每个单独的智能体,比如车辆,基于查询的感知模块会持续运行,以确保基本的个体感知能力,利用其自身从车载系统获得的传感器数据。无论查询合作是否被触发,它都会输出感知预测。理论上,每一种基于查询的感知方法都可以直接插入,本文我们以PETR[20]为例。将捕获的图像输入主干进行特征提取,并将特征和校准参数输入到基于变压器的解码器中进行目标检测。每个预测都匹配一个相应的对象查询,它是查询流的源。考虑到无线通信的带宽有限,根据车辆侧所需的置信度阈值对基础设施侧查询流进行分流,从而实现高质量的稀疏特征传输。
当基础设施侧查询流流到车辆侧时,与本地查询流结合形成协同查询流。跨代理查询交互模块设计用于集成来自不同源的对象查询,这将在下一小节中详细说明。联合查询流最终聚集到基于变压器的解码器,并输出合作预测。

B. Cross-agent Query Interaction

与所有其他合作范式一样,如何对跨代理信息进行聚合一直是该框架中最重要的部分。得益于可解释的实例级协作,查询交互机制是自然的,包括对共同感知对象的查询融合和对未意识对象的查询补充。
首先,交叉代理查询的相应位置应该转换成一个统一的坐标系,通常是车辆侧的激光雷达坐标系。由于每个查询都与3D参考点一起,因此使用校准参数(旋转和平移矩阵)可以容易地执行变换。
实例级预测在结果协作中根据它们的位置进行匹配。虽然该策略可以直接在QUEST中采用,但它依赖于精确的位置预测和精确的坐标变换。为了实现更健壮的查询匹配,我们提出了双空间查询嵌入。
【Dual-space Query Embedding】
同时考虑了位置信息和语义信息,这些信息嵌入在物理空间和特征空间中。对于位置嵌入,我们将精确的中心扩展到网格,以提供对位置噪声的高容忍度,如图3所示。网格中的3D坐标在归一化后被连接以形成网格嵌入。然而,位置的松散约束不可避免地会引入错误的匹配对。
在这里插入图片描述
双空间查询嵌入的位置网格说明。与精确的基于中心的匹配相比,基于网格的匹配对位置噪声具有更强的鲁棒性。
我们进一步考虑语义信息,以额外关注外观。从技术上讲,查询的特征与网格嵌入Eg连接,并且使用多层感知器(MLP)编码器生成双空间查询嵌入
Cross-agent Query Alignment
是查询协作的一种具体和必要的操作,这主要是由于实例级方向的隐式编码。预测结果的方向在结果合作中明确表示,密集特征图的方向与相应的坐标系直接相关。因此,它们都可以通过显式坐标系变换来实现方向变换。然而,实例级查询中的隐式编码特征不能手动操作,即使方向相关特征与其他特征解耦。我们采用 MLP 进行特征空间对齐,从而实现隐式方向变换和多智能体特征对齐。
Attentive Query Fusion
是通过基础设施侧视图的查询来增强车辆侧感知查询。双空间查询嵌入对融合有很好的指导作用。具体来说,我们计算每两个查询对之间的嵌入距离,并在此基础上通过MLP生成注意融合权重。
Query Complementation
查询补充是用接收到的基础结构侧查询来补充车辆侧不知道的对象查询。我们不再简单地将跨代理查询插入到本地查询流中,而是采用替换策略来降低额外的计算成本。首先,根据置信度得分对车辆侧查询进行排序。然后使用接收到的查询来替换置信度较低的查询,如图4所示。
在这里插入图片描述

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

结论

针对可解释和灵活的协作感知,本文提出了查询协作的概念,通过查询流实现代理之间的实例级特征交互。为了具体描述查询协作,提出了一个具有代表性的协作感知框架(QUEST)。它通过融合和互补的方式实现跨代理查询交互,分别针对共知对象和非共知对象设计。以基于摄像头的车辆基础设施协同感知为典型场景,生成DAIR-V2X-Seq的以摄像头为中心的协同标签,并在其上对所提出的框架进行了评估。实验结果不仅证明了该框架的有效性,而且显示了传输灵活性和对丢包的鲁棒性。此外,我们还从可能的扩展和可预见的局限性讨论了查询合作范式的利弊。从我们的角度来看,查询合作具有巨大的潜力,值得进一步探索。我们希望我们的工作能够促进合作感知研究的实际应用。计划的未来工作将包括1)适应其他协作任务,例如预测和规划,2)跨代理和时间的查询对齐,以及3)为了实用方便而进行的查询选择和压缩。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/577077.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉——OpenCV 使用分水岭算法进行图像分割

分水岭算法 分水岭算法:模拟地理形态的图像分割 分水岭算法通过模拟自然地形来实现图像中物体的分类。在这一过程中,每个像素的灰度值被视作其高度,灰度值较高的像素形成山脊,即分水岭,而二值化阈值则相当于水平面&am…

LabVIEW高效目标跟踪系统

LabVIEW高效目标跟踪系统 随着机器视觉技术的飞速发展,设计和实现高效的目标跟踪系统成为了众多领域关注的焦点。基于LabVIEW平台,结合NI Vision机器视觉库,开发了一种既高效又灵活的目标跟踪系统。通过面向对象编程方法和队列消息处理器程序…

以更多架构核心专利,推进 SDS 产业创新创造

今天是第 24 个世界知识产权日,今年世界知识产权日活动的主题是:“知识产权和可持续发展目标:立足创新创造,构建共同未来。” 这也正是 XSKY 在软件定义存储领域的目标之一。以“数据常青”为使命的 XSKY,始终立足于软…

济宁市中考报名照片要求及手机拍照采集证件照方法

随着中考报名季的到来,并且进入了中考报名演练阶段,济宁市的广大考生和家长都开始忙碌起来。报名过程中,上传一张符合要求的证件照是必不可少的环节。本文将详细介绍济宁市中考报名照片的具体要求,并提供一些实用的手机拍照采集证…

LeetCode in Python 74/240. Search a 2D Matrix I/II (搜索二维矩阵I/II)

搜索二维矩阵I其实可以转换为搜索一维数组,原因在于,只要先确定搜索的整数应该在哪一行,即可对该行进行二分查找。 搜索二维矩阵II中矩阵元素排列方式与I不同,但思想大致相同。 目录 LeetCode in Python 74. LeetCode in Pyth…

html表格导出为word文档,导出的部分表格内无法填写文字

导出技术实现:fileSaver.jshtml-docx-js 1.npm安装 npm install --save html-docx-js npm install --save file-saver 2.页面引入 import htmlDocx from html-docx-js/dist/html-docx; import saveAs from file-saver;components: {htmlDocx,saverFile, }, 3.页…

(MSFT.O)微软2024财年Q3营收619亿美元

在科技的浩渺宇宙中,一颗璀璨星辰再度闪耀其光芒——(MSFT.O)微软公司于2024财政年度第三季展现出惊人的财务表现,实现总营业收入达到令人咋舌的6190亿美元。这一辉煌成就不仅突显了微软作为全球技术领导者之一的地位,更引发了业界内外对这家…

Vue从0-1学会如何自定义封装v-指令

文章目录 介绍使用1. 理解指令2. 创建自定义指令3. 注册指令4. 使用自定义指令5. 自定义指令的钩子函数6. 传递参数和修饰符7. 总结 介绍 自定义封装 v-指令是 Vue.js 中非常强大的功能之一,它可以让我们扩展 Vue.js 的模板语法,为 HTML 元素添加自定义行…

在Elasticsearch 7.9.2中安装IK分词器并进行自定义词典配置

Elasticsearch是一个强大的开源搜索引擎,而IK分词器是针对中文文本分析的重要插件。本文将引导您完成在Elasticsearch 7.9.2版本中安装IK分词器、配置自定义词典以及验证分词效果的全过程。 步骤一:下载IK分词器 访问IK分词器的GitHub发布页面&#xf…

【网络编程】TCP流套接字编程 | Socket类 | ServerSocket类 | 文件资源泄露 | TCP回显服务器 | 网络编程

文章目录 TCP流套接字编程1.ServerSocket类2.Socket类3.文件资源泄露4.**TCP回显服务器** TCP流套接字编程 ​ ServerSocket类和Socket类这两个类都是用来表示socket文件(抽象了网卡这样的硬件设备)。 TCP是面向字节流的,传输的基本单位是b…

MySQL B+索引的工作原理及应用

引言 在数据库系统中,索引是优化查询、提高性能的关键技术之一。特别是在MySQL数据库中,B树索引作为最常用的索引类型,对数据库性能有着至关重要的影响。本文旨简单解析MySQL中B树索引的工作原理,帮助学生朋友们更好地理解和利用…

Kubernetes学习-核心概念篇(一) 初识Kubernetes

🏷️个人主页:牵着猫散步的鼠鼠 🏷️系列专栏:Kubernetes渐进式学习-专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 目录 1. 前言 2. 什么是Kubernetes 3. 为什么需要Kubernetes 3.1. 应…

ArcGIS批量寻找图层要素中的空洞

空洞指的是图层中被要素包围所形成的没有被要素覆盖的地方,当图层要素数量非常庞大时,寻找这些空洞就不能一个一个的通过目测去寻找了,需要通过使用工具来实现这一目标。 一、【要素转线】工具 利用【要素转线】工具可以将空洞同图层要素处于…

HTML网页自动播放背景音乐和全屏背景图代码

HTML网页自动播放背景音乐的代码 背景音乐代码及分析代码的应用背景图代码及分析下期更新预报 背景音乐代码及分析 能使网站上自动循环的背景音乐代码如下&#xff1a; <audio src"music.mid" autostart"true" loop"true" hidden"true…

python使用opencv对图像的基本操作(2)

13.对多个像素点进行操作&#xff0c;使用数组切片方式访问 img[i,:] img[j,:] #将第j行的数值赋值给第i行 img[-2,:]或img[-2] #倒数第二行 img[:,-1] #最后一列 img[50:100,50:100] #50-100行&#xff0c;50-100列&#xff08;不包括第100行和第100列&#xff09; img[:100…

怎么用PHP语言实现远程控制电器

怎么用PHP语言实现远程控制电器呢&#xff1f; 本文描述了使用PHP语言调用HTTP接口&#xff0c;实现控制电器&#xff0c;通过控制电器的电源线路来实现电器控制。 可选用产品&#xff1a;可根据实际场景需求&#xff0c;选择对应的规格 序号设备名称厂商1智能WiFi通断器AC3统…

Ubuntu16.04搭建webrtc服务器

本人查阅无数资料,历时3周搭建成功 一、服务器组成 AppRTC 房间+Web服务器 https://github.com/webrtc/apprtcCollider 信令服务器,在AppRTC源码里CoTurn coturn打洞+中继服务器 Nginx 服务器,用于Web访问代理和Websocket代理。AppRTC 房间+Web服务器使用python+js语言 App…

Elcomsoft iOS Forensics Toolkit: iPhone/iPad/iPod 设备取证工具包

天津鸿萌科贸发展有限公司是 ElcomSoft 系列取证软件的授权代理商。 Elcomsoft iOS Forensics Toolkit 软件工具包适用于取证工作&#xff0c;对 iPhone、iPad 和 iPod Touch 设备执行完整文件系统和逻辑数据采集。对设备文件系统制作镜像&#xff0c;提取设备机密&#xff08…

【机器学习】集成学习:强化机器学习模型与创新能的利器

集成学习&#xff1a;强化机器学习模型预测性能的利器 一、集成学习的核心思想二、常用集成学习方法Bagging方法Boosting方法Stacking方法 三、集成学习代表模型与实现四、总结与展望 在大数据时代的浪潮下&#xff0c;机器学习模型的应用越来越广泛&#xff0c;而集成学习作为…

Centos7 yum报错 Could not resolve host: mirrorlist.centos.org

yum install报如下错误 应该是网络问题&#xff0c;检查是不是这个文件配置错了导致连不上网 /etc/sysconfig/network-scripts/ifcfg-ens33 注意里面的DNS配置 可以在服务器ping一下百度 ping wwww.baidu.com