【论文解读】Collaboration Helps Camera Overtake LiDAR in 3D Detection

CoCa3D

  • 摘要
  • 引言
  • Collaborative Camera-Only 3D Detection
    • Collaborative depth estimation
    • Collaborative detection feature learning
  • 实验
  • 结论和局限

摘要

与基于 LiDAR 的检测系统相比,仅相机 3D 检测提供了一种经济的解决方案,具有简单的配置来定位 3D 空间中的对象。然而,一个主要的挑战在于精确的深度估计,因为输入中缺乏直接的3D测量。许多以前的方法试图通过网络设计来改进深度估计,例如可变形层和更大的感受野。这项工作提出了一个orthogonal direction,通过引入多智能体协作来改进仅相机的 3D 检测。我们提出的仅协作相机的 3D 检测 (CoCa3D) 使代理能够通过通信相互共享互补信息。同时,我们通过选择信息量最大的线索来优化通信效率。来自多个视点的共享消息消除了单智能体估计深度的歧义,并补充了单智能体视图中被遮挡和远程区域。我们在一个真实的数据集和两个新的模拟数据集上评估 CoCa3D。结果表明,CoCa3D 在 DAIR-V2X 上比之前的 SOTA 性能提高了 44.21%,OPV2V+ 提高了 30.60%,CoPerception-UAV+ 提高了 1.59%,AP@70。我们的初步结果表明,在有足够的协作的情况下,相机可能会在某些实际场景中过度接受 LiDAR。我们发布了数据集和代码。

引言

在本文中,我们提出了一个orthogonal direction,通过引入多智能体协作来提高仅相机的3D检测性能。假设在先进的通信系统的支持下,只配备摄像头的多个代理可以相互共享视觉信息。

【orthogonal direction】是指一种与现有方法不同的方法或方向。在这篇论文中,作者提出了一种通过引入多智能体协作来提高相机仅3D检测性能的正交方向。这种方法与现有的基于网络设计的方法不同,通过允许智能体共享互补信息,从而提高3D检测性能。

这将带来三个突出的好处。

  • 首先,来自多个代理的不同视点可以在很大程度上解决仅相机3D检测中的深度模糊问题,从而在深度估计方面与昂贵的激光雷达弥补差距。
  • 其次,多智能体协作避免了单智能体3D检测中不可避免的局限性,如遮挡和长距离问题,并有可能实现更全面的3D检测;即检测3D场景中存在的所有对象,包括超出视觉范围的对象。由于激光雷达的视场也有限,这可能使协作相机的性能优于激光雷达。
  • 第三,由于相机比激光雷达便宜,大型车队的总费用显著降低。

然而,多智能体协作也带来了新的挑战。与许多多视角几何问题不同,这里我们还必须关注通信带宽限制。因此,每个代理都需要选择信息量最大的线索来共享。
根据这一设计原理,我们提出了一种新的协作式纯相机3D检测框架CoCa3D。它包括三个部分:

  • i)单智能体仅摄像头的三维检测,实现了对每个智能体的基本深度估计和三维检测;
  • ii)协作深度估计,其通过促进跨多个代理的视点的空间一致性来消除所估计的深度的歧义;
  • iii)协同检测特征学习,其通过彼此共享关键检测消息来补充检测特征。

我们的主要贡献:

  • 我们提出了一种新的协作式仅摄像头3D检测框架CoCa3D,它通过多智能体协作提高了摄像头的检测能力,促进了更全面的3D检测。
  • 我们提出了核心通信高效协作技术,该技术探索空间稀疏但关键的深度信息,并通过融合来自不同视角的互补信息来解决深度模糊、遮挡和长期问题,实现更准确和完整的3D表示。
  • 我们用更多的代理扩展了之前的两个协作数据集,并进行了广泛的实验,验证了i)CoCa3D在OPV2V+和DAIR-V2X上显著弥合了相机和激光雷达之间的性能差距;以及ii)CoCa3D实现了最先进的性能-带宽折衷。

Collaborative Camera-Only 3D Detection

在这里插入图片描述
【CoCa3D是一个只有摄像头的3D探测器,集成了两个协作模块。协同深度估计(Co-Depth)增强了单智能体估计深度,以获得更准确的3D特征。协同检测特征学习(Co-FL)是对单智能体3D特征的补充,可以实现更全面的3D检测。】

我们的设计思路来自两个方面:

  • 第一,由于摄像头和LiDAR的主要差距是深度,所以信息中应该包含深度信息。这将允许来自多个代理的不同观点消除无限深度可能性的歧义并定位正确的深度候选。
  • 其次,消息中应该包含检测线索,以提供互补的检测信息,这可以从根本上克服单智能体检测不可避免的局限性,如遮挡和远程问题。

Collaborative depth estimation

协同深度估计(Co-Depth)的目标是消除单智能体相机深度估计中无限深度可能性的歧义,并通过多视图一致性定位正确的候选深度。直觉是,对于正确的深度候选,其对应的3D位置应从多个智能体的视点在空间上保持一致。为此,各个agent可以通过通信交换深度信息。同时,我们通过选择最关键、最明确的深度信息来提高通信效率。因此,Co-Depth包括:

  • a)深度不确定性感知的消息打包,它将具有明确深度信息的紧凑消息打包;
    【深度不确定性感知报文封装(DUA)基于深度不确定性将用于多视图一致性的最关键深度信息打包到待发送报文中。深度信息包括:i)体素特征,用于多视图视觉相似性测量;ii)深度概率,表示特征像素属于体素的置信度,用于多视图候选选择。】

  • b)深度信息融合,利用接收到的深度信息增强深度估计
    【深度信息融合的目标是在多个智能体不同视点接收深度信息的情况下增强深度估计。直觉是,对于一个正确的深度候选,多个代理在同一3D点观察到的视觉特征应该是相似的。为了实现这一点,我们引入了多视图深度一致性加权(匹配分数)。】

Collaborative detection feature learning

协作深度估计仔细地细化了深度,并为每个单个代理提供了更准确的3D表示。然而,单智能体的物理局限性,如视野受限、遮挡和远程问题仍然存在。为了实现更全面的三维检测,各个agent应该能够交换三维检测特征并利用互补信息。同时,我们通过选择感知上最关键的信息来提高沟通效率。因此,协同检测特征学习(Co-FL)包括:

  • a)检测置信度感知的消息打包,即在检测置信度的指导下对空间稀疏但感知上至关重要的3D特征进行打包;
    【检测置信度感知(DCA)消息打包的目标是将互补的感知信息打包成一个紧凑的消息。其核心思想是探索感知信息的空间异质性。直觉是,包含对象的区域比背景区域更重要】
  • b)检测信息融合,利用接收到的检测信息增强三维特征。
    【这里我们通过聚合从其他代理接收到的检测消息来增强每个代理的检测特征。我们用简单而有效的非参数逐点最大融合实现了这一点。】

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论和局限

我们提出CoCa3D,一种新颖的协作相机3D检测,接近整体3D检测。其核心思想是引入多智能体协作来提高摄像机的检测能力。同时,对通信成本进行优化,每个agent仔细选择空间稀疏但深度关键的消息进行共享。广泛的实验涵盖了现实世界和模拟场景,以及多种类型的代理(汽车,无人机和基础设施),表明CoCa3D不仅实现了最先进的感知带宽权衡,而且在OPV2V+上超过了基于lidar的探测器,具有足够数量的协作代理。
局限性和未来的工作:收集真实世界的多智能体感知数据集是非常昂贵的。到目前为止,DAIRV2X是唯一一个公开的真实世界数据集,它只有一辆车和一个路边单元。本工作主要利用仿真数据来验证所提出的新方法,并勾画出一个有前景的研究方向。我们提倡为真实世界的数据收集提供更多的资源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/358664.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】Linux环境基础开发工具使用

上篇博客我们学习了Linux权限相关知识,那么这节课我们来学习一下Linux环境基础开发工具使用吧~,主要包括yum、vim、gcc/g的使用,以及Linux项目自动化构建工具。 目录 Linux软件包管理器--yum yum是什么 yum相关操作 yum本地配置 Linux编…

程序员怎么写简历_写简历软件

你们在制作简历时,是不是基本只关注两件事:简历模板,还有基本信息的填写。 当你再次坐下来更新你的简历时,可能会发现自己不自觉地选择了那个“看起来最好看的模板”,填写基本信息,却没有深入思考如何使简历…

小程序样例5:简单登录界面

基本功能 1、头像选择、用户名、密码、昵称选择、性别、城市 2、确认注册跳转 我的页面。 3、其他注册方式跳转用户名 密码登录方式 4、清除 和 密码显示按钮: 5、用户名、密码合法性校验: 6、点击微信图标,调转回微信登录: 代码…

模糊神经网络控制器(MATLAB)

模糊神经网络控制器(Fuzzy Neural Network Controller)是将模糊控制和神经网络相结合的一类控制器。它综合了两者的优点,主要包括以下特点: 知识表达能力强。模糊系统的语言规则和神经网络的学习能力相结合,可以表示复杂的非线性映射关系。 自适应能力强。神经网络提供了在线学…

幻兽帕鲁服务器部署教程(超详细)

幻兽帕鲁服务器部署教程(超详细) 文章目录 幻兽帕鲁服务器部署教程(超详细)[TOC] 前言一、怎么部署属于自己的幻兽帕鲁服务器一、怎么登录游戏体验? 前言 在帕鲁的世界,你可以选择与神奇的生物「帕鲁」一同…

HCIA学习作业五

拓扑图: PC端 PC1>ipconfig PC2>ipconfig PC3>ipconfig PC4>ipconfig PC>ping PC1>ping 192.168.1.125 PC1>ping 192.168.1.254 PC1>ping 192.168.1.253 PC2>ping 192.168.1.125 PC2>ping 192.168.1.253 PC3>ping 192.168.1.126…

蓝桥杯备战——9.读写AT24C02

1.分析原理图 由上图我们可以看到AT24C02通过IIC与单片机进行通讯,由于A0,A1,A2都接地,所以器件地址为0XA0。 2.IIC通讯协议 比赛的时候会提供IIC驱动代码,我们不需要自己去写,我这里简单贴出一份: #include "i…

电池-电量监测基础知识

一、为何要进行电池电量监测 不知各位有没有想过为何现在手机电池和笔记本电脑电池不容易鼓包了?十年前还经常出现的电池鼓包最近像是消失了一样,其实是因为随着电量监测技术的发展,哪怕是最基本的电子设备也有电池侧和产品侧至少两级电量监测…

1.30 C++ day4

思维导图 构造函数、析构函数、拷贝构造函数、拷贝赋值函数 代码 #include <iostream>using namespace std;class Stu//封装一个学生类 { private://私有属性string name;int id;double *score; public://公共属性//无参构造函数Stu(){cout << "Stu::无参构…

File、IO流(一)

File、IO流 File File是Java.io包下的类&#xff0c;File类的对象&#xff0c;用于代表当前操作系统的文件&#xff08;可以是文件、或者文件夹&#xff09;。 注意&#xff1a;File类只能对文件本身进行操作&#xff0c;不能读写文件里面存储的数据。 IO流 用于读写数据的&…

二叉树-堆实现

目录 Test.c测试代码 test1 test2 test3 &#x1f387;Test.c总代码 Heap.h头文件&函数声明 头文件 函数声明 &#x1f387;Heap.h总代码 Heap.c函数实现 ☁HeapInit初始化 ☁HeapDestroy销毁 ☁HeapPush插入数据 【1】插入数据 【2】向上调整Adjustup❗ …

nginx负载均衡案例

大家好今天给大家带来nginx负载均衡实验案例,首大家先看一下我的各类版本信息。&#xff08;还有两台设备信息相同就不展示了&#xff09; 一&#xff0c;搭建nginx环境 ❶首先创建Nginx的目录并进入&#xff1a; [rootlocalhost]# mkdir /soft && mkdir /soft/nginx…

java-JUC并发编程学习笔记03(尚硅谷)

线程间通信 例子&#xff1a; 对一个值1 -1交替完成&#xff0c;a的值就是1 b的值就是0 这个过程就是线程间通信 Synchronized实现&#xff1a; 虚假唤醒问题&#xff1a; 我们再添加两个线程。 我们发现我们的结果就不对了。 我们只需要使用while即可。 我们线程通信的最后一…

商品主图重复如何处理?淘宝、拼多多和阿里巴巴多店铺商品上架运营技巧

采集铺货的时候&#xff0c;商品主图重复上架有什么影响&#xff1f; 我们在1688、阿里国际站等采集货品&#xff0c;在抖音、淘宝、京东和拼多多进行售卖的时候&#xff0c;由于货源类似&#xff0c;经常会发现商品重复&#xff0c;无法在平台获得有效流量。以企业为纬度&…

【保驾护航】HarmonyOS应用开发者基础认证-题库-2024

通过系统化的课程学习&#xff0c;熟练掌握DevEco Studio&#xff0c;ArkTS&#xff0c;ArkUI&#xff0c;预览器&#xff0c;模拟器&#xff0c;SDK等HarmonyOS应用开发的关键概念&#xff0c;具备基础的应用开发能力。 考试说明 1、考试需实名认证&#xff0c;请在考前于个…

【云原生】consul自动注册,实现负载均衡器与节点服务应用解耦,批量管理容器

目录 一、consul解决了什么问题&#xff1f; 二、consul的模式 三、consul的工作原理 四、实操consul连接负载均衡与容器 步骤一&#xff1a;完成consul的部署 步骤二&#xff1a;完成gliderlabs/registrator:latest镜像的拉取&#xff0c;并完成启动 步骤三&#xff1a;…

二维数组的学习

前言 在前面我们学习了一维数组&#xff0c;但是有的问题需要用二位数组来解决。 二维数组常称为矩阵&#xff0c;把二维数组写成行和列的排列形式&#xff0c;可以有助于形象化的理解二维数组的逻辑结构。 一、二维数组的定义 二维数组定义的一般格式&#xff1a; 数据类型 数…

最新GPT4.0使用教程,AI绘画-Midjourney绘画,GPT语音对话使用,DALL-E3文生图+思维导图一站式解决

一、前言 ChatGPT3.5、GPT4.0、GPT语音对话、Midjourney绘画&#xff0c;文档对话总结DALL-E3文生图&#xff0c;相信对大家应该不感到陌生吧&#xff1f;简单来说&#xff0c;GPT-4技术比之前的GPT-3.5相对来说更加智能&#xff0c;会根据用户的要求生成多种内容甚至也可以和…

企业资产管理软件市场分析:预计2029年将达到91亿美元

固定资产是企业资产重要的组成部分&#xff0c;是企业赖以生存的基础&#xff0c;加强固定资产管理&#xff0c;对于保障企业稳定发展有着重要意义。但是&#xff0c;不少企业因资产管理模式落后&#xff0c;以致各项资产信息无法及时传递与共享&#xff0c;资产损耗和及时维护…

c语言学习笔记之字符串库函数和逗号表达式

逗号表达式 #include <stdio.h>int main(){int a 10;int b 5;int c 6;int d (a 23,b a-4,c b2);printf("%d",d); }打印结果为: 逗号表达式,从左往右依次进行,将最后一个表达式的值赋值给变量. c语言字符串相关库函数 求字符串长度strlen长度不受限制的…