论文笔记 - :DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

Title: 深入研究单目 3D 物体检测的输出表示

Abstract

单目 3D 对象检测旨在从单个图像中识别和定位 3D 空间中的对象。最近的研究取得了显着的进展,而所有这些研究都遵循基于 LiDAR 的 3D 检测中的典型输出表示。

然而,在本文中,我们认为现有的离散输出表示不适合单目 3D 检测。具体来说,单目3D检测只有二维信息输入,而需要输出三维检测。这一特性表明单目 3D 检测本质上不同于具有相同维度输入和输出的其他典型检测任务。尺寸差距导致估计深度误差的下限较大。

因此,我们建议将现有的离散输出表示重新表示为根据深度的空间概率分布这种概率分布考虑了由于缺乏深度维度而导致的不确定性,使我们能够准确、全面地表示 3D 空间中的物体

大量的实验展示了我们的输出表示的优越性。因此,我们将我们的方法应用于 12 个 SOTA 单目 3D 探测器,持续将其平均精度 (AP) 相对提高约 20%。源代码将很快公开。

==问题导读==

所谓的离散输出指的是什么?

所谓的深度的空间概率分布指的是什么?怎么得到和利用?这么做有什么直观地好处?

一、Introduction

为了提高准确性,先前的工作做了很多尝试,包括利用估计深度图几何性质以及网络设计

所有先前的单目作品都采用了早期检测任务中出现的典型输出表示 ,即2D框检测与对应的3D框,其中3D框被视为最终结果。然而,这种离散输出表示忽略了单目 3D 检测和其他检测任务之间固有的巨大差距。如表1所示,我们总结了不同检测任务的输入/输出及其在源域中的维度。对于单目3D检测,需要推理高维3D框,而只有低维信息输入。这个差距在其他两个检测任务中并不存在,我们的定量实验证明正是维度差距导致单目3D检测的检测精度较低
在这里插入图片描述
作者分析了深度误差,得出结论:深度误差随着深度的增长呈指数增长。我们还展示了一个理论下界,它呈二次方增加(详细推导请参见第 3.2 节)。 SOTA 探测器中的深度误差和理论下限都表明,对于不靠近的物体,估计深度无法准确。在这里插入图片描述从固有的尺寸差距和由此产生的大深度误差的角度来看,我们认为现有的离散深度预测表示对于单目 3D 检测来说并不是最优的。大的深度误差意味着预测的深度具有很大的不确定性,由此产生的离散3D框预测不能准确、全面地表示3D空间中的物体状态。因此,在本文中,我们的目标是重新制定单目 3D 检测的输出表示,以考虑固有的维度差距和深度不确定性
在这里插入图片描述
我们的重新表述包括两个步骤:

  • 首先,如图 2 所示,我们使用正态分布将每个离散检测输出转换为空间概率分布,其中标准差随着深度的增长而增加。

  • 其次,我们在考虑深度不确定性的同时从空间分布中采样多个3D框,并将它们视为新的检测结果。

换句话说,我们不是只输出一个离散的 3D 框,而是将 3D 框转换为 3D 空间中的连续空间概率分布,然后通过采样产生更多预测。我们的方法考虑了潜在的缺失深度维度,利用单目 3D 检测的输出表示中的深度不确定性,因此一致且显着地提高了大多数检测器的性能。

我们总结我们的主要贡献如下:

• 我们重新思考单目 3D 物体检测的基本机制,认为它与其他检测任务有着本质上的不同。根据我们的分析,我们将离散输出表示重新表述为空间概率分布,这对于单目 3D 检测来说更加合理。

• 我们已将我们的方法应用于 12 个最新的 SOTA 单目 3D 探测器,持续将其平均精度 (AP) 相对提高约 20%。值得注意的是,我们的方法可以很容易地适应任何单目 3D 探测器,这不会带来额外的成本。

问题解答:
离散指的是单独预测一个3D框是离散的,也包括了深度值是离散的。
因此作者觉得这样是不行的,需要进行正态分布式的概率分布化。

二、Related works

然而,他们没有考虑深度对位置中其他参数的影响,我们的实验表明位置中的实例深度是检测率低的主要原因。

目前的单目方法都没有考虑输出表示中维度gap带来的深度不确定性。

三、WHAT MAKES MONOCULAR 3D DETECTION CHALLENGING?

3.1 DILEMMA IN MONOCULAR 3D DETECTION

单目3D检测只有2D信息,而需要输出精确的3D信息。缺失的维度正是深度,这就是预测精确深度非常具有挑战性的原因。

即: 维度的缺失-深度,导致预测不精确。

不幸的是,在物理层面上,由于尺寸差距,不可能从单个图像中推断出准确的深度,因此单目深度估计的泛化能力在很大程度上受到限制。我们进行实验来证明这一点。如图 3 所示,我们展示了不同最先进的单目检测器在训练集和验证集上的性能。我们可以观察到,训练集上的3D检测精度(包括BEV(鸟瞰图)和3D AP)很高(高于60 AP),而验证集数据的精度极低(低于20 AP)。正如预期的那样,当消除估计深度的影响(用真实深度替换深度预测)时,3D 检测性能大幅提升。验证集上改进的 3D 检测精度与训练集上的精度相当。这表明尺寸差距是单目3D检测的主要障碍。

即: 通过是否有深度条件,得出实验结果相差很大。作者认为是dimension gap导致的。

在这里插入图片描述

3.2 MONOCULAR DEPTH ESTIMATION ERROR LOWER BOUND

在上面有个深度误差图,其中包含了理论值下线。

在这里插入图片描述
在这里插入图片描述

即:存在固有误差,随着深度增加,误差呈现二次方形式增加

四、REFORMULATE OUTPUT REPRESENTATION FOR MONOCULAR 3D DETECTION (重新制定输出表征)

4.1 是否考虑使用先前的输出表示

考虑到单目3D检测中的维度差距,即从2D到3D的提升过程中缺少深度维度,我们重新思考检测输出表示,并提出一个问题:以前的工作采用的离散表示确实合适吗?不幸的是,我们给出了否定的答案。我们列出主要原因如下:

(i)输入不同的维度信息。仅给定 2D 信息,单目 3D 检测任务需要输出精确的 3D 信息。离散且唯一的输出无法精确反映提升预测过程中的不确定性。

(ii) 广阔的 3D 室外空间。在极其广阔的 3D 室外空间中推理出离散但精确的 3D 盒子是非常具有挑战性的。不恰当的单眼图像进一步增加了这一挑战的难度。

(iii)自动驾驶场景对安全性的高度依赖。为了避免与其他障碍物碰撞并更好地进行规划,自我汽车/机器人应该在当前场景中检测尽可能多的物体的精确位置,即追求更高的召回率,而当前的离散表示很难实现这一目标。

4.2 输出表示中的空间概率分布

基于上述分析,我们建议重新制定单目 3D 检测的输出表示。专注于处理缺失的深度维度,我们将离散检测输出转换为深度范围内的空间概率分布。考虑到已知的事实:由于精确的实例深度无法实现,因此我们可以使用空间概率分布来更全面地表示 3D 对象。这种表示还提供了更有价值的信息,例如用于下游任务的对象附近的位置不确定性,例如跟踪和规划

由于该概率分布是为了反映3D空间中深度预测的相对不确定性,因此我们使用相对概率来表示深度不确定性,因此最终的深度置信度如下:
在这里插入图片描述
其中 s 表示任意深度,t(s) 表示相对深度置信度。随着深度的增长,正态分布的标准差也随着深度越来越难以预测而变得越来越大。结合原始置信度(通常是分类),深度 s 处物体的最终置信度为:Cs = C·t(s)。此外,由于投影关系,位置 x, y 应更改以适应新的深度 s。因此,物体在新深度 s 处的位置为 ( x z s, y z s, s)。其他参数(尺寸和方向)不变。我们将这种位置的空间概率分布称为位置分布。

当处理深度估计时,这个公式用于计算相对深度置信度(t(s))。

1. **t(s):** 这是相对于深度 s 的深度置信度。换句话说,它表示对深度为 s 的预测的置信水平。这个值越高,就表示对深度 s 的估计越可信。
    
2. **e^(- (s-z)^2 / σ^2):** 这一部分使用了指数函数(e^x)来计算深度置信度。其中,x 的值为 -(s-z)^2 / σ^2。这里的 (s-z) 是
深度预测值与实际深度之间的差异,σ 是标准差(用来表示深度预测的不确定性)。这个公式的作用是,当深度预测与实际深度之间的差异较小时,
置信度会增加,反之则减小。
    
3. **σ = e^(zλ):** 这里定义了标准差 σ,它是一个与深度 z 相关的函数。λ 是一个常数或者一个系数,用来调节标准差的增长速度。
通常情况下,随着深度 z 的增加,标准差 σ 也会增加,因为在更远的深度上进行深度估计会更加困难,预测的不确定性也会增加。
    

综合起来,这个公式描述了在深度估计中如何通过深度差异和标准差来计算相对深度置信度。当深度预测接近实际深度并且标准差较小时,
置信度会更高,反之则会较低。

位置分布具有多项优势。

首先,它自然适合单目 3D 探测器,因为它直接将预测深度的不确定性表达到输出中

其次,它可以更全面、更准确地描述障碍物状态,而现有的使用离散输出表示的方法可能会对不太准确的预测过于自信。

第三,这个输出表示是灵活的,它也与之前的表示兼容(当等式3中的λ设置为−∞时)。

4.3 采样策略

通过使用每个离散原始输出的位置分布,我们得到了一系列对象的概率表示

然后,我们从位置分布中采样位置作为新的检测结果,以评估结果。我们提出了两种采样策略并如图 4 所示。

在这里插入图片描述

  • 基于深度偏移的采样。

我们首先先定义一个深度偏移集,然后为每个原始检测输出使用该集合中的深度偏移。每个深度移动可以与位置分布中的一个位置相关联。对于原始深度为z的物体,新的检测结果为:
在这里插入图片描述

  • 基于概率平移的采样。

与基于深度移位的采样类似,我们使用先验概率集来对位置进行采样。
在这里插入图片描述

五、Experiments

5.1 实施细节

在这里插入图片描述

  • 公式(3)中的 λ设置为 80 KITTI,160 in Waymo ;

  • 我们使用集合 [±2, ±1, ±0.5, 0] 米进行基于深度间隔的采样,使用集合 [0.7, 0.8, 0.9, 1.0] 进行基于概率偏移的采样。

  • 此外,考虑到近距离物体在深度估计方面足够准确,我们不会转换 10 米内物体的输出表示

5.4 有效性分析

我们的输出表示在性能数字方面显示出有希望的改进。这里我们通过 P-R(精确率-召回率)曲线对改进给出更直观的解释。在图 5 中,我们显示了使用不同输出表示的单目 3D 探测器的 P-R 曲线。我们可以看到,我们的方法对高精度和低召回率区域没有影响,而对低精度和高召回率区域有效。因此,我们的方法主要是通过提高召回率来提高单目 3D 检测器的性能,从而提高配备单目 3D 检测器的系统的安全性。
在这里插入图片描述

5.5 Ablation Studies

抽样数量的影响。从位置分布中采样位置时,采样数量也会影响精度。我们将结果显示在表5中,我们可以知道适当的采样数量是优选的。

邻近的点会比较好,不能太过于偏离。

在这里插入图片描述
深度不确定性的影响。在表6中,我们显示了深度不确定性对位置分布的影响。如果采样位置的置信度不通过不确定性进行加权,则原始方法的性能会大幅下降,这证明了单目 3D 检测中深度不确定性的重要性。

深度不确定性非常重要,其他论文中也经常使用。

在这里插入图片描述
抽样策略的影响。我们使用提出的两种采样策略,即基于深度偏移基于概率偏移。如表7所示,两种采样策略都为原始方法带来了显着的改进,这证明了我们方法的有效性。

现实中也是相通的,都是附近的点。不管是概率还是距离,相差不是很大;

在这里插入图片描述
• 位置分布的影响。在本文中,我们仅变换估计深度的空间概率。为了进行全面的比较,我们还将这种变换应用于其他位置参数,即 x 和 y。我们在表8中显示了结果。我们可以看到,没有必要将概率变换为可以通过已知维度很好地推断的其他参数(x和y通常由图像上的投影表示,然后通过深度恢复)。

只用到深度上面,效果更好。

在这里插入图片描述

六、Conclution

在本文中,我们回顾了以前的检测任务,认为单目 3D 检测任务与其他任务有本质上的不同。对于单目 3D 检测,它缺乏深度维度,因此在看不见的数据上表现较差。我们进一步使用单目图像的深度误差下限来证明这一点。

因此,我们建议将先前的离散输出表示重新表示为空间概率分布,以考虑深度估计的不确定性。我们还提出了两种采样策略来从位置分布中采样位置。结果,实验表明我们的输出表示为大多数 SOTA 检测器带来了非常有希望的改进。此外,考虑到固有的深度不确定性,我们可以使用一些网络设计来进一步提高未来工作中的检测精度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/511467.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

分享OpenTiny总结VUE目录结构

OpenTiny总结VUE目录结构,在设计规范和基础组件的基础上, 继续向上构建,提炼出典型模板/业务组件/配套设计资源,进一步提升企业级中后台产品设计研发过程中的『用户』和『设计者』的体验。 Vue 项目目录结构 ├── node_modules…

js实现websocket断线重连功能

在项目开发中我们可能经常要使用websocket技术,当连接发生断线后,如果不进行页面刷新将不能正常接收来自服务端的推送消息。为了有效避免这种问题,我们需要在客户端做断线重连处理。当网络或服务出现问题后,客户端会不断检测网络状…

ubuntu-server部署hive-part3-安装mysql

参照 https://blog.csdn.net/qq_41946216/article/details/134345137 操作系统版本:ubuntu-server-22.04.3 虚拟机:virtualbox7.0 部署mysql 下载上传 下载地址 https://downloads.mysql.com/archives/community/ 以root用户上传,/usr/loc…

Transformer模型-softmax的简明介绍

今天介绍transformer模型的softmax softmax的定义和目的: softmax:常用于神经网络的输出层,以将原始的输出值转化为概率分布,从而使得每个类别的概率值在0到1之间,并且所有类别的概率之和为1。这使得Softmax函数特别适…

利用IP地址判断羊毛用户:IP数据云提供IP风险画像

在当今数字化社会,互联网已经成为人们日常生活和商业活动中不可或缺的一部分。然而,随着网络的普及,网络欺诈行为也日益猖獗,其中包括了羊毛党这一群体。羊毛党指的是利用各种手段获取利益、奖励或者优惠而频繁刷取优惠券、注册账…

微信小程序自定义弹窗组件

业务背景&#xff1a;弹窗有时字体较多&#xff0c;超过7个字&#xff0c;不适用wx.showToast. 组件代码 <view class"toast-box {{isShow? show:}}" animation"{{animationData}}"><view class"toast-content" ><view class&q…

【FTP,EMail】

文章目录 FTPFTP&#xff1a;文件传输协议FTP: 控制连接与数据连接分开FTP命令、响应 EMail电子邮件&#xff08;EMail&#xff09;邮件服务器EMail: SMTP [RFC 2821]SMTP&#xff1a;总结 FTP FTP&#xff1a;文件传输协议 向远程主机上传输文件或从远程主机接收文件。客户/服…

抖音视频关键词批量下载工具|视频爬虫采集软件

抖音视频批量提取工具&#xff0c;搜索即下载&#xff0c;轻松获取所需视频&#xff01; 正文&#xff1a; 想要轻松获取抖音上的精彩视频吗&#xff1f;现在&#xff0c;有了我们的抖音视频批量提取工具&#xff0c;一切变得简单易行&#xff01;Q:290615413无论是针对特定关…

美摄科技AI智能图像矫正解决方案

图像已经成为了企业传播信息、展示产品的重要媒介&#xff0c;在日常拍摄过程中&#xff0c;由于摄影技巧的限制和拍摄环境的复杂多变&#xff0c;许多企业面临着图像内容倾斜、构图效果不佳等挑战&#xff0c;这无疑给企业的形象展示和信息传递带来了不小的困扰。 美摄科技深…

55、美国德克萨斯大学奥斯汀分校、钱德拉家族电气与计算机工程系:通过迁移学习解决BCI个体差异性[不得不说,看技术还得是老美]

2024年2月5日跨被试最新文章&#xff1a; 德州州立大学奥斯汀分校研究团队最近的一项研究成果&#xff0c;通过非侵入式的脑机接口&#xff0c;可以让被试不需要任何校准就可以使用脑机接口设备&#xff0c;这意味着脑机接口具备了大规模被使用的潜力。 一般来说&#xff0c;…

杰理芯片AC79——物联网远程点亮/关闭LED灯

杰理芯片的封装简直太香了&#xff08;比STM32香多了&#xff09;&#xff0c;SDK也封装得很好&#xff0c;对于我这种手残党简直不要太友好。赶紧学起来&#xff0c;快速实现你想要的功能吧&#xff01; 芯片选型 杰理AC79 资料文档 环境搭建以及点亮第一盏灯请访问&#x…

大话设计模式之抽象工厂模式

抽象工厂模式&#xff08;Abstract Factory Pattern&#xff09;是一种创建型设计模式&#xff0c;它提供了一种方式来创建一系列相关或依赖对象的家族&#xff0c;而无需指定其具体类。该模式通过提供一个抽象工厂接口&#xff0c;定义了一组可以创建不同类型对象的方法&#…

【JavaEE】_Spring MVC项目上传文件

目录 1. 文件上传具体实现 2. 保存文件 1. 文件上传具体实现 .java文件内容如下&#xff1a; package com.example.demo.controller;import com.example.demo.Person; import org.springframework.web.bind.annotation.*; import org.springframework.web.multipart.Multip…

2013年认证杯SPSSPRO杯数学建模A题(第二阶段)护岸框架全过程文档及程序

2013年认证杯SPSSPRO杯数学建模 A题 护岸框架 原题再现&#xff1a; 在江河中&#xff0c;堤岸、江心洲的迎水区域被水流长期冲刷侵蚀。在河道整治工程中&#xff0c;需要在受侵蚀严重的部位设置一些人工设施&#xff0c;以减弱水流的冲刷&#xff0c;促进该处泥沙的淤积&…

SpringData ElasticSearch - 简化开发,完美适配 Spring 生态

目录 一、SpringData ElasticSearch 1.1、环境配置 1.2、创建实体类 1.3、ElasticsearchRestTemplate 的使用 1.3.1、创建索引 设置映射 1.3.2、简单的增删改查 1.3.3、搜索 1.4、ElasticsearchRepository 1.4.1、使用方式 1.4.2、简单的增删改查 1.4.3、分页排序查…

【路径规划论文整理(1)】Path Deformation Roadmaps(附带对PRM改进算法、同伦映射的整理)

本系列主要是对精读的一些关于路径搜索论文的整理&#xff0c;包括了论文所拓展的其他一些算法的改进思路。 这是本系列的第一篇文章&#xff1a; Jaillet, Lonard & Simon, Thierry. (2008). Path Deformation Roadmaps: Compact Graphs with Useful Cycles for Motion Pl…

Windows下编译TinyXML(XML文件解析)

作者&#xff1a;翟天保Steven 版权声明&#xff1a;著作权归作者所有&#xff0c;商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处 TinyXML是什么&#xff1f; TinyXML是一个轻量级的C XML解析器&#xff0c;它提供了一种简单的方法来解析和操作XML文档。TinyXM…

【XR806开发板试用】简单点灯-- 基于SPI控制W2812矩阵幻彩动图和字幕显示系统

1.效果展示 1.gif 动图展示 2.字幕展示 2.软件开发流程 2.1 全志XR806 基本开发流程 使用指南 自己踩过的坑 必须app开头 鸿蒙hb 依赖python 环境。建议使用conda虚拟环境 下载开启硬件校验和烧录重启 2.2 W2812 简单介绍 不是科普文&#xff0c;自行百度 /*WS2812B T…

Mac下Docker Desktop starting的解决方法

记录下自己在新增了一个新的容器后&#xff0c;Disk Size过大导致启动Docker Desktop会一直卡在Docker Desktop starting&#xff0c;并且重启无效的解决方法。该方法无需重新卸载&#xff0c;并且能保留原有的镜像和容器。 一、确认问题 首先确认Docker.raw大小以确认是否和笔…

vivado 高级编程功能1

适用于 7 系列、 UltraScale 和 UltraScale FPGA 和 MPSoC 的回读和验证 为 7 系列器件生成已加密文件和已经过身份验证的文件 注释 &#xff1a; 如需获取其它信息 &#xff0c; 请参阅《使用加密确保 7 系列 FPGA 比特流的安全》 ( XAPP1239 ) 。 要生成加密比特流…