经典文献阅读之--iDet3D(交互式3D目标检测器)

Tip: 如果你在进行深度学习、自动驾驶、模型推理、微调或AI绘画出图等任务,并且需要GPU资源,可以考虑使用UCloud云计算旗下的Compshare的GPU算力云平台。他们提供高性价比的4090 GPU,按时收费每卡2.6元,月卡只需要1.7元每小时,并附带200G的免费磁盘空间。通过链接注册并联系客服,可以获得20元代金券(相当于6-7H的免费GPU资源)。欢迎大家体验一下~

0. 简介

在激光雷达场景中准确标注多个3D物体是费时且具有挑战性的工作。虽然之前有一些研究尝试利用半自动方法进行成本效益高的包围盒标注,但这些方法在有效处理大量多类别物体时存在局限。为了有效加速3D标注流程,《iDet3D: Towards Efficient Interactive Object Detection for LiDAR Point Clouds》提出了iDet3D,一个高效的交互式3D物体检测器。iDet3D支持用户友好的2D界面,该界面可以减轻用户在3D空间中进行点击交互的认知负担,使用户能够通过最少的交互完成每个场景中全部物体的标注。考虑到3D点云的稀疏性,我们设计了一种负点击模拟(NCS)机制来提高准确性,通过减少误报预测。此外,iDet3D结合了两种点击传播技术,充分利用用户交互:(1) 稠密点击引导(DCG),保持网络中用户提供的信息;(2) 空间点击传播(SCP),基于用户指定的物体检测同一类别的其他实例。通过我们的广泛实验,我们展示了我们的方法可以在几次点击中构建精确的标注,这表明它作为3D物体检测的高效标注工具具有实用性。这个工具目前还没开源,可以期待一波

1. 主要贡献

在图1中,我们展示了我们提出的iDet3D的一个交互式标注示例,通过在行人身上进行正点击,然后进行负点击来抑制误报。我们的主要贡献如下:

  1. 我们提出了iDet3D,这是一个新颖的交互式3D物体检测器,能够在用户点击几次后检测激光雷达点云中的不同类别的多个物体。
  2. NCS策略使得iDet3D能够利用用户给定的负点击来减少误报。
  3. 我们精心设计了有效的点击传播方法(DCG和SCP),以充分利用网络和3D场景中用户提供的交互。
    我们在几个3D激光雷达数据集上进行的广泛实验显示了iDet3D作为标注工具的有效性。

在这里插入图片描述

图1:iDet3D的迭代标注过程示例。(a) 给定的输入点云。(b) 在行人上提供正点击(红圈),提出的iDet3D可以在单次点击中检测场景中各类多个物体。(c ) 在第二次迭代中,可以通过增加单个负点击(蓝圈)一次性过滤掉误报。(d) 真实标注。在几次迭代内,可以获得高质量的标注结果。

2. 方法

2.1 概述

在本文中,我们基于IA-SSD主干(张等人,2022年)描述了我们提出的iDet3D,这是一个最近提出的3D物体检测器。值得注意的是,我们的原则可以轻松地适用于其他单阶段基于点的检测器。iDet3D支持两种类型的用户交互:特定类别的正点击和与类别无关的负点击,分别用来指示前景物体的位置和背景区域。图2展示了iDet3D的整体架构。
在这里插入图片描述

图2:iDet3D的训练工作流程。给定用户在目标物体上的点击,这些点击被转换为点击编码。
(a) 密集点击引导(DCG)不仅在输入端而且在中间层将编码融合到主干网络架构中
(b) 负点击模拟(NCS)通过选择具有高前景分数的具有挑战性的背景点来随机模拟可能的负点
© 接下来的空间点击传播(SCP)模块有效地传播用户点击,以便根据特征嵌入之间的相似性检测同一类别的其他物体。

2.2 点击编码

在给定的3D场景中提供交互的一种直接方法是直接点击感兴趣的物体(Kontogianni等人,2022年)。然而,指定广阔3D空间中一个小点的3D坐标对用户来说是一个巨大的认知负担。

因此,我们开发了一个用户友好的2D视图界面,用户可以在其中提供简单的2D点击以标注目标物体。为了更好地理解,我们可视化了3D和我们的2D界面之间的区别。在3D界面中,光标的轻微移动可能会导致另一个轴上的坐标发生不希望的移动。然而,我们的2D标注环境可以通过消除指定z轴位置的需求来减少此类错误。

假设在一个场景上提供了 K K K 个特定类别的正点击以标注 C C C 个类别的总共的前景物体。那么,第 k k k个点击可以写为 ( p k , c k ) (p_k,c_k) (pkck),其中 p k = ( p k , x , p k , y ) p_k = (p_{k,x}, p_{k,y}) pk=(pk,x,pk,y)表示点击的2D坐标, c k ∈ { 1 , ⋅ ⋅ ⋅ , C } c_k ∈ \{1, · · · , C\} ck{1,⋅⋅⋅,C}是相应的类别。遵循深度交互式标注方法的传统(Xu等人,2016年),我们将用户点击转换为相应的距离热图以生成适合基于点的检测器的合适输入。给定由N个点组成的3D点云场景 { ( x i , y i , z i ) } N i = 1 \{(x_i,y_i,z_i)\}^{N_{i=1}} {(xiyizi)}Ni=1,我们将(pk, ck)编码成点击编码 E k ∈ R N E_k ∈ \mathbb{R}^N EkRN,其第 i i i个元素是

在这里插入图片描述
在等式(1)中, d = ( p k , x − x i ) 2 + ( p k , y − y i ) 2 d =\sqrt{(p_{k,x} − x_i)^2 + (p_{k,y} − y_i)^2} d=(pk,xxi)2+(pk,yyi)2 表示 p k p_k pk ( x i , y i ) (x_i, y_i) (xi,yi)之间的2D欧几里得距离, τ τ τ是一个超参数,用于控制距离阈值。注意 E k E_k Ek的设计是为了在[0, 1]的范围内突出显示 p k p_k pk及其邻近点。

为了有效地将编码后的点击 { E k } k = 1 K \{E_k\}^K_{k=1} {Ek}k=1K输入到网络,我们通过逐元素最大池化定义了类别 c ∈ { 1 , ⋅ ⋅ ⋅ , C } c ∈ \{1, · · · , C\} c{1,⋅⋅⋅,C}的类别级点击编码 U c ∈ R N U_c ∈ \mathbb{R}^N UcRN,即:

在这里插入图片描述
在生成了 C C C个编码后,我们将 { U c } c = 1 C \{U_c\}^C_{c=1} {Uc}c=1C与对应的输入点连接起来。为了更好地理解,我们在图3中展示了由两次点击“汽车”类别计算出的Uc的示例。我们通过结合该点击编码和背景编码器来定义一个基本模型。
在这里插入图片描述

图3:我们的iDet3D中点击编码的视觉示例。 (a) 输入点云和用户点击(红色箭头)。 (b) 目标物体上突出显示的相应距离编码用户交互。

2.3 负点击模拟

我们观察到,仅含有正点击的基本模型未能将背景点云与前景点云分开,导致了意外的假阳性预测。为了缓解类似问题,之前关于交互式分割的研究(Xu et al. 2016; Sofiiuk, Petrov, and Konushin 2022)利用了负点击来指示不需要的区域。通常情况下,他们会基于这样的假设来随机抽样负点击:真实用户可能会在前景区域外但靠近物体边界的区域提供负点击。然而,由于3D物体检测中的假阳性无论前景物体位置如何都可能发生,交互式分割的模拟策略可能无法合理地推导出负点击。

相反,我们提出了适合3D物体检测的负点击模拟(NCS),旨在抽样具有挑战性的背景点,这些点可能会被不准确地预测为前景。为此,我们利用了最近基于点的检测器的下采样方法中嵌入的MLP基础评分(Zhang et al. 2022; Chen et al. 2022)。该方法为潜在的前景点分配高分,并选择排名前n的点进行下采样,这意味着一些具有挑战性的背景点可能会被排在前n名。

我们将这一层的功能扩展为负点击模拟器,通过选择具有高前景分数的背景点作为负点击。采用此模拟策略后,我们抽样前 K n K_n Kn个背景点,并以与正点击相同的方式进行编码,即点击编码变为 ( C + 1 ) (C + 1) (C+1)通道,其中额外的单个通道用于类别不可知的负点击。

2.4 用户点击传播

除了假阳性预测的局限性外,我们发现原始模型有时无法检测到用户指定的对象。这一发现意味着模型的两个缺点:(1)用户意图可能在网络层的前向传播中被稀释;(2)用户点击在影响多个对象方面受到限制。为了解决这些问题,我们提出了两种点击传播方法,即DCG(密集点击引导)使iDet3D维持用户意图,以及SCP(空间点击传播)增强用户点击对同一类别其他对象的影响力。

…详情请参照古月居

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/762351.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Kafka基本原理详解

(一)概念理解 Apache Kafka是一种开源的分布式流处理平台,专为高性能、高吞吐量的实时数据处理而设计。它最初由LinkedIn公司开发,旨在解决其网站活动中产生的大量实时数据处理和传输问题,后来于2011年开源&#xff0…

2024年7月1日 (周一) 叶子游戏新闻

老板键工具来唤去: 它可以为常用程序自定义快捷键,实现一键唤起、一键隐藏的 Windows 工具,并且支持窗口动态绑定快捷键(无需设置自动实现)。 喜马拉雅下载工具: 字面意思 《星刃》早期概念图分享 末世破败环境推主Genki分享了《星…

ROS2在rviz2中实时显示轨迹和点

本文是将《ROS在rviz中实时显示轨迹和点》博客中rviz轨迹显示转为ROS2环境中的rviz2显示。 ros2的工作空间创建这里就不展示了。 包的创建 ros2 pkg create --build-type ament_cmake showpath --dependencies rclcpp nav_msgs geometry_msgs tf2_geometry_msgsshowpath.cpp…

公网环境使用Potplayer远程访问家中群晖NAS搭建的WebDAV听歌看电影

文章目录 前言1 使用环境要求:2 配置webdav3 测试局域网使用potplayer访问webdav4 内网穿透,映射至公网5 使用固定地址在potplayer访问webdav 前言 本文主要介绍如何在Windows设备使用potplayer播放器远程访问本地局域网的群晖NAS中的影视资源&#xff…

dedecms无法采集怎么办

dedecms无法采集解决方法:1、检查是否设置了正确的采集规则和路径,确保dedecms能够正常访问目标网站,并且有足够的权限进行采集操作;2、尝试使用代理服务器进行采集,或者通过破解验证码的方式绕过网站的反爬虫机制&…

Vue3学习笔记<->创建第一个vue项目(2)

新建一个项目目录 找一个盘新建一个目录,我这里在D盘创建一个vuedemo目录作为项目存放的目录。使用idea打开目录。   单击ieda底部的按钮“Terminal”,打开命令行窗口,如果命令行窗口当前目录不是“vuedemo”,就切换到“vuedem…

2024第17届中国西部(重庆)留学移民海外置业展览会

2024第17届中国西部(重庆)留学移民海外置业展览会 邀请函 主办单位: 中国西部教体医融合博览会组委会 承办单位:重庆中博展览有限公司 展会背景: 成都和重庆是中国新一线城市,是西部经济的核心增长极&a…

OpenStack开源虚拟化平台(一)

目录 一、OpenStack背景介绍(一)OpenStack是什么(二)OpenStack的主要服务 二、计算服务Nova(一)Nova组件介绍(二)Libvirt简介(三)Nova中的RabbitMQ解析 OpenS…

KUKA机器人不同运行方式

KUKA机器人有以下四种运行方式: 1、手动慢速运行(T1) 2、手动快速运行(T2) 3、自动运行(AUT) 4、外部自动运行(AUT EXT) 将示教器上的钥匙向右旋转,就会…

ruoyi—cloud 新建模块+生成代码

1.复制一个模块——修改名字 2.打开模块下的yml文件,修改端口号和名字 (1)修改一个名字 (2)打开yml文件 (3)修改端口号,不要重复 (4)改名字和模块一致 3.…

arm_uart4实验

#include "uart4.h" //UART //初始化 void hal_uart4_init() { //rcc_init //…

Python中常用的有7种值(数据)的类型及type()语句的用法

目录 0.Python中常用的有7种值(数据)的类型Python中的数据类型主要有:Number(数字)、Boolean(布尔)、String(字符串)、List(列表)、Tuple&#xf…

MySQL-数据操作类型的角度理解 S锁 X锁

文章目录 1、S锁和S锁互相兼容2、S锁和X锁互斥3、X锁和X锁也互斥4、X锁和S锁也互斥5、select * from account for update;6、select * from account for update nowait;7、select * from account for update skip locked; 1、S锁和S锁互相兼容 2、S锁和X锁互斥 3、X锁和X锁也互…

LLaVA1.5训练数据和时间分析

LLaVA的PT+SFT训练_llava sft-CSDN博客文章浏览阅读379次。这个阶段,使用8个A100(80G)训练LLaVA-v1.5-13B大约需要20h。全量微调,非lora跑不起来啊,以前一直用swift,llama-factory这种框架式的代码库,但用原作者开源的代码也是有很多好处的。在这个阶段,使用 8 个 A100(…

App测试技术(纯理论)

之前我们也学习过一些普通用例的设计, 如功能, 性能, 安全性, 兼容性, 易用性, 界面的测试用例设计, 之前我们讲的基本都是对于Web应用而言的, 这里我们来讲一下移动端的App测试用例设计. 功能方面 安装&卸载测试 这是只属于App的一类测试, 再平常我们使用移动设备(手机…

nodejs--【Express基本使用】

10 【Express基本使用】 https://www.expressjs.com.cn/ 基于 Node.js 平台,快速、开放、极简的 web 开发框架。 1.Express的安装方式 Express的安装可直接使用npm包管理器上的项目,在安装npm之前可先安装淘宝镜像: npm install -g cnpm -…

[工业网络][2] 安全背景知识

安全背景知识 物理、网络和人员安全 在考虑企业和工业的安全性时,安全从业人员传统上将自己划分为三个专业领域。我们借助于安全中经常使用的两个术语来描述这三个领域 业内人士。属于您的设施的人员,包括员工和受邀承包商,访客或交付和服…

Skipfish一键扫描网站漏洞(KALI工具系列三十四)

目录 1、KALI LINUX 简介 2、Skipfish工具简介 3、信息收集 3.1 目标IP 3.2 kali的IP 4、操作步骤 4.1创建目录 4.2开始扫描 4.3 配置扫描 4.4 指定范围 4.5 查看扫描结果 5、总结 1、KALI LINUX 简介 Kali Linux 是一个功能强大、多才多艺的 Linux 发行版 &#xf…

TopK问题与如何在有限内存找出前几最大(小)项(纯c语言版)

目录 0.前言 1.知识准备 2.实现 1.首先是必要的HeapSort 2.造数据 其他注意事项 3.TopK的实现 0.前言 在我们的日常生活中总有排名系统,找出前第k个分数最高的人,而现在让我们用堆来在有限内存中进行实现 1.知识准备 想要实现topk问题首先我们要…

windows下启动redisSentinel

如果已经安装redis的就继续往下看&#xff0c;还没安装redis&#xff0c;先安装一下redis 安装完redis之后&#xff0c;打开redis的目录。 新建一个sentinel.conf文件 # 端口号 port 26379# Sentinel 监控的主节点信息&#xff0c;格式为 <master-name> <ip> &l…