【CVPR2023】使用轻量 ToF 传感器的单目密集SLAM的多模态神经辐射场

目录

导读

本文贡献

本文方法

轻量级ToF传感器的感知原理

多模态隐式场景表示

时间滤波技术

实验

实验结果

消融实验

结论

未来工作


 

论文标题:Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a Light-Weight ToF Sensor

论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Liu_Multi-Modal_Neural_Radiance_Field_for_Monocular_Dense_SLAM_with_a_ICCV_2023_paper.html

代码:https://zju3dv.github.io/tof_slam/

引用:Liu X, Li Y, Teng Y, et al. Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a Light-Weight ToF Sensor[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 1-11.

导读

这篇论文的主要目标是设计一种新型的dense SLAM(Simultaneous Localization and Mapping,同时定位与地图构建)系统,该系统的输入由单目相机的 RGB 序列和轻量级 ToF(Time-of-Flight)传感器的稀疏信号组成。dense SLAM在增强现实、室内机器人等领域有广泛的应用,现实生活中通常需要高精度和高分辨率的深度传感器,如ToF传感器或结构光传感器。然而,由于这些传感器在尺寸、重量和价格方面存在限制,因此直到最近才在少数高端移动设备中得以应用。

与此相反,轻量级ToF传感器具有成本效益高、紧凑且节能的特点,已经整合到数百种智能手机型号中。因此,本文的目标是充分利用这些轻量级ToF传感器,以实现dense SLAM,从而进一步促进增强现实、虚拟现实等应用的发展。

本文提出了第一个使用单目相机和轻型ToF传感器密集SLAM系统。具体来说,本文提出了一种多模态的隐式场景表示,支持对来自RGB相机和轻量级ToF传感器的信号进行渲染。同时,还引入了深度估计模型,以预测中间的高分辨率深度,以提供额外的监督。最终,本文还开发了一种时间滤波技术,以增强轻量级ToF传感器信号和深度预测性能。

本文贡献

  • 本文首次提出了基于轻量级ToF传感器和单眼相机的稠密SLAM系统

  • 本文提出了一种多模态的隐式场景表示方法,支持渲染来自RGB相机和轻量级ToF传感器的信号。这个表示方法允许系统同时处理不同领域的输入信号,有助于实现准确的相机姿态跟踪和精细的场景重建。

  • 为了提高轻量级ToF传感器的信号质量,作者引入了深度估计模型,用于预测中间的高分辨率深度信息。

  • 为了解决嘈杂信号和数据缺失的问题,作者开发了一种时间滤波技术,以增强轻量级ToF传感器信号和深度预测性能

本文方法

图片

 

本文的方法使用一个单目相机和一个轻量级的ToF传感器作为输入,同时恢复相机运动和场景结构。通过可微分渲染技术,本文的方法能够渲染多模态信号,包括彩色图像、深度图像和区域级别的L5信号。通过最小化重新渲染损失,优化场景结构和相机姿态。

轻量级ToF传感器的感知原理

轻量级ToF传感器旨在低成本、小尺寸和低能耗,并已大规模部署在移动设备上。与传统的ToF传感器相比,传统的ToF传感器提供高分辨率的深度测量,并测量到场景中每个像素的距离。

轻量级ToF传感器通常具有极低的分辨率(例如,8×8个区域),并测量每个区域的深度分布。在这里,我们以ST VL53L5CX [29](简称为L5)作为轻量级ToF传感器的代表,介绍这些传感器的感知原理。

如图2所示,L5通过计算在特定时间间隔内接收的光子数来测量深度分布。然后,结果被拟合为高斯分布,L5仅传输均值和方差以减少能耗和宽带负载。由于其低分辨率和高不确定性,以往的研究中没有探讨过将L5用于SLAM等下游应用。

图片

 

多模态隐式场景表示

几何编码与蒙版渲染

作者采用了一种被称为"Masked Rendering"的方法,灵感来自于MipNeRF中提出的集成位置编码(IPE)理论。这个方法被推广到了基于网格的场景表示中。

IPE的核心思想是通过低通滤波器传递输入特征,即如果特定特征的频率具有大于射线的周期,则该特征不受影响;否则,该特征将朝零缩小。

在网格表示的情况下,作者将来自不同级别特征网格的特征串联在一起,并使用渲染蒙版来根据当前渲染尺度屏蔽来自过高空间频率网格中提取的特征。作者将场景几何编码为包含四个层次的多级特征网格,其中包括区域级别的特征网格和像素级别的特征网格。作者使用蒙版渲染技术在几何编码中进行渲染,以同时获得区域级别的L5信号和像素级别的深度图像。

颜色编码

对于颜色信息,作者仅在最精细级别使用一个单独的特征网格和解码器来进行编码。在解码颜色时,作者还使用了射线方向,以获得3D点的颜色值。

L5信号、颜色和深度图像的渲染

作者使用体积渲染技术来渲染颜色和深度值。具体来说,对于每个颜色像素,沿着发射的射线采样N个点,并通过累积透明度和颜色值来获得最终的颜色像素值。

对于L5信号的渲染也类似,不同之处在于,对于每个L5区域的均值深度值,作者从该区域的中心发射射线,并通过累积距离值来获得最终的深度值。

渲染监督

最终,渲染出的颜色图像、L5信号和深度图像被用于监督系统,以进行相机姿态跟踪和地图构建。深度图像的监督还包括来自之前深度估计模型的深度预测。

时间滤波技术

正如前面提到的,我们使用DELTAR [14]来预测像素级深度图作为额外的监督。DELTAR是一个经过预训练的神经网络,它以L5信号和RGB图像作为输入,并预测相应的深度图。

我们观察到,当存在大量缺失或嘈杂的L5信号时,DELTAR预测的深度图可能会因缺失或嘈杂区域的固有深度模糊而包含严重伪影,从而进一步污染隐式特征的学习并降低SLAM系统的性能。这促使我们开发了一种显式的时间滤波技术(图4)

图片

 

具体来说,所提出的滤波算法包含两个步骤:预测步骤和更新步骤。

在预测步骤中,我们使用具有初始化姿态的神经渲染(Eq. 4)来预测时间戳k中的每个区域的ToF测量Xk = {µ1, σ1}:

图片

 

然后,使用当前的 L5 测量 Zk = {µ2, σ2} 来更新 Xk 为 X'k :

图片

 

实验

实验结果

定性重建结果:

图片

 

没有像素级深度监督的结果:

图片

 

重建过程中的定量比较:

图片

 

相机跟踪结果:

图片

 

消融实验

图片

 

运行时间比较:

图片

 

结论

本文提出了一种新颖的稠密视觉SLAM框架,使用RGB相机和轻量级ToF传感器,采用神经隐式场景表示。为了适应这种新的输入方式,论文提出了一种新颖的多模态特征网格,可以同时用于ToF传感器的区域级别渲染和其他高分辨率信号的像素级渲染。为了确保稳健的跟踪和地图构建,论文利用每个像素的深度预测作为附加监督,该监督进一步通过一种新颖的时间滤波策略进行改进。实验证明,所提出的方法能够在室内场景上提供准确的相机跟踪和高质量的重建结果。

未来工作

进一步改进系统,以克服ToF传感器在室外场景中的限制,并使其足够高效,以在移动机器人上运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/289472.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Lumerical Script------for语句

Lumerical------for语句 正文正文 关于 Lumerical 中 for 语句的用法这里不做过多说明了,仅仅做一个记录,具体用法如下: 通常我们用的比较多的形式是第一种步长值为 1 的情况。对于其他步长值的情况,我们可以使用第二种用法。对于 while 的类似使用方法可以使用第三种。 …

【SpringBoot框架篇】34.使用Spring Retry完成任务的重试

文章目录 简要1.为什么需要重试?2.添加maven依赖3.使用Retryable注解实现重试4.基于RetryTemplate模板实现重试 简要 Spring实现了一套重试机制,功能简单实用。Spring Retry是从Spring Batch独立出来的一个功能,已经广泛应用于Spring Batch,…

【MySQL·8.0·源码】MySQL 的查询处理

Query processing MySQL 的 Query 处理可以分为 Parse、Prepare(Resolve/Transform)、Optimize 和 Execute 几个阶段 Parse 词法扫描器将 SQL 语句字符串分解为 tokens,语法分析器将 tokens 组装成语法树的子树结构,并 Reduce 为基本查询结构&#xff0…

简单工厂,工厂方法,抽象工厂模式

文章目录 简单工厂模式简单工厂模式的角色简单工厂的介绍 工厂方法UML图片代码工厂方法总结: 抽象工厂代码实现 简单工厂模式 简单工厂模式(Simple Factory Pattern)专门定义一个类来负责创建其他类的实例,被创建的实例通常具有共…

商品推荐系统+可视化+2种协同过滤推荐算法 Django框架 大数据毕业设计(附源码+论文)✅

毕业设计:2023-2024年计算机专业毕业设计选题汇总(建议收藏) 毕业设计:2023-2024年最新最全计算机专业毕设选题推荐汇总 🍅感兴趣的可以先收藏起来,点赞、关注不迷路,大家在毕设选题&#xff…

rime中州韵小狼毫 inputShow lua Translator 输入字符透传翻译器

在 rime中州韵小狼毫 help lua Translator 中我们分享了如何使用 lua 脚本定义一个 translator,并以 五笔・拼音 为例引用了该 translator,并且达到了预期的效果。 今天,我们继续通过 lua 脚本为 rime中州韵/小狼毫 输入法打造一个 translat…

std::setlocale详解

头文件 #include <clocale>作用 std::setlocale是C标准库中的一个函数&#xff0c;用于设置当前程序的本地化&#xff08;locale&#xff09;环境。 setlocale 函数安装指定的系统本地环境或其一部分&#xff0c;作为新的 C 本地环境。 修改保持效果&#xff0c;并影…

【MyBatis】配置 SQL 提示(IDEA 代码自动补全)和解决未能解析数据库 Unable to resolve table ‘employee‘ 问题

默认在 MyBatis 中编写 SQL 语句是不识别的。 需要做如下配置&#xff1a; 然后 SQL 语句可以出现提示&#xff0c;但是自己的数据库会报错&#xff1a; 原因是 IDEA 没有和 数据库 建立连接&#xff0c;需要连接数据库&#xff08;注意&#xff1a;需要具体到某个 Schema&…

人工智能_机器学习080_KMeans聚类算法原理和流程_KMeans损失函数_随机聚类中心_对异常值_初始值敏感---人工智能工作笔记0120

然后我们来看一下KMeans聚类算法的原理 可以看到,聚类的过程是,首先1.将N个样本数据,映射到K个簇中,这个K就是我们指定的划分成几类,比如3对吧,那么 指定了K个类别以后,然后 我们再去随机指定K个,簇中心 然后再去计算,我们指定的这个簇中心,到簇中所有样本的距离的平均值, 我…

多模态——旷视大模型Vary更细粒度的视觉感知实现文档级OCR或图表理解

概述 现代大型视觉语言模型&#xff08;LVLMs&#xff09;&#xff0c;例如CLIP&#xff0c;使用一个共同的视觉词汇&#xff0c;以适应多样的视觉任务。然而&#xff0c;在处理一些需要更精细和密集视觉感知的特殊任务时&#xff0c;例如文档级OCR或图表理解&#xff0c;尤其…

2024年测试岗最新自动化测试面试题整理,干货满满

一、接口测试 1、接口测试用例的编写要点有哪些&#xff1f;&#xff08;问法二&#xff1a;接口测试用例设计需要考虑哪些方面&#xff1f;问法三&#xff1a;接口测试中有哪些要注意的测试点&#xff1f;&#xff09; 1&#xff09; 考虑输入参数和输出参数的合法性&#x…

B01、类加载子系统-02

JVM架构图-英文版 中文版见下图&#xff1a; 1、概述类的加载器及类加载过程 1.1、类加载子系统的作用 类加载器子系统负责从文件系统或者网络中加载Class文件,class文件在文件开头有特定的文件标识。ClassLoader只负责class文件的加载,至于它是否可以运行,则由Execution Engi…

4-文献阅读-A Data-driven Base Station Sleeping Strategy Based on Traffic Prediction

目录 文献阅读—A Data-driven Base Station Sleeping Strategy Based on Traffic Prediction0、选这篇文章的原因1、文章的主要内容和贡献2、使用的数据集3、结果及分析4、郭郭有话说 文献阅读—A Data-driven Base Station Sleeping Strategy Based on Traffic Prediction 0…

Unity中URP下的添加雾效支持

文章目录 前言一、URP下Shader支持雾效的步骤1、添加雾效变体2、在Varying结构体中添加雾效因子3、在顶点着色器中&#xff0c;我们使用内置函数得到雾效因子4、在片元着色器中&#xff0c;把输出颜色 和 雾效因子混合输出 二、在Unity中打开雾效三、测试代码 前言 我们使用之…

Python学习笔记之(一)搭建Python 环境

搭建Python 环境 1. 使用工具准备1.1 Python 安装1.1.1 下载Python 安装包1.1.2 安装Python 1.2 VScode 安装1.2.1 下载VScode安装包1.2.2 给VScode安装Python 扩展 2. 第一次编写Python 程序 本篇文章以Windows 系统为例。 1. 使用工具准备 1.1 Python 安装 1.1.1 下载Pytho…

【JavaSE】string与StringBuilder和StringBuffer

区别&#xff1a; 不可变性&#xff1a; String&#xff1a; String 类是不可变的&#xff0c;一旦创建就不能被修改。对字符串的任何操作都会创建一个新的字符串对象。StringBuffer&#xff1a; StringBuffer 是可变的&#xff0c;允许对字符串进行修改&#xff0c;而不创建新…

案例089:基于微信小程序的校园综合服务平台设计与实现

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder X 小程序…

李沐机器学习系列1--- 线性规划

1 Introduction 1.1 线性回归函数 典型的线性回归函数 f ( x ) w ⃗ ⋅ x ⃗ f(x)\vec{w} \cdot \vec{x} f(x)w ⋅x 现实生活中&#xff0c;简单的线性回归问题很少&#xff0c;这里有一个简单的线性回归问题。房子的价格和房子的面积以及房子的年龄假设成线性关系。 p r …

Java项目:107SpringBoot房屋租赁网站

博主主页&#xff1a;Java旅途 简介&#xff1a;分享计算机知识、学习路线、系统源码及教程 文末获取源码 一、项目介绍 房屋租赁网站基于SpringBootMybatis开发&#xff0c;系统分为管理员和普通用户两种角色。 管理员功能如下&#xff1a; 登录修改密码查看用户房屋管理图…

内联函数的作用

目的 主要为了提升程序运行速度。 分析 当程序调用一个函数时&#xff0c;程序暂停执行当前指令&#xff0c;跳到函数体处执行&#xff0c;在函数执行完后&#xff0c;返回原来的位置继续执行。如果该函数为内联函数&#xff0c;则不同跳&#xff0c;是因为该内联函数直接插…