论文复现《SplaTAM: Splat, Track Map 3D Gaussians for Dense RGB-D SLAM》

前言

SplaTAM算法是首个开源的基于RGB-D数据,生成高质量密集3D重建的SLAM技术。

通过结合3DGS技术SLAM框架,在保持高效性的同时,提供精确的相机定位和场景重建

代码仓库:spla-tam/SplaTAM: SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM (CVPR 2024) (github.com)icon-default.png?t=N7T8https://github.com/spla-tam/SplaTAM

论文地址2312.02126.pdf (arxiv.org)

一、实验环境

1.1  电脑环境

Ubuntu18.04,python3.10,cuda11.6,pytorch1.12.1

1.2  配置须知

根据作者给的代码仓库,本人按照README文件进行配置,需要注意如下几点

1、pip install -r requirements.txt这块git的下载可能会很慢,可以注释掉然后再重新下载

在项目目录下运行下面指令即可: 

git clone https://github.com/JonathonLuiten/diff-gaussian-rasterization-w-depth

2、然后配置的时候,需要在终端bash的环境变量里面加入cuda的位置,修改.bashrc

3、编译器gcc版本需要降低到10,运行指令:

conda install gxx_linux-64=10

4、然后在下载的这个目录运行pip install .(注意有一个点 . )即可安装好diff-gaussian-rasterization-w-depth这个库(可微高斯光栅化的库)。

1.3  下载数据集(运行下载脚本即可)

代码提供给了几种数据集,有IPhone设备收集(可以在线和捕获照片后离线), 也有经典的数据集Replica、TUM-RGBD、ScanNet、ScanNet++、ReplicaV2 随后作者给出了上述数据集的基准测试的运行指令。

二、配置过程

由于本人在Ubuntu系统下运行,因此配置的过程也是使用的基于Linux的:

2.1  环境搭建

(conda安装+Python3.10的虚拟环境+cuda+pytorch+requirements.txt对应功能包)

conda create -n splatam python=3.10
conda activate splatam
conda install -c "nvidia/label/cuda-11.6.0" cuda-toolkit
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.6 -c pytorch -c conda-forge
pip install -r requirements.txt

2.2  下载数据集

由于没有IPhone手机和相关设备,因此只能离线下载数据集进行渲染,本人选择的是TUM-RGBD数据集,因为Replica数据集太大了,下载时间太长。

bash bash_scripts/download_tum.sh

2.3  训练SplaTAM(渲染过程)

首先先把 configs/tum/splatam.py 文件里的 use_wandb = True 改成了 False

然后在终端运行即可开始训练:

python scripts/splatam.py configs/tum/splatam.py

训练过程如图所示:

使用的GTX4070显卡,训练了大概四五十分钟。 

三、复现结果

训练完成之后,我们运行下面的指令即可得到渲染的最终结果和渲染过程视频。

3.1  最终结果展示

在终端输入指令

python viz_scripts/final_recon.py configs/tum/splatam.py

在config/tum/splatam.py中修改参数,重新再训练得到对比如下:

3.2  渲染过程视频

在终端输入指令

python viz_scripts/online_recon.py configs/tum/splatam.py

视频放不上去,大家可以运行这个指令自我尝试一下。

四、算法解读

4.1  算法对比

【数据集】

在四个数据集ScanNet++ 、Replica、TUM-RGBD、ScanNet进行评估

【评价指标】

为了测量RGB渲染性能使用了PSNR、SSIM和LPIPS

【损失函数】

对于深度渲染性能使用深度L1损失

对于摄像机姿态估计跟踪使用平均绝对轨迹误差(ATE RMSE)

【Baselines】

比较的主要基线方法是Point-SLAM。

  • 完成了四个数据集上在线相机位姿实验;
  • 高斯图重建与摄像机pose的可视化;
  • 渲染质量比较评估;
  • 颜色和深度损失消融。

4.1  各向同性的3DGS

SplaTAM公式:

3DGS公式:

4.2  基于Splatting的可微分渲染

4.3  SplaTAM的缺点

尽管 SplaTAM 实现了最先进的性能,但该方法对运动模糊、大深度噪声和激进旋转表现出一定的敏感性。

五、代码解读

5.1  代码整体框架

对于项目代码的分析框架如下所示:

5.2  配置文件:configs/tum/splatam.py

  • 一、场景选择 (scene_name): 通过索引选择一个场景进行处理,共五个场景 map_every: 每多少帧进行一次映射(Map)操作。 keyframe_every: 每多少帧选择一个关键帧。 mapping_window_size: 映射窗口的大小。
  • 二、跟踪迭代和映射迭代 (tracking_iters, mapping_iters): tracking_iters: 跟踪(Tracking)阶段每帧的迭代次数。 mapping_iters: 映射(Mapping)阶段的迭代次数。 scene_radius_depth_ratio :用于在剪枝(Pruning)和致密化(Densification)过程中设置深度和场景半径的比例。
  • 三、跟踪配置 (tracking 字典): 包含了是否使用真实位姿(Ground Truth Poses)、是否前向传播姿态、是否使用轮廓(Silhouette)作为损失函数的一部分等设置。 映射配置 (mapping 字典):包含了映射迭代次数、是否添加新的高斯点、轮廓阈值、是否使用L1损失等。 prune_gaussians: 是否在映射过程中剪枝高斯点。 pruning_dict: 剪枝相关的参数,如开始剪枝的迭代后、移除大高斯点后的迭代数等。 use_gaussian_splatting_densification: 是否使用基于高斯溅射的致密化方法。 densify_dict: 致密化相关的参数,如开始致密化的迭代后、移除大高斯点后的迭代数等。
  • 四、可视化配置 (viz 字典): 包含了渲染模式、是否显示轮廓、可视化相机和轨迹、可视化窗口大小、视野深度等。

5.3  核心算法文件:scripts/splatam.py

其中的rgbd_slam函数是核心算法的实现

1、打印配置信息、创建输出目录、初始化WandB、加载设备和数据集等操作;

2、迭代处理RGB-D帧,进行跟踪(Tracking)和建图(Mapping)。

3、保存关键帧信息和参数。

4、最后,评估最终的SLAM参数。

 其他的重要函数见本人所制作的PPT,如下所示:

5.3.1  初始化阶段

 5.3.2  Tracking阶段

5.3.3  Mapping阶段

5.3.4  可视化阶段

可视化阶段: 可以使用生成的3D模型和相机轨迹来可视化场景。 将3D点云渲染成2D图像,并展示相机在场景中的运动轨迹。 可视化有助于理解算法的性能和重建的质量,还可以用于调试和优化算法参数。

 5.3.5  迭代优化

在整个SplaTAM算法中,跟踪和建图阶段是交替进行的。 每次迭代都会根据新的观测数据更新相机轨迹和场景模型,直到满足停止条件,例如达到预设的迭代次数或者误差收敛到一个可接受的范围。

5.3.6  反向传播 

5.4  其他算法文件

5.4.1utils/keyframe_selection.py
5.4.2utils/slam_external.py
5.4.3utils/slam_helper.py

这部分的内容,还请读者们自行阅读代码,代码量较少,阅读难度较低。

5.5  光栅化

3DGS的渲染过程是利用了光栅化(rasterization) 而光栅化的过程需要在GPU上运行。

from diff_gaussian_rasterization import GaussianRasterizationSettings GaussianRasterizer

这部分的源码用cuda写的 GaussianRasterizationSettings与GaussianRasterizer对应的代码 在submodules/diff-gaussian-rasterization/diff_gaussian_rasterization/__init__.py 光栅化的源码主要的运行及计算的工程是forward(采用前向渲染)

该函数使用了CUDA并行计算,通过调用名为 preprocessCUDA 的 CUDA 核函数来执行高斯光栅化的前处理。CUDA 核函数的执行由函数参数确定。在 CUDA 核函数中,每个线程块由多个线程组成,负责处理其中的一部分数据,从而加速高斯光栅化的计算。

参考链接如下:https://github.com/JonathonLuiten/diff-gaussian-rasterization-w-depth

总结

本人从配置运行SplaTAM,到进行算法解读和代码讲解,细致入微地对基于3D-GS的SLAM算法经典之作,进行了一个总结回顾。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/556074.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

算法一:数字 - 两数之和

给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。 来源:力扣(LeetCode) 链接&#xf…

政安晨:【Keras机器学习示例演绎】(一)—— 利用类 U-Net 架构进行图像分割

目录 下载数据 准备输入图像的路径和目标分割掩码 一幅输入图像和相应的分割掩码是什么样子的? 准备数据集,以加载和矢量化成批数据 准备 U-Net Xception 风格模型 预留验证分割 训练模型 可视化预测 政安晨的个人主页:政安晨 欢迎 &…

4.18学习总结

多线程补充 等待唤醒机制 现在有两条线程在运行,其中一条线程可以创造一个特殊的数据供另一条线程使用,但这个数据的创建也有要求:在同一时间只允许有一个这样的特殊数据,那么我们要怎样去完成呢?如果用普通的多线程…

FTP客户端Transmit 5 for Mac中文激活版

Transmit 5是一款功能强大的Mac FTP客户端软件,它由Panic公司开发,为用户提供简单、高效的文件传输体验。 Transmit 5 for Mac中文激活版下载 Transmit 5支持多种传输协议,如FTP、SFTP、WebDAV和Amazon S3等,满足用户不同的文件传…

eCongnition 获取特征(shp)

目录 1、加载数据和分割的shp文件 2、将专题(导入的shp)转换为对象 3、导出特征 1、加载数据和分割的shp文件 我们加载数据,在第二个框(Thematic La..)里加载矢量shp 导入的.shp文件称为专题层(Thematic Layer), 显示方式如下所示&#x…

深入探索:Facebook如何重塑社交互动

在当代社会中,社交互动已成为日常生活的核心组成部分。而在众多的社交媒体平台中,Facebook凭借其卓越的用户基础和创新的功能,已经成为了全球最大的社交媒体平台。本文将深入探讨Facebook如何通过其独特的特性和功能,重塑了人们的…

Python 字符串 Base64

因消息传输的需要,我们需要对大量文本的字符串进行一下 Base64 转换。 这样的好处是因为在传输的字符串中可能有存在一些特殊字符,这些特殊在经过网络传输的时候会出现编码的问题,并且会影响传输稳定性。 使用 Base64 可以避免这个问题。 方…

数据库--Sqlite3

1、思维导图 2sqlite3在linux中是实现数据的增删&#xff0c;改 #include<myhead.h> int main(int argc, const char *argv[]) { //1、定义一个数据库句柄指针 sqlite3* ppDb NULL; //2、创建或打开数据库 if(sqlite3_open("./mydb…

深入解析Apache Hadoop YARN:工作原理与核心组件

什么是YARN&#xff1f; YARN&#xff08;Yet Another Resource Negotiator&#xff09;是Apache Hadoop生态系统中的一个重要组件&#xff0c;用于资源管理和作业调度。它是Hadoop 2.x版本中的一个关键特性&#xff0c;取代了旧版本中的JobTracker和TaskTracker。YARN的设计目…

ElasticSearch实战之项目搜索高亮

文章目录 1. 前情配置2、数据操作2.1 操作API2.2 数据入库 3. 高亮搜索3.1 方法封装3.2 高亮搜索 1. 前情配置 为满足ElasticSearch可在项目中实现搜索高亮&#xff0c;我们需要先做一些前情配置 导入ElasticSearch依赖 <dependency><groupId>org.springframewor…

【Flutter】多语言方案一:flutter_localizations 与 GetX 配合版

系列文章目录 多语言方案&#xff1a;flutter_localizations 与 GetX 配合版&#xff0c;好处&#xff1a;命令行生成多语言字符串的引用常量类&#xff0c;缺点&#xff1a;切换语言以后&#xff0c;主界面需要手动触发setState&#xff0c;重绘将最新的Locale数据设置给GetM…

【Leetcode每日一题】 分治 - 排序数组(难度⭐⭐)(60)

1. 题目解析 题目链接&#xff1a;912. 排序数组 这个问题的理解其实相当简单&#xff0c;只需看一下示例&#xff0c;基本就能明白其含义了。 2.算法原理 算法思路&#xff1a; 快速排序作为一种经典的排序算法&#xff0c;其核心思想在于通过“分而治之”的策略&#xff…

Idea修改【Help->Edit Custom VM Options...】后,导致idea无法正常启动的解决方法

一、错误场景: 二、解决方法&#xff1a; 修改文件路径&#xff1a;C:\Users\tianjm&#xff08;写自己的用户名&#xff09;\AppData\Roaming\JetBrains\IdeaIC2024.1&#xff08;选自己安装的版本&#xff09;

Linux 网络编程项目--简易ftp

主要代码 config.h #define LS 0 #define GET 1 #define PWD 2#define IFGO 3#define LCD 4 #define LLS 5 #define CD 6 #define PUT 7#define QUIT 8 #define DOFILE 9struct Msg {int type;char data[1024];char secondBuf[128]; }; 服务器: #i…

传统零售行业如何做数字化转型?

传统零售行业的数字化转型是一个系统性的过程&#xff0c;涉及到企业的多个方面。以下是一些关键步骤和策略&#xff0c;帮助传统零售企业实现数字化转型&#xff1a; 1、明确转型目标和战略 首先&#xff0c;企业需要明确数字化转型的目标和战略。包括确定企业的核心竞争力、…

Java内存模型和 JVM 内存运行时

文章目录 前言一、什么是Java 的内存模型&#xff1f;二、什么是 JVM 的运行时数据区Java8 之前和之后的区别JVM 内存模型JVM 内存区域JVM 内存垃圾回收JVM如何判断哪些对象不在存活&#xff1f;JVM运行过程中如何判断哪些对象是垃圾&#xff1f; JVM 垃圾回收Java8 中的 jvm如…

.rmallox勒索病毒来袭:如何守护您的数据安全?

引言&#xff1a; 随着信息技术的飞速发展&#xff0c;网络安全问题日益凸显&#xff0c;其中勒索病毒更是成为了网络安全领域的一大难题。.rmallox勒索病毒作为一种典型的恶意软件&#xff0c;通过加密受害者文件并勒索赎金的方式&#xff0c;给企业和个人带来了巨大的经济损…

指纹浏览器如何高效帮助TikTok账号矩阵搭建?

TikTok的账号矩阵&#xff0c;可能听起来还比较陌生&#xff0c;但随着TikTok业务已经成为吃手可热的跨境业务&#xff0c;TikTok多账号矩阵已成为流行策略。但它有什么优点呢&#xff1f;操作多个帐户会导致被禁止吗&#xff1f;如何有效地建立账户矩阵开展业务&#xff1f;这…

爬虫 | 基于 requests 实现加密 POST 请求发送与身份验证

Hi&#xff0c;大家好&#xff0c;我是半亩花海。本项目旨在实现一个简单的 Python 脚本&#xff0c;用于向指定的 URL 发送 POST 请求&#xff0c;并通过特定的加密算法生成请求头中的签名信息。这个脚本的背后是与某个特定的网络服务交互&#xff0c;发送特定格式的 JSON 数据…

深入理解MySQL中的UPDATE JOIN语句

在MySQL数据库中&#xff0c;UPDATE语句用于修改表中现有的记录。有时&#xff0c;我们需要根据另一个相关联表中的条件来更新表中的数据。这时就需要使用UPDATE JOIN语句。最近我们遇到了这样的需求&#xff1a;我们有一张历史记录表&#xff0c;其中一个字段记录了用,连接的多…