0. 简介
同时定位与地图构建(SLAM)的密集表示在机器人技术、虚拟现实(VR)和增强现实(AR)应用中扮演了关键角色。在密集表示SLAM的最新进展中,利用神经场景表示和3D高斯表示以实现高保真的空间表示显示出巨大潜力。在本文中,我们提出了一种结合广义迭代最近点(G-ICP)和3D高斯涂抹(3DGS)的新型密集表示SLAM方法。与现有方法不同的是,我们使用单个高斯地图同时进行跟踪和绘图,从而带来相互利益。通过在跟踪和映射过程中交换协方差,并结合规模对齐技术,我们最小化了冗余计算并实现了一个高效的系统。此外,我们通过关键帧选择方法提高了跟踪精度和映射质量。实验结果证明了我们方法的有效性,显示出整个系统高达107 FPS的惊人速度和重建地图的卓越质量。相关代码可以在GIthub中找到。
1. 主要贡献
G-ICP和3DGS可以共享同一个高斯世界。因此,我们的系统通过在跟踪和映射过程中相互利用关键元素——高斯分布,最小化不必要的计算并促进高效的系统配置。为了确保在跟踪和映射中共享G-ICP和3DGS之间的信息时获得最佳性能,我们还引入了若干技术,如规模对齐。总结来说,我们的贡献如下:
- 我们提出了一个实时的密集表示SLAM,结合了G-ICP和3DGS,实现了整个系统的极高速度(高达107 FPS)和地图的优越质量。
- 通过将G-ICP用于跟踪,我们的系统积极利用3D信息,显著减少了跟踪过程所需的时间。
- 通过共享G-ICP和3DGS的协方差以及采用规模对齐技术,实现了计算成本的降低和3DGS原语的快速收敛。
2. 主要工作
为了相互增益跟踪和映射,我们引入了G-ICP和GS的融合,分别代表跟踪和映射过程。我们方法的关键洞察是,协方差可以被视为这种融合的一个基本共同因素。假设我们有一个点集(点云) X = { x m } m = 1 , . . . , M X = \{x_m\}_{m=1,...,M} X={xm}m=1,...,M及其对应的协方差集 C = { C m } m = 1 , . . . , M C = \{C_m\}_{m=1,...,M} C={Cm}m=1,...,M,其中 x = [ x , y , z ] T x = [x, y, z]^T x=[x,y,z]T。一个3D点x的协方差 C C C是通过计算 x x x的 k k k 最近邻点的协方差矩阵得到的。【点云认为是均值,和协方差 C C C组成连续的3D表示】让我们定义 G = { X , C } G = \{X, C\} G={X,C}作为一组高斯分布。G-ICP旨在找到一个变换 T T T,最大限度地对齐源高斯分布(当前帧) G s = { X s , C s } G^s = \{X^s, C^s\} Gs={Xs,Cs}和目标高斯分布(地图) G t = { X t , C t } G^t = \{X^t, C^t\} Gt={Xt,Ct}。假设我们知道由最近邻搜索确定的 X s X_s Xs和 X t X_t Xt之间的对应关系。例如,我们有 { x i s } i = 1 , . . . , N ⊂ X s \{x^s_i\}_{i=1,...,N} ⊂ X^s {xis}i=1,...,N⊂Xs, { C i s } i = 1 , . . . , N ⊂ C s \{C^s_i\}_{i=1,...,N} ⊂ C^s {Cis}i=1,...,N⊂Cs 和 { x i t } i = 1 , . . . , N ⊂ X t \{x^t_i\}_{i=1,...,N} ⊂ X^t {xit}i=1,...,N⊂Xt, { C i t } i = 1 , . . . , N ⊂ C t \{C^t_i\}_{i=1,...,N} ⊂ C^t {Cit}i=1,...,N⊂Ct,其中 x i s x^s_i xis与 x i t x^t_i xit相关联。为了找到最优变换 T ∗ T^* T∗,我们不是利用单个点,而是利用该点定义为高斯分布的分布: x i ∼ N ( x ^ i , C i ) x_i ∼ N(\hat{x}_i, C_i) xi∼N(x^i,Ci)。让 d i = x i t − T x i s d_i = x^t_i − T x^s_i di=xit−Txis 是误差项,如果我们假设存在一个最优变换 T ∗ T^* T∗,很明显 x i t = T ∗ x i s x^t_i = T^*x^s_i xit=T∗xis,因此 d ^ i = 0 \hat{d}_i = 0 d^i=0。由于我们假设 x x x是一个高斯随机变量, d i d_i di也是一个高斯随机变量,如下所示:
为了找到 X s X^s Xs 和 X t X^t Xt 的最优变换 T ∗ T^* T∗,我们按照如下方法使用最大似然估计(MLE):
因此, T ∗ T^* T∗ 可以用作当前帧 G s = { X s , C s } G^s = \{X^s, C^s\} Gs={Xs,Cs} 和地图 G t = { X t , C t } G^t = \{X^t, C^t\} Gt={Xt,Ct} 之间的相对位置。同时,为了映射目的,GS 也依赖于3D场景表示的高斯 G = { X , C } G = \{X, C\} G={X,C}。与 G-ICP 不同,GS 的目标是找到高斯 X ∗ = { x m ∗ } m = 1 , . . . , M X^* = \{x^*_m\}_{m=1,...,M} X∗={xm∗}m=1,...,M 的最优坐标和最优协方差 C ∗ = { C m ∗ } m = 1 , . . . , M C^* = \{C^*_m\}_{m=1,...,M} C∗={Cm∗}m=1,...,M,具体如下【优化迭代部分】:
其中, H = { h m } m = 1 , . . . , M H = \{h_m\}_{m=1,...,M} H={hm}m=1,...,M 和 O = { o m } m = 1 , . . . , M O = \{o_m\}_{m=1,...,M} O={om}m=1,...,M 是用于** RGBD 图像渲染的 3D 点的颜色集合和不透明度集合**。 I I I 和 D D D 是通过使用 G G G、 H H H 和 O O O 进行光栅化得到的渲染的 RGB 和深度图像。请注意,在 G-ICP 和 GS 中,关键的共同因素是高斯函数 G = { X , C } G = \{X , C\} G={X,C},允许这些高斯函数相互共享。在 G-ICP 跟踪过程中,计算了每帧的协方差。因此,当添加关键帧以扩展 3D GS 地图时,无需为每次扩展重新计算 C C C。此外,G-ICP 不需要计算地图的协方差,因为我们的 GS 地图已经包含了高斯函数。此外,通过根据 3D 几何结构对帧进行对齐,G-ICP 在初始化一定数量的点及其坐标时 inherently 初始化了一定数量的点及其坐标,这些点和姿势适合描述 3D 结构。因此,它带来了一个效果,其中适当数量的点及其姿势被初始化,非常适合描述 3D 结构,大大减少了寻找最佳姿势 X ∗ X^* X∗ 和高斯函数 G G G 在 GS 中的最佳协方差 C ∗ C^* C∗ 的学习时间。另外,在同样的思路下,像稠密化或不透明度重置之类的计算来调整 GS 中的 3D 点数变得不必要。因此,通过共享一个共同的来源,每个过程变得相互有益,并且由于减少了冗余计算,执行速度加快。我们的方法可以简化如下:
- 使用 G-ICP 将当前帧与包含协方差的 3D GS 地图对齐(仅需要计算当前帧的协方差)。
- 当向 3D GS 地图添加关键帧时,在跟踪期间利用 GICP 计算的协方差(无需稠密化或不透明度重置)。
- 重复步骤 1-2。