论文题目:
Monocular Simultaneous Localization and Mapping using Ground Textures
论文作者:
Kyle M. Hart, Brendan Englot, Ryan P. O’Shea, John D. Kelly, David Martinez
导读: 本文是发布在ICRA 2023的论文,是首个基于地面纹理的单目SLAM系统。本文介绍了一种无需事先构建地图即可实时在线SLAM的解决方案。通过使用朝下的单目相机捕获地面纹理图像,即使在环境特征稀疏或光照条件复杂的情况下也能提供可靠的定位信息。©️【深蓝AI】编译
1. 介绍
即使在缺乏显著特征和光照条件复杂的情况下,某些地面纹理也能提供可靠的定位信息。现有的基于地面纹理的定位方法虽然有效,但它们通常需要预先构建好的地图作为参照。为了减少对预构建地图的依赖,研究者提出了一种全新的在线地面纹理SLAM系统,该系统能够在没有事先已知地图的情况下实现SLAM,从而缩短初始设置时间,并增强了系统在变化环境中的鲁棒性。
该研究的主要贡献在于:
●开发了首个仅使用单目相机实现在线地面纹理SLAM(同时定位与建图)系统的解决方案。
●在地面纹理领域提出了一个独特的算法,利用已知的地面纹理图像深度信息,在估计重叠图像之间的变换以及识别循环闭合区域时提高准确性。
●在最近的数据集上进行了实验验证,结果显示该系统在某些地面纹理场景下可以达到厘米级别的定位精度。
2. 相关工作
目前的单目相机SLAM系统,有的结合了其他传感器如惯性测量单元或激光雷达的数据来增强定位与建图性能,而另一些则仅依赖于单目视觉信息。在图像比较方面,有直接法和间接法之分:直接法通过像素强度直接对比图像,间接法则利用关键点(如ORB、SIFT等算法检测出的图像显著点)进行匹配。地图存储上也有区别,包括密集型地图(保存全部图像信息)和稀疏型地图(仅存储关键点及其描述符)。本文提出的地面纹理SLAM系统属于间接-稀疏类别。
针对地面纹理定位的方法,尽管所有特征处于同一深度,从而消除了深度估计问题,但现有技术通常局限于已知环境地图下的定位。这类方法通常采集多幅覆盖整个操作区域的地面图像,并在运行时搜索预先构建的地图以找到最相似的匹配图像。大多数此类方法同样采用关键点和描述符进行图像处理,例如“Micro GPS”系统采用投票策略结合RANSAC估计图像间变换。
3. 提出的方法
图1 | 系统结构图。主要由两个子结构构成:局部里程计(蓝色框)用于和上一帧图像进行对比,回环检测(黄色框)用来和之前所有相似照片的对比。输入数据(红色框),通用处理步骤(绿色),迭代间存储的信息(灰色)©️【深蓝AI】编译
3.1 图像处理流程
接收到图像后,首先使用ORB算法提取关键点和描述子,然后将这些基于像素的关键点转换为地面坐标系下的实际空间点在本系统中,由于已知相机与地面之间的距离d(由外参标定矩阵确定),因此能够明确地将这些关键点投影到真实世界中。使用以下公式即可将像素点投影到米制单位:
随后,将这些三维向量通过同质变换进一步转换到机器人参考系下,即进行坐标系转换:
考虑到所有点都在同一地平面上,Z分量可以忽略,因此最终得到的是二维点集。在完成了关键点的投影及坐标转换后,系统会丢弃原始基于像素的关键点信息,仅保留投影后的关键点及其相应的描述符,用于后续SLAM流程中的局部里程计估计以及回环检测等环节。
3.2 局部里程计
Keypoint Matching:针对当前图像中的每一个关键点,使用FLANN方法寻找与前一帧图像中最相似的关键点对。相似性判断基于关键点描述符之间的距离得分,采用比值测试来决定是否为有效匹配。如果当前关键点与其在前一帧图像中找到的最近邻和次近邻之间的距离得分之比低于一个阈值(如0.7),则认为这两个关键点是一对匹配成功的对应点。
Transform Estimation:根据匹配好的关键点对,在地面上进行投影,并通过M-Estimator方法在因子图中构建一个因子,用以估计两个相邻位姿之间的变换矩阵。在这个过程中,系统利用GTSAM库中的表达式图形特征优化技术,估计出X、Y平移以及yaw旋转角度这三个参数。
3.3 回环检测
视觉词袋得分: 通过构建一个基于之前观测到的地面纹理图像描述符数据库,系统可以查询当前图像的描述符,并计算与历史记录中的匹配度。只有当得分超过预先设定的阈值时,该区域才会被认为是潜在的回环。
关键点匹配数量: 系统进一步检查潜在回环区域内的关键点是否能成功匹配。若匹配的关键点数量不足预设阈值,则会丢弃这一候选回环。
协方差参数: 对满足前两个条件的候选回环,系统会估计出它们之间的变换矩阵以及相关的协方差矩阵。根据协方差的最大特征值计算得出一个衡量不确定性大小的分数,只有当这个分数低于设定的阈值时,才认为这是一个有效且可靠的回环闭合事件。
4. 实验和结果
为了验证所提出的基于单目相机的地面纹理SLAM方法的有效性,研究者使用了HD Ground Texture数据集进行实验。这个数据集包含了多个不同的环境场景,并且在每个环境中都有多条由朝下视角摄像机捕捉到的路径图像序列。图3展示了该数据集中一些代表性的样本图像。
图2 | 展示的是来自HD Ground Texture数据集中的部分样本纹理,该数据集遵循CC BY-SA 4.0协议授权使用[25]。数据集中包含了多种不同地面纹理的环境场景。在每个特定纹理环境中,都记录了多个连续观察序列。每一个观察序列由一张无失真的图像及其对应的拍摄时刻的真实世界位置信息组成。©️【深蓝AI】编译
为了更准确地评估系统的性能和建立基准,研究者还利用了先进的Micro GPS定位系统对相同的图像序列进行位姿估计。Micro GPS是一种基于已知地图信息来估计机器人位置的先进定位技术,在测试过程中为各种纹理环境均使用了其默认参数设置。
图3|展示了在不同路径和纹理条件下,系统所计算的平移平均绝对误差。©️【深蓝AI】编译
虽然Micro GPS定位系统通常在精度上优于本文的SLAM系统,但需要注意的是,它是一种依赖于预先构建地图的定位方法。这意味着,在没有预先获取地图的情况下,Micro GPS无法独立完成同时定位与建图的任务,而本文的单目地面纹理SLAM系统则能够在无需预先地图的前提下进行实时定位并创建环境地图。
另外,图5呈现了一种特定纹理环境下一条完整路径上的结果,该图可以直观地看出回环闭合作用对于纠正累积漂移的有效性。
图4|展示了针对浴室瓷砖(Bathroom Tiles)测试路径1纹理和序列的示例结果。其中,红色虚线代表了前述所述SLAM系统在该场景下的表现,即包含了回环闭合校正功能的完整解决方案。而蓝色点状线则表示了经过修改、不执行任何回环闭合校正操作的系统版本的结果。©️【深蓝AI】编译
图5|展示了图像对之间的三个阈值得分与这些图像之间真实世界距离的关系。©️【深蓝AI】编译
只有实际距离较短的图像对才能重叠并形成有效的回环闭合,如图所示。对于(a)和(b)两个指标,分数越高表示匹配度越好;而对于©这个指标,则是分数越低表明匹配得越好。
表1|对比了本文的地面纹理SLAM系统与Micro GPS定位系统[18]在不同序列中,按总路径长度标准化后的平移平均绝对误差(MAE)以及旋转平均绝对误差。©️【深蓝AI】编译
图6|显示了一条代表性轨迹上的回环闭合事件,以红色线条表示。这些回环闭合是在机器人运动过程中通过系统识别出的,在图像中以蓝色线条展示机器人的各个位姿。©️【深蓝AI】编译
图7|展示了一系列有效回环闭合图像对之间的不同估计变换。为了清晰说明,每种纹理选取了一条路径上的图像对进行展示。在图中还画出了一个y=x直线作为理想结果的参考线©️【深蓝AI】编译
图8|展示了本文所提出的完整SLAM系统以及Micro GPS定位系统的处理速度对比,针对多种不同序列进行了绘制。 ©️【深蓝AI】编译
5. 结论
本文介绍了一种创新的地面纹理SLAM系统,该系统仅利用一台校准过的朝下视角单目相机就能实现有效运作。这是首个在无需预先构建地图的情况下,在地面纹理领域提供完整在线SLAM功能的系统。当系统接收到新的图像时,会检测图像中的关键点,并利用已知的相机位置信息将这些关键点投影到地面上。随后,系统采用鲁棒性M-estimator方法来估计机器人在两帧图像之间经历的地面二维变换。为了提高整体定位精度,回环闭合环节采用了三个阈值来识别和确认重新访问过的区域。实验结果表明,该系统在多种不同地面纹理上表现出可靠性能。在适用于该系统的地面纹理环境下,本系统为快速搭建机器人导航提供了途径,无需事先提供先验地图。
编译|蒙牛二锅头
审核|Los
移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。