登山第十六梯:深度恢复——解决机器人近视问题

文章目录

一 摘要

二 资源

三 内容


一 摘要

        深度感知是基于 3D 视觉的机器人技术的一个重要问题。然而,现实世界的主动立体或 ToF 深度相机经常会产生嘈杂且深度不完整,从而成为机器人性能的瓶颈。在这项工作中,提出了 一个基于学习的立体图像对深度估计框架,可以在不同的室内场景中预测干净和准确的深度,即使在经典深度感知完全失败的半透明或镜面表面等最具挑战性的场景中也是如此。该方法的关键是,通过使用去噪扩散概率模型预测视差图,将深度估计和恢复统一为图像到图像的翻译问题。在推理时,进一步纳入了左右一致性约束作为扩散过程的分类器指导。作者的框架结合了最近先进的基于学习的方法和传统立体视觉的几何约束。对于模型训练,创建了一个大型场景级合成数据集,其中包含各种透明和镜面物体,以补偿现有的桌面数据集。经过训练的模型可以直接应用于现实世界场景,并在多个公共深度估计基准测试中实现最先进的性能。在真实环境中的进一步实验表明,准确的深度预测可以显著改善各种场景中的机器人操作。

二 资源

文章:D3RoMa: Disparity Diffusion-based Depth Sensing for Material-Agnostic Robotic Manipulation

代码:https://PKU-EPIC.github.io/D3RoMa

日期:2024

三 内容

1)摘要

        深度感知是基于 3D 视觉的机器人技术的一个重要问题。然而,现实世界的主动立体或 ToF 深度相机经常会产生嘈杂且深度不完整,从而成为机器人性能的瓶颈。在这项工作中,作者提出了 D3RoMa,这是一个基于学习的立体图像对深度估计框架,可以在不同的室内场景中预测干净和准确的深度,即使在经典深度感知完全失败的半透明或镜面表面等最具挑战性的场景中也是如此。该方法的关键是,通过使用去噪扩散概率模型预测视差图,将深度估计和恢复统一为图像到图像的翻译问题。在推理时,进一步纳入了左右一致性约束作为扩散过程的分类器指导。作者的框架结合了最近先进的基于学习的方法和传统立体视觉的几何约束。对于模型训练,创建了一个大型场景级合成数据集,其中包含各种透明和镜面物体,以补偿现有的桌面数据集。经过训练的模型可以直接应用于现实世界场景,并在多个公共深度估计基准测试中实现最先进的性能。在真实环境中的进一步实验表明,准确的深度预测可以显著改善各种场景中的机器人操作。

2)创新点

①一个基于扩散模型的立体深度估计框架,可以预测最先进的深度并恢复透明和镜面表面的噪声深度图;

②通过引导扩散将立体几何约束集成到学习范式中;

③一个新的场景级 STD 合成数据集,模拟真实的深度传感器 IR 模式和照片级真实感渲染;

④通过文章更高质量的深度图和 3D 点云,机器人操作任务得到了显著改进。

3)算法结构

        在本节中,介绍了 D3RoMa,这是一个基于视差扩散的深度感知框架,用于与材料无关的机器人操作。该框架专注于提高视差图在深度估计中的准确性,特别是对于透明和镜面物体,这些物体在机器人操作任务中无处不在但具有挑战性。给定对场景的观察,该框架将深度传感器的原始视差图和左右立体图像对作为输入,输出恢复的视差图,该图将转换为恢复的深度图。

A 预定义

立体视觉和深度估计。一旦知道一对立体相机之间观察到点的视差图 x,就可以使用相机固有参数通过 d = (f · b)/x 计算这些点的深度图 d,其中 f 和 b 分别是相机焦距和立体基线。视差图 x 的估计传统上被建模为密集匹配问题,可以在图像域中求解。因此,立体深度估计可以独立于不同的相机设备进行研究。

去噪扩散概率模型。扩散模型是特殊的潜在变量模型,它反转扩散(正向)过程,该过程通过马尔可夫过程逐渐扩散原始数据 x0。

其中,方差 βt 是根据预定义策略设置的。这种马尔可夫链的一个很好的特性是,它在任何时候都具有解析形式 ,其中和 ε ∼ N (0, I)。去噪(反向)过程也是一个具有学习的高斯过渡核的马尔可夫链:

其中,方差简化为 βtI,平均值被重新参数化,使时间条件降噪网络 sθ(xt, t; θ) 近似添加的噪声ε。提出通过最小化简化下列损失来训练去噪网络:

当网络训练收敛时,噪声分布的梯度也称为评分函数:

简单地说(说人话),扩散过程q就是不断的往图像上加入随机噪声,直到图像变成一个纯噪声,而逆扩散过程p就是从纯噪声图像中生成原始干净图像的去噪过程:

整个过程每个节点仅与上一个节点相关,因此这个过程被称作马尔可夫过程。

        训练过程(个人理解):通过不断往正常深度的视差图样本中添加随机噪声直到得到深度异常的视差图,然后训练从深度异常视差图到正常视差图的逆扩散过程,从而获得深度恢复模型。

推理过程,即逆扩散过程。

B 基于视差扩散的深度估计

        在这项工作中,作者将立体深度估计问题表述为扩散模型中的图像到图像的转换问题。一个重要的设计选择是要调节什么。该模型通常被制定为以立体图像对 Il , Ir 为条件,以进行立体深度估计。作者的实验发现,额外基于原始视差 D ̃ 的条件使网络在训练过程中收敛得更快,并在分布外场景中更稳健地泛化。原始视差可以很容易地从传统的立体匹配算法 SGM 或真实的相机传感器输出中获得。对于像 RealSense 这样的真实主动立体深度传感器,左右图像由红外 (IR) 摄像头捕获,红外投影仪投射具有特殊的阴影图案。结果,在左右图像和原始视差图 D ̃ 上进行调节,训练了一个条件扩散模型来学习视差图的分布:

其中y={Il,Ir,D}。

        实证表明,这种条件去噪网络是成功的。Batzolis等人进一步证明:即使条件y没有出现在训练目标中,也可以通过相同训练目标来学习条件分数。在训练网络后,可以通过列式子来估计视差:

C 通过立体几何反向采样引导

受图像生成任务的分类指导的启发,作者建议用基于模型的几何梯度来指导视差扩散过程。引导式反向过程如上图所示。具体来说,条件评分函数受到立体匹配计算的梯度的干扰:

其中 Lsm 是相似性损失函数,它将左侧图像与扭曲的左侧图像进行比较。扭曲的左侧图像是通过对具有估计视差的右侧图像进行扭曲而获得的。s控制几何引导强度,并平衡从扩散模型中学习的梯度和从立体模型中学习的几何梯度。为了减轻立体匹配中的梯度局部性,作者在计算立体匹配的梯度时将立体图像下采样为多个不同的较低分辨率。更具体地说,有:

其中 k 是不同分辨率的图层索引,γ是平衡光度和平滑度损失的加权常数。Lssim 是结构相似性指数 (SSIM),它计算左侧图像 Il 和翘曲图像Ileft 之间的光度损失:

其中 u、v 是图像平面中的像素坐标,〈 〉 是线性采样操作。Lsmooth 是一种边缘感知平滑度损失,定义为

它通过惩罚非边缘区域中的不连续性来规范差异。这里 ∂u 表示图像平面中 u(水平)方向的偏导数。然后,按照采样过程,使用扰动梯度预测视差图 x0。最后,一旦知道了相机参数,我们就可以将视差转换为深度。

D HISS合成数据集

作者基于栖息地合成场景数据集 (HSSD)创建了合成数据集 HISS。利用 HSSD 的 168 个高质量室内场景来增加场景多样性。对于对象,总共包括来自 DREDS 和 GraspNet 的 350 多个对象模型。场景和随机选择的对象 CAD 模型在 Isaac Sim中渲染。在渲染过程中,对象材质和场景照明在模拟中专门随机化,以模拟现实世界中对象(杯子、玻璃杯、瓶子等)的透明或镜面反射物理属性。为了获得透明表面的正确深度值,采用了 two-pass 方法。首先,渲染对象材质设置为 diffuse 的场景的 RGB 图像和深度图。照明全部打开,以实现照片级真实感渲染。在第二遍中,关闭正常照明,并在场景上投射类似的阴影图案,以模拟实感 D415 红外立体图像。使用 RealSense D415 深度摄像头的内参,渲染了 10,000 多张具有模拟阴影图案的照片级逼真立体图像。实验表明,该数据集是作者方法在现实世界中具有出色的泛化性的关键推动因素。

4)实验

A 机器人领域的深度估计

        DREDS:一个桌面级的深度数据集,包含镜面反射和透明对象的合成和真实标签数据。

        从上表观察到,作者方法的所有变体都超过了所有基线所有指标。此外,消融结果表明,通过提供更多信息,尤其是原始差异的整合,该方法的性能可以稳步提高。

        由于 DREDS 没有为 STD-CatKnown 和 STD-CatNovel 数据分割(真实数据)提供 IR 图像,因此作者训练框架的变体,该变体仅以 RGB 图像和原始差异为条件,以与 SwinDR 进行比较。如上表所示,文章方法在几乎所有指标上仍然可以优于基线。具体来说,与基线相比,文章方法可以在 MAE 上达到近 100% 的改进。文章方法在 RMSE 上性能较差可能与 DREDS 真值深度中的噪声有关,因为 RMSE 对噪声误差非常敏感。作者进一步对 STD-CatKnown 和 STD-CatNovel 数据拆分的基于几何的引导进行消融研究,以验证其在现实世界场景中基于扩散的深度估计的有效性。如商标所示,基于几何引导可以显著提高性能。

        SynTODD:是另一个使用 Blender 合成透明对象的数据集。它包含 87512 个训练图像和 5263 个测试图像。

与 SimNet 和 MvTrans 的所有变体相比,我们的方法具有更好的性能。

        ClearPose:是透明和半透明对象的大规模真实 RGB-D 基准测试。该数据集包含 RealSense L515 深度相机捕获的 350,000 张真实图像。作者收集了一组非常具有挑战性的场景,包括不同的背景、严重的遮挡、半透明和不透明封面中的物体、非平面表面的物体,甚至充满了液体。

        文章方法 D3RoMa 在 6 种不同的测试场景中始终优于 ImplicitDepth 和 TransCG。

        HISS:作者进一步评估了其自己创建的数据集在透明和镜面物体深度估计方面的有效性。并与以前最先进的方法进行比较。文中方法可以预测更好的深度,尤其是在透明瓶子上。为了确保公平的比较,作者在 HISS 上进一步微调了 400,000 个 epoch 的 RAFT-Stereo。与原始模型相比,微调后的 RAFT-Stereo 可以更好地恢复透明物体的缺失深度,但物体形状仍然不准确。还与 ASGrasp进行了比较,ASGrasp是专门为基于深度估计检测和抓取透明物体而设计的。它具有与微调的 RAFT-Stereo 类似的性能,但对象边界模糊。文章方法可以为所有 STD 对象提供最佳深度,具有更清晰的对象边界和准确的形状。

B 在一般情况下与 SOTA 立体声匹配方法的比较

        作者进一步证明了文中方法在一般场景中进行立体匹配的有效性。将其与 SceneFlow上最先进的立体匹配基线进行了比较,SceneFlow是一个合成数据集,包含超过 39,000 个立体帧,分辨率为 960×540 像素。该数据集包含三个具有挑战性的场景,FlyingThings3D、Driving和Monkaa,这使其成为用于预训练的高质量数据集。作者使用 35,454 个立体对从头开始训练模型,其余部分作为测试拆分。还将数据集中的图像大小调整为 480×270,以与作者的机器人感知设置保持一致。根据前面的工作,使用最大差异值 192 对真实视差进行归一化,该值也用于裁剪测试数据。如下表所示,与现有的最先进的方法相比,文章方法获得了最好的结果。

C 机器人抓取

        将模型预测得到的视差图,基于相机内参转化成深度图,再通过深度图转换成点云数据。.从左到右依次是 RGB 图像、原始深度、使用对象 CAD 模型渲染的真实深度、通过 TransCG 、ImplicitDepth 和文章方法 D3RoMa恢复的深度。

        上图为实际场景的深度估计结果。每行(从左到右)显示了文章方法的 RGB 图像和视差结果、预训练的 Raft Stereo、在HSII数据集上微调的 Raft Stereo 和 ASGrasp。

        作者在现实世界中设置了一个桌面抓取、铰接式物体操作和一个移动抓取环境,如下图 所示。在桌面抓取实验中,作者使用了 Franka 7-DoF 机械臂。将 STD 物体放置在有凸起和凹坑的表面上,这对于深度感应和机器人抓取来说都是具有挑战性的设置。这些物体具有非漫射表面材料,例如玻璃、瓷器、玻璃等。

        作者将文中的方法与其他两个基线进行了比较。所有基线都使用相同的运动规划器 CuRobo,但深度感应不同。作者还与 ASGrasp进行了比较,后者主要是为桌面抓取 STD 对象而设计的。我们在下表中分别报告了不同对象 (STD) 的结果和总体成功,提供了三种不同移动操作场景的定量结果。虽然 ASGrasp 和 D3RoMa 都比原始传感器输出有所改进,但我们的方法以很大的幅度优于 ASGrasp。

        上表为在真实环境中使用同一运动规划器移动抓取不同基线的成功率。每个单元在镜面反射、透明和漫射对象上显示成功率。

        上表为不同深度源的桌面抓取成功率 (SR) 比较。S. = 镜面反射,T. = 透明,D. = 漫射。

5)结论

        在这项工作中,作者提出了一种新的几何梯度引导到视差空间中的扩散模型,以预测立体图像的深度。以立体图像对和原始视差图为条件,文章中的网络在现有基准测试中实现了 SOTA 性能。纯合成数据集的差异评估和深度数据集的深度评估都证明了方法的效率。作者的主要观察结果包括数据多样性可以对现实的泛化产生重大影响,而指导有助于更具挑战性的真实场景。当前基于 3D 视觉的机器人操作管道,包括抓取和零件操作,只需通过改进深度感知就可以得到显著改进。特别是,我们发现与传统的立体方法相比,生成模型可以更好地处理具有挑战性的透明对象的深度估计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/941738.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Jenkins】持久化

文章目录 持续集成CI持续部署CD部署部署到linux服务器 持续集成好处: 持续集成CI 持续集成(Continuous integration,简称CI)指的是频繁地(一天多次)将代码集成到主干。 持续集成的目的就是让产品可以快速…

小红书飞书素材库 | AI改写 | 无水印下载 | 多维表格 | 采集同步 | 影刀RPA

小红书飞书素材库 | AI改写 | 无水印下载 | 多维表格 | 采集同步 | 影刀RPA 模板准备 进入【小红书】素材采集库_荷逸模板,点击使用模板 创建文档应用 在开发者后台 - 飞书开放平台创建 企业自建应用 (需要账号有相应的权限, 如果没有权限向管理员申请) 获取 Ap…

layui动态拼接生成下拉框验证必填项失效问题

利用 jQuery 动态拼接下拉框时&#xff0c;lay-verify"required" 失效了&#xff0c;有以下几种原因。 1. <form></form>标签 加入 layui 类&#xff0c;class"layui-form" 。提交按钮上加自动提交&#xff0c;lay-submit ""; 。需…

合合信息:探索视觉内容安全新前沿

2024年12月13日-15日&#xff0c;中国图象图形学学会在杭州召开。大会期间&#xff0c;来自合合信息的图像算法研发总监郭丰俊进行了主题为“视觉内容安全技术的前沿进展与应用”的演讲&#xff0c;介绍了视觉内容安全问题&#xff0c;并总结了现今的技术发展&#xff0c;对我很…

阿里云cdn稳定吗?

阿里云CDN&#xff08;内容分发网络&#xff09;是阿里云提供的一项全球加速服务&#xff0c;它的稳定性通常被认为是非常高的&#xff0c;尤其在国内市场。九河云给大家总结了阿里云CDN的稳定性情况&#xff1a; 1. 全球节点覆盖广泛 阿里云CDN在全球范围内拥有数百个加速节…

本地部署webrtc应用怎么把http协议改成https协议?

环境&#xff1a; WSL2 Ubuntu22.04 webrtc视频聊天应用 问题描述&#xff1a; 本地部署webrtc应用怎么把http协议改成https协议&#xff1f; http协议在安卓手机浏览器上用不了麦克风本&#xff0c;来地应用webrtc 本来是http协议&#xff0c;在安卓手机上浏览器不支持使…

Qt creator ,语言家功能缺失解决方法

1、找到工具->外部->配置 2、添加目录&#xff0c;双击命名语言家 3、在语言家目录下&#xff0c;添加工具 双击重命名lupdate&#xff0c;即更新翻译 %{CurrentDocument:Project:QT_INSTALL_BINS}\lupdate%{CurrentDocument:Project:FilePath}%{CurrentDocument:Projec…

用于UISystem的工具集

简介&#xff1a;上篇文章用于管理Unity中UGUI的工具系统UISystem-CSDN博客讲了UISystem&#xff0c;为了更加方便使用&#xff0c;我给他写了一个编辑器工具&#xff0c;下面展示代码和使用说明&#xff0c;具体详情不难看一下就看懂了。 一、代码部分 using QFramework; us…

onlyoffice连接器 二次开发 合同等制式模板化技术开发方案【三】

一、期望效果 目前曹瑞版本onlyoffice已经实现&#xff1a;书签模式 和 控件模式&#xff0c;用以支持该方案。 【图1】字段绑定 【图2】模板发起 【图3】接入表单 思路讲解&#xff1a; 业务系统开发中通常希望能够通过绑定form字段给word&#xff0c;从而达到双向同步效果&am…

WPF+MVVM案例实战与特效(四十五)- 打造优雅交互:ListBox 的高级定制与行为触发(侧边菜单交互面板)

文章目录 1、引言2、案例效果3、案例实现1、依赖安装2、文件创建3、代码实现1、依赖引用与上下文2、个性化视觉效果:自定义 ItemContainerStyle3、页面样式与布局完整代码4、ViewModel 逻辑实现5、子界面代码:3、实现效果4、源代码获取5、总结1、引言 在WPF应用程序开发中,…

【优选算法】复写零

链接&#xff1a;1089. 复写零 - 力扣&#xff08;LeetCode&#xff09; 算法原理&#xff1a; 解法&#xff1a;双指针算法 根据“异地”操作&#xff0c;然后优化成双指针下的“就地”操作 1.先找到最后一个“复写”的数 1.先判断 cur 位置的值 2.决定 dest 向后移动一步或…

moviepy将图片序列制作成视频并加载字幕 - python 实现

DataBall 助力快速掌握数据集的信息和使用方式&#xff0c;会员享有 百种数据集&#xff0c;持续增加中。 需要更多数据资源和技术解决方案&#xff0c;知识星球&#xff1a; “DataBall - X 数据球(free)” -------------------------------------------------------------…

ubuntu20.04安装imwheel实现鼠标滚轮调速

ubuntu20.04安装imwheel实现鼠标滚轮调速 Ubuntu 系统自带的设置中仅具备调节鼠标速度的功能&#xff0c;而无调节鼠标滚轮速度的功能。其默认的鼠标滚轮速度较为缓慢&#xff0c;在查看文档时影响尚可接受&#xff0c;但在快速浏览网页时&#xff0c;滚轮速度过慢会给用户带来…

ubuntu开机进入initramfs状态

虚拟机卡死成功起后进入了initramfs状态&#xff0c;可能是跟文件系统有问题或者检索不到根文件系统&#xff0c;或者是配置错误&#xff0c;系统磁盘等硬件问题导致 开机后进入如下图的界面&#xff0c; 文中有一条提示 要手动fsck 命令修复 /dev/sda1 命令如下 fsck /de…

STL格式转换为OBJ格式

STL格式与OBJ格式简介 STL格式 STL&#xff08;Stereo Lithography&#xff09;文件是一种用于3D打印和计算机辅助制造&#xff08;CAM&#xff09;的文件格式。它最初由3D Systems公司开发&#xff0c;主要用于立体光刻技术。STL文件通常分为二进制和ASCII两种格式&#xff…

git命令恢复/还原某个文件、删除远程仓库中的文件

有时刚创建的远程仓库&#xff0c;可能无意中把一些没用的文件上传到仓库&#xff0c;本文介绍一下怎么删除这些文件。 一、git命令恢复某个文件 第一步&#xff1a;拉取最新代码 git pull 第二步&#xff1a; 查看git 修改的文件状态 git status 第三步&#xff1a;查看…

Chapter 3-1. Detecting Congestion in Fibre Channel Fabrics

Chapter 3. Detecting Congestion in Fibre Channel Fabrics This chapter covers the following topics: 本章包括以下主题: Congestion detection workflow. Congestion detection metrics. Congestion detection metrics and commands on Cisco MDS switches. Automatic A…

音视频入门基础:MPEG2-TS专题(20)——ES流简介

《T-REC-H.222.0-202106-S!!PDF-E.pdf》第27页对ES进行了定义。ES流是PES packets&#xff08;PES包&#xff09;中编码的视频、编码的音频或其他编码的比特流。一个ES流&#xff08;elementary stream&#xff09;在具有且只有一个stream_id的PES packets序列中携带&#xff1…

python+opencv+棋盘格实现相机标定及相对位姿估计

pythonopencv棋盘格实现相机标定及相对位姿估计 引言1&#xff0c;使用相机采集含棋盘格图像14张2&#xff0c;进行相机标定&#xff08;1&#xff09;测试软件1标定结果&#xff08;内参及畸变系数&#xff09;&#xff08;2&#xff09;测试软件2标定结果&#xff08;内参及畸…

【笔记】学校教的SSH:远程连接到另一个电脑 并对其进行操作

前言&#xff1a;我开了两台虚拟机做这个实验 一台是主机A ubuntu 一台是主机B centos7 &#xff08;一&#xff09;这里是在ubuntu进行的操作 1.安装ssh sudo apt install ssh 2.确认ssh激活了 systemctl status ssh 然后如图 这里是在主机B操作 就是如此简单 远程连接…