【论文简述】Learning Depth Estimation for Transparent and Mirror Surfaces(ICCV 2023)

一、论文简述

1. 第一作者:Alex Costanzino

2. 发表年份:2023

3. 发表期刊:ICCV

4. 关键词:深度感知、立体匹配、深度学习、分割、透明物体、镜子

5. 探索动机:透明或镜面(ToM)制成的材料,从建筑物的玻璃窗到汽车和电器的反射表面。对于利用计算机视觉在未知环境中操作的自主代理来说,这可能是一个艰巨的挑战。在空间人工智能涉及的众多任务中,对于计算机视觉算法和深度网络来说,准确估计这些表面上的深度信息仍然是一个具有挑战性的问题。基于深度学习的深度传感技术,例如单目或立体网络,在提供足够的训练数据的情况下,有可能解决这一挑战。但具有透明对象的数据集很少提供真实深度注释,这些注释是通过非常密集的人为干预、图形引擎或基于ToM对象的CAD模型的可用性获得的。

  1. This difficulty arises because ToM surfaces introduce misleading visual information about scene geometry, which makes depth estimation challenging not only for computer vision systems but even for humans – e.g., we might not distinguish the presence of a glass door in front of us due to its transparency.
  2. On the one hand, the definition of depth itself might appear ambiguous in such cases: is depth the distance to the scene behind the glass door or to the door itself?
  3. On the other hand, as humans can deal with this through experience, depth sensing techniques based on deep learning, e.g., monocular or stereo networks, hold the potential to address this challenge given sufficient training data.
  4. As evidence of this, very few datasets featuring transparent objects provide ground-truth depth annotations, which have been obtained through very intensive human intervention, graphical engines, or based on the availability of CAD models for ToM objects.

6. 工作目标:准确感知ToM对象的存在(和深度)对传感技术和深度学习框架来说都是一个公开的挑战。

7. 核心思想:本文提出了一种简单而有效的获取训练数据的策略,从而极大地提高了处理ToM曲面的基于学习的深度估计框架的准确性。

  1. We propose a simple yet very effective strategy to deal with ToM objects. We trick a monocular depth estimation network by replacing ToM objects with virtually textured ones, inducing it to hallucinate their depths.
  2. We introduce a processing pipeline for fine-tuning a monocular depth estimation network to deal with ToM objects. Our pipeline exploits the network itself to generate virtual depth annotations and requires only segmentation masks delineating ToM objects – either human-made or predicted by other networks – thus getting rid of the need for any depth annotations.
  3. We show how our strategy can be extended to other depth estimation settings, such as stereo matching.

8. 实验结果:

Our experiments on the Booster dataset prove how monocular and stereo networks dramatically improve their prediction on ToM objects after being fine-tuned according to our methodology.

9.论文及代码下载:

https://openaccess.thecvf.com/content/ICCV2023/papers/Costanzino_Learning_Depth_Estimation_for_Transparent_and_Mirror_Surfaces_ICCV_2023_paper.pdf

https://openaccess.thecvf.com/content/ICCV2023/papers/Costanzino_Learning_Depth_Estimation_for_Transparent_and_Mirror_Surfaces_ICCV_2023_paper.pdf

二、实现过程

1. 实现思路

通过将ToM对象替换为形状相似的有纹理的人工制品,单目模型可能会被欺骗和诱导,以估计不透明物体的深度,理想情况下放置在场景中的同一位置。该方法可以通过描绘ToM对象,通过手动注释或分割网络,将其从图像中屏蔽,然后在被屏蔽区域内绘制虚拟纹理来实现。一方面,既然检测合适的ToM对象对我们的方法至关重要,手动标记无疑会产生最准确的选择,尽管它需要大量的注释成本。另一方面,依赖于分割网络将减轻这种成本:人们需要一些初始的人工注释来进行训练,但这将允许免费分割大量图像。不幸的是,我们的方法的整体有效性将不可避免地受到训练分割模型的准确性的影响。然而,我们认为,与深度标注相比,用分割掩码标注图像需要的工作量肯定要小得多。因此,我们决定探索上述两种方法。

读者可能会认为,根据我们的直觉,训练深度网络来处理ToM对象可能是不必要的——实际上,在估计深度之前,在部署时分割和绘制这些对象就足够了。然而,我们反驳说,这种方法将严重依赖于训练来分割ToM对象的模型的实际准确性,这并不适用于泛化。此外,它还会增加不可忽略的计算成本——即第二个网络的推理。相反,离线培训或微调过程允许利用人工注释——如果可用的话
-并且,潜在地,使训练的网络能够学习如何正确地估计ToM表面上的深度,并摆脱第二个网络,以及为其他深度估计框架设计高级策略,例如深度立体网络。我们的实验将突出前一种策略的效果是无效的,而我们通过使用我们的方法微调深度模型实现了精度的大幅提高。

在其余部分中,我们将描述处理ToM对象的方法。给定图像数据集I,在下图中描述了管道构建:I)表面标记,ii)修复(图像)和蒸馏,以及iii)虚拟标签上深度网络的微调。此外,我们还展示了如何修改它来微调深度立体匹配网络。

表面标记。对于任意图像Ik∈I,我们产生一个分割掩码Mk,将每个像素p分类为

通过将像素分别标记为1或0来判断它们是否属于ToM表面。这种分割掩码既可以通过人工标注获得,也可以通过分割网络Θ获得,如Mk = Θ(Ik)。

修复(图像)和蒸馏。给定一个图像Ik和它对应的分割掩码Mk,生成了一个增强图像I ~ k,应用修复操作将属于ToM对象的像素替换为颜色c:

然后,将I~k输入到单目深度网络Ψ,得到图像Ik的虚拟深度D~k。每一帧Ik的颜色都是随机采样的
。然而,根据图像内容的不同,某些颜色可能会产生无效效果,并增加场景的模糊性——例如,将白色像素嵌入位于白墙前面的透明物体中。为了防止这种情况的发生,对一组N个自定义颜色ci, i∈[0,N−1]进行采样,使用这些自定义颜色修复Ik,以便生成一组N个增强图像i~ki。然后,通过计算N个深度图之间的每像素中位数来获得最终的虚拟深度D~k

如图所示,在某些情况下,绘制的颜色可能与背景相似——例如,当使用单个灰色蒙版时,透明对象会消失——而通过聚合多色绘制,它是可见的。 

虚拟标签的微调。到目前为止概述的步骤允许使用虚拟深度标签标记数据集I,这些标签不受ToM对象的模糊性的影响。然后,我们新标注的数据集可以用于训练或微调深度估计网络,从而使其能够鲁棒地处理上述困难的对象。具体来说,在训练过程中,原始图像Ik被输入到网络,并且预测深度D~k相对于从修复图像中获得的虚拟真实图D∗k进行优化。当处理ToM对象时,这个简单的管道可以显著提高单目深度估计网络的准确性。

扩展到深度立体匹配。管道可以适应微调深度立体模型,如图所示。

再一次,我们认为最先进的立体结构在处理ToM对象时已经展现了出色的泛化能力,因为匹配属于非朗伯曲面的像素的任务本质上是模糊的。因此,用单目深度估计网络来获得仅针对这些对象的虚拟深度注释。给定一个由立体对(Lk, Rk)组成的数据集S,从Lk中提取虚拟深度标签D∗k,并根据立体匹配的外参将它们三角化成视差D∗k。然后,通过将(Lk, Rk)输入到要微调的立体网络来预测基本视差图dk。最后,根据Mk将ToM对象的视差值替换为dk的视差值,Mk这次是在Lk上产生的。这个操作,即合并,定义为:

αk,βk为尺度因子和移位因子,作为单目预测是一个未知的尺度因子。αk, βk通过在dk上对不属于任何ToM对象的像素进行最小二乘估计估计(LSE)回归,也就是说,在Mk(p)=0: 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/259007.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ入门指南(三):Java入门示例

专栏导航 RabbitMQ入门指南 从零开始了解大数据 目录 专栏导航 前言 一、AMQP协议 1.AMQP 2.Spring AMQP 二、使用Spring AMQP实现对RabbitMQ的消息收发 1.案例准备阶段 2.入门案例(无交换机) 3.任务模型案例(Work Queues&#xff0…

文献速递:生成对抗网络医学影像中的应用——用于生成前列腺MR-only影像治疗剂量规划的合成CT的深度学习模型:多中心研究

文献速递:生成对抗网络医学影像中的应用——用于生成前列腺MR-only影像治疗剂量规划的合成CT的深度学习模型:多中心研究 本周给大家分享文献的主题是生成对抗网络(Generative adversarial networks, GANs)在医学影像中的应用。文…

Chatgpt如何多人使用?如何防止封号?

时下火爆年轻人的AI技术当属于Chatgpt,但他是一把双刃剑,使用它给我们带来便利的同时,也可能会带来隐患,因此我们需要科学使用AI技术。 本文将针对备受关注的Chatgpt如何多人共享使用?如何防止封号,为你带…

python堆-完全二叉树--完全解读

作者:20岁爱吃必胜客(坤制作人),近十年开发经验, 跨域学习者,目前于海外某世界知名高校就读计算机相关专业。荣誉:阿里云博客专家认证、腾讯开发者社区优质创作者,在CTF省赛校赛多次取得好成绩。…

PHP 读取excel输入为HTML

目录 介绍 安装扩展 读取excel文件 输入为html 保存到文件 总结 介绍 以前都是使用phpexcel,不过已经不再更新了, 不过不用担心还可以使用phpspreadsheet来替代它进行操作。 PHPSpreadsheet-在PHP中读取、创建和编写电子表格文档-电子表格引擎。…

SpringBoot代码混淆与反混淆加密工具详解

目录 反编译 混淆 正文 一共就两步,无需源码,直接对ipa文件进行混淆加密 打开要处理的IPA文件 设置签名使用的证书和描述文件 开始ios ipa重签名 简单就是把代码跑一哈,然后我们的代码 .java文件 就被编译成了 .class 文件 反编译 就是…

高精度地图定位模块技术规范

目 录 1 概述................................................................................................... 5 1.1 适用范围...................................................................................... 5 1.2 规范性引用文件....................…

Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模态思维链推理

Abstract 大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理,在复杂推理方面表现出了令人印象深刻的性能。然而,现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT,它将语言(文本…

MyBatis-Plus(一):根据指定字段更新或插入

根据指定字段更新或插入 1、概述2、实现方式2、总结 1、概述 MyBatis-Plus中提供了一个saveOrUpdate()方法,默认情况下可以根据主键是否存在进行更新或插入操作,但是实际场景中,根据指定字段进行更新或插入的情况也非常多见,今天…

MySQL——表的增删查改

目录 一.Create(创建) 1.单行数据 全列插入 2.多行数据 指定列插入 3.插入否则更新 4. 替换 二.Retrieve(读取) 1. select 列 查询 2.where 条件 3.结果排序 4.筛选分页结果 三.Update (修改)…

DDR4 设计概述以及分析仿真案例(硬件学习)

引言:随着计算机,服务器的性能需求越来越高,DDR4开始应用在一些高端设计中,然而目前关于DDR4的资料非常少,尤其是针对SI(信号完整性)部分以及相关中文资料,另外一方面,DDR4的高速率非常容易引起…

【论文笔记】MCANet: Medical Image Segmentation withMulti-Scale Cross-Axis Attention

医疗图像分割任务中,捕获多尺度信息、构建长期依赖对分割结果有非常大的影响。该论文提出了 Multi-scale Cross-axis Attention(MCA)模块,融合了多尺度特征,并使用Attention提取全局上下文信息。 论文地址&#xff1a…

融云观察:给 ChatGPT 加上声音和脸庞,AI 社交的多模态试验

(👆点击获取行业首款《社交泛娱乐出海作战地图》) 如果将短剧的爆火简单粗暴地归因为剧情上头、狗血反转和精妙卡点,那 GenAI 世界这一年来可以说是一部短剧 Live Show。关注【融云全球互联网通信云】了解更多 这厢 Open AI 宫斗…

别再唱衰Python了,未来十年Python的“霸榜”地位依旧!

直接说结论!不管唱反调的人怎么唱衰,Python 在下一个十年仍然十分重要,并且依旧会与时俱进。 我们都知道 Python 是一门了不起的编程语言,它改变了编程的游戏规则,将编程的格局提升到了一个完全不同的层次。 Python 的…

【C++初阶】学习string类的模拟实现

目录 前言:一、创建文件和类二、实现string类2.1 私有成员和构造函数2.2 析构函数2.3 拷贝构造函数2.3.1 写法12.3.2 写法2 2.4 赋值重载函数2.4.1 写法12.4.2 写法2 2.5 迭代器遍历访问2.6 下标遍历访问2.7 reserve2.8 resize2.9 判空和清理2.10 尾插2.10.1 尾插字…

HTML CSS 进度条

1 原生HTML标签 <meter>&#xff1a;显示已知范围的标量值或者分数值<progress>&#xff1a;显示一项任务的完成进度&#xff0c;通常情况下&#xff0c;该元素都显示为一个进度条 1.1 <meter> <html><head><style>meter{width:200px;}…

新能源车企年底冲刺KPI,只能抓住“价格战”做文章?

新能源汽车行业的价格战似乎看不到尽头。 自特斯拉吹响号角后&#xff0c;今年以来&#xff0c;业内已然开启了几轮颇具规模的价格战。 如今进入年底&#xff0c;价格战不仅没有消停&#xff0c;还愈打愈烈。据不完全统计&#xff0c;12月&#xff0c;已有20多家车企先后开启…

Nginx快速入门:访问日志access.log参数详解 |访问日志记录自定义请求头(三)

0. 引言 在企业的生产环境中&#xff0c;我们时常需要通过nginx的访问日志来统计流量、排查调用问题等&#xff0c;而nginx默认的日志格式所包含的信息远无法满足我们使用&#xff0c;因此常常需要对日志进行自定义&#xff0c;所以今天我们就来看如何自定义nginx的访问日志格…

anaconda 安装 使用 pytorch onnx onnxruntime

一&#xff1a;安装 如果不是 x86_64&#xff0c;需要去镜像看对应的版本 安装 Anaconda 输入命令 bash Anaconda3-2021.11-Linux-x86_64.sh 然后输入 yes 表示同意 确认安装的路径&#xff0c;一般直接回车安装在默认的 /home/你的名字/anaconda3 很快就安装完毕。输入 yes…

星融元中标华夏银行项目,助力金融数据中心可视网建设工作

近日&#xff0c;星融元成功入围华夏银行国产品牌网络流量汇聚分流器&#xff08;TAP&#xff09;设备供应商&#xff0c;在助力头部金融机构构建数据中心可视网络的建设工作中&#xff0c;星融元又一次获得全国性股份制银行客户的青睐。 华夏银行作为全国性股份制商业银行积极…