【每日论文阅读】单目深度估计 近期进展

红外场景单目深度估计的难点

  • 缺乏准确的深度参考标准:红外场景下的深度估计通常需要依赖于大量的输入图像和对应的深度值作为训练的约束。然而,获取准确的深度参考标准是一个挑战,目前常用的方法是使用红外传感器(如Kinect)或激光雷达,但它们的精度有限或价格昂贵。
  • 多尺度信息的处理:红外场景中存在着不同尺度的物体,而不同尺度的物体对应的深度信息也不同。因此,在单目深度估计中,如何有效地处理多尺度信息是一个难点。一种常见的方法是使用多尺度网络,将局部和全局信息结合起来进行深度估计
  • 语义信息的利用:在红外场景中,具有相似语义信息的物体通常具有相似的深度信息。因此,如何利用语义信息来提高深度估计的准确性也是一个难点。一种方法是将深度预测视为分类问题,将不同远近的物体视为不同的分类,并通过条件概率建模来估计深度。
  • 单目视频序列中的深度估计:在红外场景中,通过单目视频序列来估计特定目标之间的深度信息也是一个挑战。这涉及到对视频序列中的运动和视差进行建模,以获得更准确的深度估计结果
  • 纹理缺失问题:使用深度学习方法可以学习红外图像中的纹理特征,并将其应用于深度估计算法中。通过训练一个深度学习模型来学习红外图像中的纹理特征,可以提高对纹理缺失区域的深度估计准确性。

近期论文(2023.12以来)

MGDepth:动态场景中自监督单目深度的运动引导成本量

题目:

摘要:尽管自监督单目深度估计取得了进步,但由于依赖于静态世界的假设,动态场景中仍然存在挑战。在本文中,我们提出了 MGDepth,一种运动引导成本体积深度网络,以实现动态物体和静态背景的精确深度估计,同时保持计算效率。为了解决动态内容带来的挑战,我们结合光流和粗单目深度来创建一个新颖的静态参考框架。然后利用该框架与目标框架协作构建运动引导成本量。此外,为了提高网络结构的准确性和弹性,我们引入了基于注意力的深度网络架构,以有效地集成来自不同分辨率的特征图的信息。与计算成本相似的方法相比,MGDepth 在 KITTI-2015 数据集上实现自监督单目深度估计的均方根误差显着降低了约 7%。

【效果好】重新利用基于扩散的图像生成器进行单目深度估计

题目:Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
作者:
摘要:单目深度估计是一项基本的计算机视觉任务。从单个图像中恢复 3D 深度在几何上是不适定的,并且需要场景理解,因此深度学习的兴起带来了突破也就不足为奇了。单目深度估计器令人印象深刻的进步反映了模型容量的增长,从相对适中的 CNN 到大型 Transformer 架构。尽管如此,单目深度估计器在面对内容和布局不熟悉的图像时往往会遇到困难,因为他们对视觉世界的了解受到训练期间看到的数据的限制,并且受到零样本泛化到新领域的挑战。这促使我们探索最近的生成扩散模型中捕获的广泛先验是否可以实现更好、更通用的深度估计。我们介绍了 Marigold,一种仿射不变单目深度估计方法,该方法源自稳定扩散并保留了其丰富的先验知识。仅使用合成训练数据就可以在几天内在单个 GPU 上对估计器进行微调。它在各种数据集上提供最先进的性能,包括在特定情况下提高 20% 以上的性能
连接:https://marigoldmonodepth.github.io/
在这里插入图片描述

相机高度不变:无监督单目尺度感知道路场景深度估计

题目:

摘要:单目深度估计器要么需要通过辅助传感器进行明确的尺度监督,要么会受到尺度模糊的影响,这使得它们难以在下游应用中部署。比例的一个可能来源是场景中发现的对象的大小,但不准确的定位使它们难以利用。在本文中,我们介绍了一种新颖的尺度感知单目深度估计方法,称为 StableCamH,不需要任何辅助传感器或监督。关键思想是利用场景中物体高度的先验知识,但将高度线索聚合成道路视频序列中所有帧共有的单个不变度量,即摄像机高度。通过将单目深度估计公式化为相机高度优化,我们实现了稳健且准确的无监督端到端训练。为了实现 StableCamH,我们设计了一种新颖的基于学习的尺寸先验,可以直接将汽车外观转换为其尺寸。在 KITTI 和 Cityscapes 上进行的大量实验表明了 StableCamH 的有效性、与相关方法相比其最先进的准确性及其普适性。StableCamH 的训练框架可用于任何单目深度估计方法,并有望成为进一步工作的基本构建块。

训练单目深度估计模型中NaN散度分析

题目:训练单目深度估计模型中NaN散度分析
作者:POSTECH
摘要:深度学习的最新进展促进了高精度单目深度估计模型的开发。然而,在训练单目深度估计网络时,从业者和研究人员观察到不是数字(NaN)损失,这会破坏梯度下降优化。尽管一些从业者报告了 NaN 损失的随机且神秘的发生,这困扰了训练,但文献中并未讨论其根本原因。本研究对单目深度估计网络训练过程中的 NaN 损失进行了深入分析,发现了导致 NaN 损失的三类漏洞:1)使用平方根损失,导致梯度不稳定;2) log-sigmoid 函数,存在数值稳定性问题;3) 某些方差实现会产生不正确的计算。此外,对于每个漏洞,都证明了 NaN 丢失的发生,并提出了防止 NaN 丢失的实用指南。实验表明,遵循我们的指南可以提高单目深度估计的优化稳定性和性能。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

题目:用于单目红外图像深度估计的离散卷积 CRF 网络
作者:
摘要:从单目红外图像预测场景的深度在理解三维结构中起着至关重要的作用,是机器学习和计算机视觉中具有挑战性的任务之一。考虑到红外图像中缺乏纹理和颜色信息,提出了一种新颖的离散卷积条件随机场网络用于深度估计。所提出的方法继承了条件随机场和深度学习的几个优点。首先,通过深度架构自动提取和优化成对特征。其次,将基于单目图像的深度回归转换为多类分类,其中损失函数中考虑不同深度级别的顺序信息。我们的实验表明,这种转换实现了更高的精度和更快的转换。第三,为了获得细粒度的级别细节,我们进一步提出了一种多尺度离散卷积条件随机场网络,该网络计算不同空间级别上离散条件随机场的成对特征。对红外图像数据集 NUSTMS 的大量实验表明,所提出的方法优于其他深度估计方法。具体来说,对于所提出的方法,平均相对误差为0.181,平均log10误差为0.072,阈值(t = 1.25 3)的准确度为95.3%。
连接:

MonoProb:具有可解释不确定性的自监督单目深度估计

题目:
作者:
摘要:自监督单目深度估计方法旨在用于关键应用,例如用于环境分析的自动驾驶车辆。为了避免这些方法的潜在缺陷,预测置信度的量化对于指导依赖深度估计的决策系统至关重要。在本文中,我们提出了 MonoProb,一种新的无监督单目深度估计方法,它返回可解释的不确定性,这意味着不确定性反映了网络在深度预测中的预期误差。我们重新思考用于训练无监督单目深度模型的立体或运动结构范例作为概率问题。在单次前向传递推理中,该模型提供深度预测及其置信度测量,而不会增加推理时间。然后,我们通过一种新颖的自蒸馏损失来提高深度和不确定性方面的表现,学生受到伪地面事实的监督,该伪地面事实是教师深度输出的概率分布。为了量化模型的性能,我们设计了新的指标,与传统指标不同,它衡量不确定性预测的绝对性能。我们的实验强调了我们的方法在标准深度和不确定性指标以及我们定制的指标上所取得的增强。
连接:https://github.com/CEA-LIST/MonoProb

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

题目:
作者:
摘要:
连接:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/291397.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

熔断、隔离、重试、降级、超时、限流,高可用架构流量治理核心策略全掌握

可用性的定义 在探讨高可用架构之前,让我们以 O2 系统为例,解释一下何谓可用性。O2 是腾讯内部的一个广告投放系统,专注于提升投放效率、分析广告效果,拥有自动化广告投放、AIGC 自动化素材生产等多种功能。 其整体架构概览如下&…

prometheus grafana redis安装配置监控

文章目录 前传安装redis-exporterredis_exporter参数配置参考配置prometheus查看promethues redis job节点grafana配置外传 前传 prometheus grafana的安装使用:https://nanxiang.blog.csdn.net/article/details/135384541 本文说下监控nginx,promethe…

T40N 君正智能处理器T40 BGA 芯片

T40N是一款智能视频应用处理器,适用于移动摄像机、安防等视频设备调查、视频聊天、视频分析等。该SoC引入了一种创新的体系结构满足高性能计算和高质量图像和视频编码的要求通过视频设备解决。T40N提供高速CPU计算能力,出色的图像信号过程中,…

Linux第5步_测试虚拟机网络连接

安装好VMwareTools后,就可以测试虚拟机网络连接了,目的是实现虚拟机上网。 1、打开“控制面板”,得到下图: 2、双击“网络和 Internet” ,得到下图: 3、双击“网络和共享中心” 4、点击“更改适配器设置”…

云消息队列 Kafka 版生态谈第一期:无代码转储能力介绍

作者:娜米 云消息队列 Kafka 版为什么需要做无代码转储 云消息队列 Kafka 版本身是一个分布式流处理平台,具有高吞吐量、低延迟和可扩展性等特性。它被广泛应用于实时数据处理和流式数据传输的场景。然而,为了将云消息队列 Kafka 版与其他数…

UG/NX许可证使用效率提升新技术

UG/NX许可证使用效率提升新技术 UG(Unigraphics NX)是Siemens PLM Software公司出品的一个产品工程解决方案,它为用户的产品设计及加工过程提供了数字化造型和验证手段。近年来随着国家对知识产品保护的不断加强,以前使用盗版软件…

protobuf使用

Protocol Buffer是google于2008推出的一种数据交换的格式,它独立于语言,独立于平台。 google 提供了多种语言的实现,每一种实现都包含了相应语言的编译器以及库文件。由于它是一种二进制的格式,比使用 xml 和 json 进行数据交换快…

Excel技巧之【如何修改密码】

我们知道,Excel可以设置多种密码来保护文件,那想要修改密码,要如何操作呢?下面小编来分享一下Excel常用的3种密码的修改方法,一起来看看吧! 1. “打开密码” 想要修改Excel表格的“打开密码”&#xff0c…

网络安全|2024年需要重点关注的10种DNS攻击类型

目前,针对域名系统(DNS)的攻击已经成为企业组织数字化发展中的一个严重问题,每年都有数千个网站成为此类攻击的受害者。据最近的研究数据显示,2023年企业组织与DNS攻击相关的损失同比增加了49%,这些损失不仅…

行业模型与场景落地新样本,网易有道发布多款“子曰”教育大模型落地应用与产品

距离2023年7月正式发布教育大模型“子曰”不到半年时间,教育科技公司网易有道近日再次分享了“子曰”教育大模型创新和落地成果,宣布推出国内首个教育大模型“子曰”2.0版本,同时还发布了基于大模型研发的三大创新应用——AI家庭教师“小P老师…

苗情生态自动监测系统-科普知识

随着科技的飞速发展,智能化技术在各个领域的应用越来越广泛。在农业领域,苗情生态自动监测系统的出现,为农业生产带来了革命性的变革。它不仅能够实时监测植物的生长状况,还能对环境因素进行全面监控,为农业生产提供科…

SSL证书多少钱一年

SSL证书的价格跟证书的种类,品牌都有很大关系。有些厂商是可以提供免费的SSL证书的,但是大部分证书仍然是收费项目。 永久免费SSL证书_永久免费https证书_永久免费ssl证书申请-JoySSL 1. 单域名SSL证书: - 功能: 适用于保护单…

Apollo开放平台概览 :自动驾驶的未来趋势

🎬 鸽芷咕:个人主页 🔥 个人专栏:《linux深造日志》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! ⛳️ 粉丝福利活动 ✅参与方式:通过连接报名观看课程,即可免费获取精美周边 ⛳️活动链接&#xf…

APP上线前需要通过哪些测试?如何获取专业的APP测试报告

互联网信息时代,人们最离不开的就是手机,而手机里面吸引我们的也就是APP软件里各式各样好玩的。但一款APP要想在竞争激烈的市场上留存下来,上线前的软件测试就必不可少,那么APP上线前需要通过哪些测试呢?又该如何获取专业的APP测…

RFID数据中心智能资产管理系统

数据中心机房承担着保障企业关键数据处理的重要责任,机房的日常管理直接关系到整体机房的日常维护和运行安全,数据资产管理中心在监管机房各部分设备的运行情况、维护数据中心的资产方面发挥着重要的作用。 成功的数据中心机房管理不仅需要选择高可靠性…

【zk源码分析】

zk作为java分布式系统注册中心和配置中心的典范,一直在思考分析这么一个系统到底从哪里入手呢? zk在使用上是非常的简单,监听节点的变化即可。 一般是从哪里使用,就从哪里开始研究api。 客户端和zk断开时,我看到了一…

Spark内核解析-数据存储5(六)

1、Spark的数据存储 Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系。 1.1存储子系统概览 …

windows11上安装docker并处理相关问题

1、安装docker的最新版本: 最新版本我安装的是docker官方的最新版4.26.1.0,结果出现如下异常: Starting the Docker Engine.. Docker Engine is the underlying technology that runs containers 2、查看docker官方文档及结合网上其他资料…

豆豆人智能AI游戏设计与Java实现

豆豆人智能AI游戏设计与Java实现 引言项目结构概述Plans 类Result 类AI 类 总结 引言 豆豆人是一款经典的游戏,而实现一个智能的豆豆人AI则是一项富有挑战性的任务。在这篇博客中,我们将介绍一个基于Java实现的豆豆人智能AI游戏。本游戏中的AI算法主要基…

Spring实现IoC:依赖注入/构造注入

● 控制反转,反转的是什么? ○ 将对象的创建权利交出去,交给第三方容器负责。 ○ 将对象和对象之间关系的维护权交出去,交给第三方容器负责。 ● 控制反转这种思想如何实现呢? ○ DI(Dependency Injection&…