【每日论文阅读】单目深度估计近期进展

红外场景单目深度估计的难点

缺乏准确的深度参考标准：红外场景下的深度估计通常需要依赖于大量的输入图像和对应的深度值作为训练的约束。然而，获取准确的深度参考标准是一个挑战，目前常用的方法是使用红外传感器（如Kinect）或激光雷达，但它们的精度有限或价格昂贵。
多尺度信息的处理：红外场景中存在着不同尺度的物体，而不同尺度的物体对应的深度信息也不同。因此，在单目深度估计中，如何有效地处理多尺度信息是一个难点。一种常见的方法是使用多尺度网络，将局部和全局信息结合起来进行深度估计
语义信息的利用：在红外场景中，具有相似语义信息的物体通常具有相似的深度信息。因此，如何利用语义信息来提高深度估计的准确性也是一个难点。一种方法是将深度预测视为分类问题，将不同远近的物体视为不同的分类，并通过条件概率建模来估计深度。
单目视频序列中的深度估计：在红外场景中，通过单目视频序列来估计特定目标之间的深度信息也是一个挑战。这涉及到对视频序列中的运动和视差进行建模，以获得更准确的深度估计结果
纹理缺失问题：使用深度学习方法可以学习红外图像中的纹理特征，并将其应用于深度估计算法中。通过训练一个深度学习模型来学习红外图像中的纹理特征，可以提高对纹理缺失区域的深度估计准确性。

近期论文（2023.12以来）

MGDepth：动态场景中自监督单目深度的运动引导成本量

题目：

摘要：尽管自监督单目深度估计取得了进步，但由于依赖于静态世界的假设，动态场景中仍然存在挑战。在本文中，我们提出了 MGDepth，一种运动引导成本体积深度网络，以实现动态物体和静态背景的精确深度估计，同时保持计算效率。为了解决动态内容带来的挑战，我们结合光流和粗单目深度来创建一个新颖的静态参考框架。然后利用该框架与目标框架协作构建运动引导成本量。此外，为了提高网络结构的准确性和弹性，我们引入了基于注意力的深度网络架构，以有效地集成来自不同分辨率的特征图的信息。与计算成本相似的方法相比，MGDepth 在 KITTI-2015 数据集上实现自监督单目深度估计的均方根误差显着降低了约 7%。

【效果好】重新利用基于扩散的图像生成器进行单目深度估计

题目：Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation
作者：
摘要：单目深度估计是一项基本的计算机视觉任务。从单个图像中恢复 3D 深度在几何上是不适定的，并且需要场景理解，因此深度学习的兴起带来了突破也就不足为奇了。单目深度估计器令人印象深刻的进步反映了模型容量的增长，从相对适中的 CNN 到大型 Transformer 架构。尽管如此，单目深度估计器在面对内容和布局不熟悉的图像时往往会遇到困难，因为他们对视觉世界的了解受到训练期间看到的数据的限制，并且受到零样本泛化到新领域的挑战。这促使我们探索最近的生成扩散模型中捕获的广泛先验是否可以实现更好、更通用的深度估计。我们介绍了 Marigold，一种仿射不变单目深度估计方法，该方法源自稳定扩散并保留了其丰富的先验知识。仅使用合成训练数据就可以在几天内在单个 GPU 上对估计器进行微调。它在各种数据集上提供最先进的性能，包括在特定情况下提高 20% 以上的性能
连接：https://marigoldmonodepth.github.io/
在这里插入图片描述

相机高度不变：无监督单目尺度感知道路场景深度估计

题目：

摘要：单目深度估计器要么需要通过辅助传感器进行明确的尺度监督，要么会受到尺度模糊的影响，这使得它们难以在下游应用中部署。比例的一个可能来源是场景中发现的对象的大小，但不准确的定位使它们难以利用。在本文中，我们介绍了一种新颖的尺度感知单目深度估计方法，称为 StableCamH，不需要任何辅助传感器或监督。关键思想是利用场景中物体高度的先验知识，但将高度线索聚合成道路视频序列中所有帧共有的单个不变度量，即摄像机高度。通过将单目深度估计公式化为相机高度优化，我们实现了稳健且准确的无监督端到端训练。为了实现 StableCamH，我们设计了一种新颖的基于学习的尺寸先验，可以直接将汽车外观转换为其尺寸。在 KITTI 和 Cityscapes 上进行的大量实验表明了 StableCamH 的有效性、与相关方法相比其最先进的准确性及其普适性。StableCamH 的训练框架可用于任何单目深度估计方法，并有望成为进一步工作的基本构建块。

训练单目深度估计模型中NaN散度分析

题目：训练单目深度估计模型中NaN散度分析
作者：POSTECH
摘要：深度学习的最新进展促进了高精度单目深度估计模型的开发。然而，在训练单目深度估计网络时，从业者和研究人员观察到不是数字（NaN）损失，这会破坏梯度下降优化。尽管一些从业者报告了 NaN 损失的随机且神秘的发生，这困扰了训练，但文献中并未讨论其根本原因。本研究对单目深度估计网络训练过程中的 NaN 损失进行了深入分析，发现了导致 NaN 损失的三类漏洞：1）使用平方根损失，导致梯度不稳定；2) log-sigmoid 函数，存在数值稳定性问题；3) 某些方差实现会产生不正确的计算。此外，对于每个漏洞，都证明了 NaN 丢失的发生，并提出了防止 NaN 丢失的实用指南。实验表明，遵循我们的指南可以提高单目深度估计的优化稳定性和性能。

在这里插入图片描述

题目：用于单目红外图像深度估计的离散卷积 CRF 网络
作者：
摘要：从单目红外图像预测场景的深度在理解三维结构中起着至关重要的作用，是机器学习和计算机视觉中具有挑战性的任务之一。考虑到红外图像中缺乏纹理和颜色信息，提出了一种新颖的离散卷积条件随机场网络用于深度估计。所提出的方法继承了条件随机场和深度学习的几个优点。首先，通过深度架构自动提取和优化成对特征。其次，将基于单目图像的深度回归转换为多类分类，其中损失函数中考虑不同深度级别的顺序信息。我们的实验表明，这种转换实现了更高的精度和更快的转换。第三，为了获得细粒度的级别细节，我们进一步提出了一种多尺度离散卷积条件随机场网络，该网络计算不同空间级别上离散条件随机场的成对特征。对红外图像数据集 NUSTMS 的大量实验表明，所提出的方法优于其他深度估计方法。具体来说，对于所提出的方法，平均相对误差为0.181，平均log10误差为0.072，阈值（t = 1.25 3）的准确度为95.3%。
连接：

MonoProb：具有可解释不确定性的自监督单目深度估计

题目：
作者：
摘要：自监督单目深度估计方法旨在用于关键应用，例如用于环境分析的自动驾驶车辆。为了避免这些方法的潜在缺陷，预测置信度的量化对于指导依赖深度估计的决策系统至关重要。在本文中，我们提出了 MonoProb，一种新的无监督单目深度估计方法，它返回可解释的不确定性，这意味着不确定性反映了网络在深度预测中的预期误差。我们重新思考用于训练无监督单目深度模型的立体或运动结构范例作为概率问题。在单次前向传递推理中，该模型提供深度预测及其置信度测量，而不会增加推理时间。然后，我们通过一种新颖的自蒸馏损失来提高深度和不确定性方面的表现，学生受到伪地面事实的监督，该伪地面事实是教师深度输出的概率分布。为了量化模型的性能，我们设计了新的指标，与传统指标不同，它衡量不确定性预测的绝对性能。我们的实验强调了我们的方法在标准深度和不确定性指标以及我们定制的指标上所取得的增强。
连接：https://github.com/CEA-LIST/MonoProb

题目：
作者：
摘要：
连接：