DepthFormer论文详解

摘要

在这里插入图片描述

本文旨在解决有监督单目深度估计的问题，我们从一项细致的试点研究开始，以证明远程相关性对于准确的深度估计至关重要。我们建议使用Transformer以有效地注意力机制对这种全局上下文进行建模。我们还采用一个额外的卷积分支来保留局部信息，因为Transformer在对局部信息进行建模时缺乏空间归纳偏差。然而，独立的分支导致特征之间的连接不足。为了弥补这一差距，我们设计了一个分层聚合和异构交互模块，通过元素交互来增强Transformer的特征，并以集合到集合的传递方式对Transformer和CNN特征之间的亲和力进行建模。
由于全局关注在高分辨率特征图上引起的不可承受的内存成本，我们引入了可变形注意力机制来降低复杂度。在KITTI，NYU的数据集上的大量实验表明，DepthFormer大大超过了最先进的单目深度估计方法。

介绍

单目深度估计在三维重建和感知中起着至关重要的作用，由于ResNet的开创性工作，CNN主导了深度估计的主要主力，设计了基于编码器-解码器的架构。尽管已经有大量的工作专注于解码器设计，但最近的研究表明编码器对于准确的深度估计更加关键。由于缺乏深度线索，充分利用长程相关性（即物体之间的距离关系）和局部信息（即同一物体的一致性）是有效编码器的关键能力。因此，当前深度估计方法的潜在瓶颈可能位于编码器中，因为卷积算子几乎无法在有限的感受野下对长程相关性进行建模。
在CNN方面，已经付出了巨大的努力来克服上述限制，大致分为两类。操作卷积运算或者集成注意力机制。为了提高卷积算子的有效性，前者使用了先进的变形，包括多尺度融合、空洞卷积、特征金字塔。后者引入了注意力模块，来模拟特征图中所有像素的全局交互。还有一些通用方法，来探索这两种策略的组合，尽管性能有了显著提高，但困境仍然存在。
在CNN的替代方案中,ViT在图像识别方面取得了巨大成功，证明了作为深度估计编码器的优势。受益于注意力机制，Transformer在建模与全局感受野的远程相关性方面更加优秀。然而，我们的试点研究表明，由于对局部信息建模缺乏空间归纳偏差，ViT编码器无法产生令人满意的性能。

为了缓解这些问题，本文提出了一种新的单目深度估计框架DepthFormer。通过结合Transformer和CNN的优点，提高了模型的性能。DepthFormer的原理在于Transformer分支对长程相关性进行建模，而附加的卷积分支保留了局部信息。我们认为，这两种类型特征的集成可以帮助实现更准确的深度估计。然而，具有后期融合的独立分支导致解码器特征聚合不足。为了弥补这一差距，我们设计了分层聚合和异构交互模块来组合两个分支的最佳部分。具体来说，它由一个自注意力模块组成，通过元素之间的交互来增强Transformer分支层与层之间的特征信息，和一个交叉注意力模块以一种集合到几何的传递方式模拟异构特征之间的亲和力（Transformer和CNN特征）。由于对高分辨率特征图的全局关注导致难以承受的内存成本，我们建议使用可变形方案，它只以可学习的方式关注有限的关键采样向量集来缓解这个问题。文章的主要贡献如下：

我们将Transformer作为图像编码器，利用长程相关性，并采用额外的卷积分支来保留局部信息。
我们设计了HAHI通过元素交互来增强特征，并以集合到集合的传递方式对亲和力进行建模。

方法

![[Pasted image 20240409094529.png]]

我们首先介绍了这项工作的动机，并介绍了DepthFormer的关键组件：

由Transformer分支和卷积分支组成的编码器
分层聚合和异构交互模块

诱因

为了表明这项工作的必要性，我们进行了一项细致的试点研究，以研究只使用纯CNN或ViT作为单目深度估计的编码器的局限性。

试点研究
我们首先在图3中的NYU数据集上展示了最先进的基于cnn的单目深度估计方法的几个失败案例。墙面上的装饰和地毯的深度结果，出乎意料的不正确。由于用于特征提取的纯卷积编码器很难对全局上下文进行建模，以及难以通过有限的感受野捕获对象之间的远程距离关系。这种大面积违反直觉的故障严重损害了模型的性能。
为了解决上述问题，ViT可以作为一个合适的替代方案，它使用全局感受野建模长距离之间的联系。因此，我们尝试分析基于VIT和CNN的方法在KITTI数据集上的性能。基于DPT模型，我们采用VIT-Base和ResNet50作为编码器分别提取特征。发现基于VIT的模型在远距离处理上的性能更好，但是在近距离物体上效果不如ResNet网络。由于深度值表现出长尾分布，场景中物体越近，应用ViT的模型的总体结果明显较差。
分析
一般来说，直接估计远处物体的深度时很困难的，得益于对长程相关性进行建模，基于ViT的模型可以通过全局上下文中的参考像素来更可靠的实现它。对象之间的距离关系的知识在远距离目标深度估计上具有更好的性能。至于近物体深度估计结果较差，有许多潜在的解释。
- Transformer在建模局部信息时缺乏空间归纳偏差，对于深度估计，局部信息反映在详细的上下文中，这对于一致和清晰的估计结果至关重要，然而在Transformer的逐片交互过程中，这些详细的信息往往会丢失。由于出现在较近的物体具有更大的纹理质量，Transformer将在这些位置丢失更多的细节，这严重恶化了近范围内的模型性能，导致结果不理想。
- 视觉元素的规模差异很大，一般来说U-Net形状的架构用于深度估计，其中多尺度跳跃连接对利用多级信息至关重要。由于ViT中的标记都是一个固定的尺度，连续的非层次前向传播使得多尺度属性模糊，这也可能会限制性能。

在这篇文章中，我们利用Transformer和卷积分支组成的编码器来利用远程相关性和局部信息。

与直接利用ViT作为编码器的DPT不同，我们引入了一个卷积分支来弥补Transformer分支中空间归纳偏差的不足。
我们将ViT替换为Swin Transformer，以便Transformer编码器可以提供分层特征，减少计算的复杂性。
与以前将Transformer嵌入到CNN的方法不同，我们利用Transformer直接对图像进行编码，可以充分利用Transformer的优势并避免CNN在全局上下文建模之前丢弃关键信息。
由于这两个分支的独立性，解码器的简单后期融合导致特征聚合不足，性能只能小幅度的提高。为了弥合这一差距，我们设计了HAHI模块，通过特征交互来增强特征和模型亲和力，缓解了不足，有助于结合两个分支的最佳部分。

Transformer和CNN特征提取

我们建议通过由Transformer分支和轻量级卷积分支组成的编码器提取图像特征，从而充分利用远程相关性和局部信息。

Tranformer分支
Transformer分支首先通过分割模块将输入图像I分割成不重叠的补丁。每个补丁的初始特征表示倍设置为像素RGB值的串联。
之后，应用线性嵌入层将初始特征表示投影到任意维度，并且作为第一个Transformer层的输入，记为 $z_0$ 。之后利用L个Transformer层结构用于提取特征。一般来说，每一层都由一个多头自注意力 (MSA) 模块组成，然后是一个多层感知器 (MLP)。在 MSA 和 MLP 之前应用 LayerNorm (LN)，每个模块使用残差连接。第l层的过程可以用如下式子进行表述。 $\begin{aligned}\hat{\mathbf{z}}^l&=\mathrm{MSA}\left(\mathrm{LN}\left(\mathbf{z}^{l-1}\right)\right)+\mathbf{z}^{l-1},\\\mathbf{z}^l&=\mathrm{MLP}\left(\mathrm{LN}\left(\hat{\mathbf{z}}^l\right)\right)+\hat{\mathbf{z}}^l,\end{aligned}$
我们从N个选取的Transformer层结构中采用并且重组N个特征图作为Transformer层结构的输出，并且将它们标记为 $F={f^n}^N_{n=1}$ ,其中 $F^n\in R^{C_n\times H_n \times W_n}$ 。

注意到我们的框架与各种Transformer架构兼容。在本文中，我们更喜欢利用Swin Transformer来提供分层表示并降低计算复杂度。与标准Transformer层的主要区别在于局部注意力机制，移位窗口方案和补丁合并策略。
卷积分支
卷积分支包含一个标准的ResNet编码器来提取局部信息，这在深度估计网络中常用。这里只使用ResNet的第一个块来利用局部信息，避免了连续乘法清洗低级特征，大大减少了计算时间。具有 $C_g$ 个通道的特征图被输出为 $G∈R^{C_g ×H_g ×W_g}$ 。
在获取Transformer特征F和卷积特征G之后，我们将它们馈送到HAKI模块以供进一步处理。与 TransDepth 相比，我们采用一个额外的卷积分支来保留局部信息。它避免了CNN丢弃关键信息，使我们能够在没有伪影的情况下预测更清晰的深度图。

HAHI模块

![[Pasted image 20240315101115.png]]

为了缓解聚合不足的局限性，我们引入了HAHI模块来增强Transformer的特征，并以集合到集合的传递方式进一步对Transformer和CNN特征的亲和力进行建模。

我们考虑一组分层特征 $F=\{f^n\}^N_{n=1}$ 作为特征增强的输入，由于我们使用Swin Transformer 层提取特征，重组的特征图将表现出不同的大小和通道。许多以前的工作必须将多级特征下采样到瓶颈结构的分辨率，并且只能通过简单的连接或者潜在内核方式来增强瓶颈结构。相反，我们的目标是在不采用可能导致信息丢失的下采样算子的情况下增强所有特征。

具体来说，我们首先利用 $1\times1$ 的卷积将所有层级特征投影到一个通道 $C_h$ ，表示为 $F_n=\{F^n_h\}^N_{n=1}$ 。然后我们将特征图展开（即展平和连接）为二维矩阵X，其中的每一行是一个像素在 $C_h$ 通道中的一个通道维度上对所有不同层级的特征图相乘拼接而成的。（有 $C_h$ 行，且每行的元素是一个通道上所有层级展平相连接得到的结果）然后我们通过 $X$ 的线性投影计算 $Q, K, V$ 的值。
$Q = XP_Q, K = XP_K , V = XP_V$ 。
其中 $P_Q,P_K,P_V$ 分别代表线性投影。我们尝试应用注意力模块能增强特征，然而，巨大的特征向量会导致难以承受的内存成本。为了缓解这个问题，我们建议采用可变形机制，该机制仅以可学习的方式关注有限的关键采样向量集。这适合用于深度估计任务，因为表示场景结构的几个关键点足以用于特征增强。另 $q$ 和 $v$ 分别索引具有表示特征 $x_q\in Q,x_v \in V$ 的元素， $p_q$ 表示查询向量 $x_q$ 的位置，这个过程可以被表示为

$\begin{aligned}\text{DAttn}(x_q,x_v,p_q)&=\sum_{k\in\Omega_k}A_{qk}\cdot x_v\left(p_q+\Delta p_{qk}\right)\end{aligned}$

其中第 $k$ 个采样点的注意力权重 $A_{qk}$ 和第 $k$ 个采样点的采样偏移量 $p_{qk}$ 是通过查询特征 $x_q$ 上的线性投影得到的。由于 $p_q$ + $p_{qk}$ 是分数的，因此在计算 $x_v$ ( $p_q$ + $p_{qk}$ ) 时应用双线性插值，我们还添加了一个层次嵌入来识别每个查询向量所处的特征级别。将表示为 $\hat X$ 的输出折叠（即拆分和重塑）回原始分辨率以获得分层增强特征 $F_{enh}$ ，通过通道连接和1x1卷积融合 $F_{enh}$ 和 $F$ 后，我们得到输出 $F_O={f^n_o}^N_{n=1}$ ，并实现特征增强。

当额外的卷积分支可用时，我们将特征图 $G$ 视为HAHI的第二个输入以进行亲和力建模。与第一个输入 $F$ 表示类似， $G$ 可以是任何其他类型的表示，我们利用 $1\times1$ 卷积将 $G$ 投影到通道维数为 $C_h$ 的 $G_h$ ，然后将 $G_h$ 展平为二维查询矩阵 $Q$ 。将 $\hat X$ 应用为 $K$ 和 $V$ ，我们计算交叉注意力来模拟亲和力。同样，不可承受的内存成本仍然持续存在，我们应用可变形注意力模块缓解这种现象。其中参考点位置 $p_q$ 通过可学习的线性投影和sigmoid函数从亲和查询嵌入动态预测。在讲结果重塑为原始分辨率以形成注意力表示 $G_{att}$ 之后，我们通过通道级联和 $1\times1$ 卷积融合 $G_{att}$ 和 $G$ ，得到HAHI的另一个输出表示为 $G_o$ 。该过程实现了Transformer和CNN分支之间的亲和力建模和特征交互。HAHI的所有输出（ $F_o$ 和 $G_o$ ）被发送到基线解码器进行深度估计。

网络损失从如下公式中进行优化。 $\mathcal{L}_{pixel}=\alpha\sqrt{\frac1T\sum_ih_i^2-\frac\lambda{T^2}(\sum_ih_i)^2},$ 其中 $h_i=log\hat{d_i}-log d_i$ ， $d_i$ 是地面实况， $\hat{d_i}$ 是预测深度，T表示具有有效地面实况值的像素数量，我们在实验中使用 $\lambda=0.85, \alpha=10$

结论

我们提出了DepthFormer，这是一个用于精确单目深度估计的新框架，我们的方法通过由Transformer分支和CNN分支组成的编码器充分利用远程相关性和局部信息。由于具有后期融合的独立分支导致解码器特征聚合不足，我们提出了分层聚合和异构交互模块来增强多级特征并进一步对特征亲和力进行建模。在大多数流行和具有挑战性的数据集中，DepthFormer比最先进的方法取得了显著的改进。我们希望我们的研究能够鼓励更多的工作将Transformer架构应用于深度估计，并启发其他任务的框架设计。