《CompletionFormer: Depth Completion with Convolutions and Vision Transformers 》
摘要
给定稀疏深度和相应的 RGB 图像,深度补全旨在整个图像中空间传播稀疏测量值,以获得密集的深度预测。尽管基于深度学习的深度补全方法取得了巨大进步,但卷积层或图模型的局部性使得网络很难对像素之间的远程关系进行建模。虽然最近完全基于 Transformer 的架构在全局感受野方面取得了令人鼓舞的结果,但由于其局部特征细节恶化,与成熟的 CNN 模型的性能和效率差距仍然存在。本文提出了一种联合卷积注意力和变换器块(JCAT),它将卷积注意力层和视觉变换器深度耦合到一个块中,作为以金字塔结构构建深度完成模型的基本单元。这种混合架构自然有利于单个模型中卷积的局部连接性和 Transformer 的全局上下文。因此,我们的 CompletionFormer 在室外 KITTI Depth Completion 基准和室内 NYUv2 数据集上的性能优于最先进的基于 CNN 的方法,与纯基于 Transformer 的方法相比,实现了显着更高的效率(接近 1/3 FLOP)。
框架
给定稀疏深度和相应的 RGB 图像,使用 JCAT 块增强的 U-Net 主干网络来执行多个尺度的深度和图像信息交互。来自不同阶段的特征以全分辨率融合并用于初始预测。最后,利用空间传播网络(SPN)进行最终细化。
卷积和 Vision Transformer 的架构
(a) MPViT 的多路径Transformer块。(b) CMT-S 的 CMT 块 。(c) 我们提出的 JCAT 块包含两个并行流,分别是卷积注意力层和 Transformer 层。(d) 我们提出的具有级联连接的块的变体。
不同雷达线数下的定量和定性对比
结论
本文提出了一种单分支深度完成网络 CompletionFormer,将卷积注意力和 Transformer 无缝集成到一个块中。广泛的消融研究证明了我们的模型在输入稀疏时深度补全的有效性和效率。这种新颖的设计在室内和室外数据集上产生了最先进的结果。目前,CompletionFormer 的运行速度约为 10 FPS:进一步减少其运行时间以满足实时要求将是我们未来的工作。