【论文阅读】CompletionFormer:深度完成与卷积和视觉变压器

【论文阅读】CompletionFormer:深度完成与卷积和视觉变压器

文章目录

  • 【论文阅读】CompletionFormer:深度完成与卷积和视觉变压器
    • 一、介绍
    • 二、联系工作
      • 深度完成
      • Vision Transformer
    • 三、方法
    • 四、实验结果

CompletionFormer: Depth Completion with Convolutions and Vision Transformers

  
给定稀疏深度和相应的RGB图像,深度补全旨在将稀疏测量值在整个图像中进行空间传播,以获得密集的深度预测

尽管基于深度学习的深度补全方法取得了巨大的进步,但卷积层或图模型的局部性使得网络难以对像素之间的长期关系进行建模

  

虽然最近完全基于transformer的体系结构在全局接受场方面取得了令人鼓舞的结果,但由于其局部特征细节的恶化,与发达的CNN模型相比,性能和效率差距仍然存在

  

但由于其局部特征细节的恶化,与发达的CNN模型相比,性能和效率差距仍然存在

联合卷积注意和变形块(Joint Convolutional Attention and Transformer block, JCAT)

  

作为构建金字塔结构深度补全模型的基本单元

在室外KITTI深度 和 室内NYUv2数据集

  

一、介绍

主动深度传感在性能上取得了显著的进步,并在自动驾驶和增强现实等众多应用中展示了其实用性
  
雷达传感器的扫描线数量有限,有效/正确深度点之间的距离仍然可能很远

深度补全技术[2,16,26,31]近年来受到了广泛关注,其目标是通过稀疏深度测量和相应的RGB图像(即RGBD)补全和重建整个深度图
  

对于深度补全,一个关键是获得相邻像素之间的深度亲和力,以便将可靠的深度标签传播到周围环境

稀疏深度可能由于噪声甚至深度传感器没有返回测量值而高度稀疏

  

所有这些属性都要求网络具有捕获像素之间局部和全局相关性的潜力。

目前的深度补全网络通过广泛使用的卷积神经网络(cnn)或图神经网络来收集上下文信息

  

GuideFormer采用了完全基于transformer的架构来实现全局推理

尽管可靠的深度点可以分布在任何距离上,但探索这两种不同范例(即cnn和Transformer)的优雅集成还没有实现

  
提出CompletionFormer,这是一种金字塔结构,将基于cnn的局部特征与基于transformer的全局表示相结合

  

面临两个缺口:

  • RGB和深度输入之间的内容缺口
  • convolution和Transformer之间的语义差距

  

我们建议在网络早期嵌入RGB和深度信息

并且可以在整个网络中聚合多模态信息。考虑到卷积和Transformer的融合,以往的工作从几个不同的角度对图像分类和目标检测进行了探索
  

我们将卷积注意和Transformer纳入一个块中,并将其作为基本单元来构建我们的多尺度网络

使Transformer层更加轻量级。对于与卷积相关的部分,常见的选择是使用普通卷积,如倒残差块

卷积和Transformer之间巨大的语义差距以及Transformer丢失的局部细节要求卷积层增加自己的容量来补偿它。根据这一原理,我们进一步引入空间和通道注意来增强卷积

  
信息交换和融合有效地发生在我们的网络的每一个块

  
贡献:

  • 我们建议将视觉转换器与卷积注意层集成到一个块中进行深度补全
  • 引入了一个单分支网络结构,即CompletionFormer
  • 与纯基于Transformer的方法相比,效率显着提高
  • CompletionFormer在深度补全方面有了很大的改进,特别是在实际应用中经常出现的深度非常稀疏的情况

  
我们模型的深度为 3,3,4,1 的11层结构,在补全深度上应该具有很好的效果

  

二、联系工作

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  

深度完成

随着有源深度传感器的出现,场景深度补全已成为计算机视觉中的一项基本任务

全卷积网络已经成为当前最先进的深度完成的原型架构

在监督或自监督框架内预测密集输出。为了保持给定稀疏深度下的准确测量值,并对最终深度图进行细化

但性能受到卷积U-Net骨干网容量的限制

  

增强了U-Net骨干网对本地和全局连贯上下文信息的表达能力,证明在提高性能方面是有效的

  

Vision Transformer

Transformer 首先被引入到自然语言处理中

语义分割等领域也显示出巨大的潜力

而是探索将Transformer和convolution结合到一个block中进行深度补全

  

同时使用卷积和Vision Transformer的MPViT[12]和CMT[6])相比,

我们提出的联合卷积关注和Transformer块在公共基准测试中实现了更高的效率和性能
  

三、方法

我们的目标是在深度补全任务中引入局部特征和全局上下文信息,以便从任何距离收集可靠的深度提示

使用我们的JCAT块构建的主干进行多尺度特征提取,解码器提供全分辨率特征用于初始深度预测
    

在这里插入图片描述
  

RGB and Depth Embedding

多模态信息融合具有以下几个优点:

  • 使每个像素的特征向量同时具有RGB和深度信息,使得深度无效的像素仍然有机会通过可靠的深度测量根据外观相似性进行校正
  • 以下网络只需要一个分支,实现效率高。因此,我们首先使用两个单独的卷积对输入的稀疏深度图S和RGB图像i进行编码,输出经过另一个卷积层连接并进一步处理,得到包含两个源内容的原始特征

  

联合卷积注意与变压器编码器

如何在像素之间建立连接来实现可靠像素的深度传播,同时避免不正确的像素,已经得到了广泛的研究

基于注意力的图传播已成为这一目的的主要操作

  

MPViT和CMT是自注意与卷积相结合的两种具有代表性的最先进网络

利用空间和通道的关注增强了基于卷积的路径的表示能力

  
联合卷积注意与变形块

我们的JCAT块可以以并行或级联的方式组织

在这里插入图片描述

它包含一个具有多头机制的空间减少注意(SRA)层和一个前馈层(FNN)

  

允许不同尺度的特征表示有效地相互通信。

在第一阶段,为了降低Transformer层带来的计算成本和内存开销,我们使用ResNet34中的一系列BasicBlocks进行处理

在接下来的四个阶段,我们将介绍我们提出的JCA T块作为框架设计的基本单元

  

给定来自补丁嵌入模块或最后一个联合块的输入特征F∈R Hi×Wi×C(第i阶段特征的高度和宽度分别为Hi和Wi

一步减小K和V的空间尺度以减少内存消耗,然后进行自注意:
  

在这里插入图片描述

  

SPN的细化和损失函数

考虑到稀疏输入经过U-Net后可能不能很好地保留准确的深度值,空间传播网络已成为最终细化的标准操作

增强的U-Net骨干网,网络能够提供良好的深度亲和力

  

针对cspn++消耗较多的计算成本,我们采用非局部空间传播网络[进行进一步细化

在这里插入图片描述

d表示原始深度的保留程度

  

解码器还输出亲和矩阵w,并由解码器预测的置信度映射进行调制,以防止不太自信的像素传播到邻居中,无论亲和度有多大

采用L1和L2联合损失来监督网络训练

  
在这里插入图片描述

  

四、实验结果

  
NYUv2数据集:

  • 在464个室内场景中捕获的RGB和深度图像组成
  • 按照之前深度补全方法的类似设置
  • 训练集中均匀采样的50,000张图像上进行训练
  • 测试集中的654张图像上进行测试以进行评

  

KITTI深度补全(DC)数据集:

  • 包含86 898个训练数据,其中1 000个用于验证,1 000个用于无ground truth的测试
  • V elodyne HDL-64e获得的原始深度图是稀疏的,大约覆盖5.9%像素
  • 密集的地面真相是通过将11个连续时间帧的激光雷达扫描收集到一个帧中生成的,产生了近30%的注释像素

  
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/520959.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

腾讯云添加域名后不生效

问题原因 添加域名后不生效可能是因为没有加CDN域名解析 解决步骤

手动实现Tomcat底层机制+自己设计Servlet

文章目录 1.Tomcat整体架构分析自己理解 2.第一阶段1.实现功能2.代码1.TomcatV1.java 3.调试阶段1.阻塞在readLine导致无法返回结果 4.结果演示 3.第二阶段1.实现功能2.代码1.RequestHander.java2.TomcatV2.java 3.调试阶段1.发现每次按回车会接受到两次请求 4.结果演示 4.第三…

【Python使用】嘿马头条完整开发md笔记第4篇:数据库,1 方案选择【附代码文档】

嘿马头条项目从到完整开发笔记总结完整教程(附代码资料)主要内容讲述:课程简介,ToutiaoWeb虚拟机使用说明1 产品介绍,2 原型图与UI图,3 技术架构,4 开发,1 需求,2 注意事项。数据库,理解ORM1 简介,2 安装,3 数据库连接…

C++要点细细梳理(下)(内存分配、异常处理、template和文件读写)

4. 类动态内存分配 4.1 C语言动态内存分配:malloc和free 4.2 C动态内存分配:new和delete 思考:定义一个对象和定义一个普通变量有何区别? 普通变量:分配足够空间即可存放数据对象:除了需要空间,还要构造/析构 类比:…

关于 VScode, 点击文件右键或者在文件夹中没有 【 在vscode中打开选项】 解决办法

关于 VScode, 点击文件右键或者在文件夹中没有 【 在vscode中打开选项】 解决办法 段子手-168 2024-4-6 1、在任意位置创建一个文本文件。如:a.txt 2、复制以下代码到 a.txt 文本文件中。 (注: 以 ; 开头的 , 是备注信息 , 不需要做任何修…

代码随想录第19天

654. 最大二叉树 已解答 中等 相关标签 相关企业 给定一个不重复的整数数组 nums 。 最大二叉树 可以用下面的算法从 nums 递归地构建: 创建一个根节点,其值为 nums 中的最大值。递归地在最大值 左边 的 子数组前缀上 构建左子树。递归地在最大值 右边 的 子数组后缀…

影院座位选择简易实现(uniapp)

界面展示 主要使用到uniap中的movable-area&#xff0c;和movable-view组件实现。 代码逻辑分析 1、使用movable-area和movea-view组件&#xff0c;用于座位展示 <div class"ui-seat__box"><movable-area class"ui-movableArea"><movab…

【QT学习】5.控件

一。控件的了解 1.控件作用 拖拽页面&#xff0c;所见即所得。 2.创建控件 3.向qt项目中添加资源 3.1显示图片 项目右键--》add new 创建结果&#xff1a; 添加资源到文件中 补充&#xff1a;使用代码的方式添加图片 3.2显示动图 1.添加动图资源 添加资源 2.显示动图 3.3显示…

基于单片机电子硬币储存器的设计

**单片机设计介绍&#xff0c;基于单片机电子硬币储存器的设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机电子硬币储存器的设计概要主要涵盖了硬件设计、软件设计、硬币识别、计数与储存等核心功能。以下是对该设…

OWASP TOP10 漏洞详解

前言 该内容是 OWASP TOP 10 的学习笔记&#xff0c;笔记内容来源 B 站龙哥的视频【12.Top漏洞10&#xff1a;服务器请求伪造_哔哩哔哩_bilibili】 一、访问控制崩溃 概念 未对通过身份验证的用户实施恰当的访问控制。攻击者可以利用这些缺陷访问未经授权的功能或数据&#xf…

【Linux】环境基础开发工具使用——gcc/g++使用

Linux编译器-gcc/g使用 1. 背景知识 1. 预处理&#xff08;进行宏替换 ) 2. 编译&#xff08;生成汇编 ) 3. 汇编&#xff08;生成机器可识别代码&#xff09; 4. 连接&#xff08;生成可执行文件或库文件 ) 2. gcc如何完成 格式 gcc [ 选项 ] 要编译的文件 [ 选…

阿德勒、荣格、埃里克森、霍妮、弗洛姆、沙利文的新精神分析理论

新精神分析理论&#xff0c;强调自我的自主性及其整合与调节功能&#xff0c;强调文化和社会因素对人格的重大影响。 一、阿德勒的个体心理学 阿德勒&#xff0c;是一个男人努力克服自卑感的优秀样板。阿德勒写了《超越与自卑》。 阿德勒&#xff0c;向意识层面扩展精神分析…

c++11的重要特性3

目录 1、lambda表达式 C98中的一个例子 lambda表达式的 lambda表达式语法 函数对象与lambda表达式 3、可变参数模板 递归获取 逗号表达式展开参数包 2、包装器 function包装器 bind 1、lambda表达式 C98中的一个例子 在C98中&#xff0c;如果想要对一个数据集合中的元素进…

NetSuite 自定义记录类型的权限控制

在近期的一个定制项目中&#xff0c;遭受了一次用户洗礼。有个好奇宝宝把我们的一个自定义类型的表记录进行了删除&#xff0c;导致一个重要功能失败。算是给我们扎实上了一课。自定义类型的权限也需要重视起来。所以&#xff0c;今朝我们记录下这个设置&#xff0c;同时写给未…

C++ setw() 函数

C setw() 函数 分类 编程技术 C setw() 函数用于设置字段的宽度&#xff0c;语法格式如下&#xff1a; setw(n) n 表示宽度&#xff0c;用数字表示。 setw() 函数只对紧接着的输出产生作用。 当后面紧跟着的输出字段长度小于 n 的时候&#xff0c;在该字段前面用空格补齐&…

《QT实用小工具·十五》多种样式的开关控件

1、概述 源码放在文章末尾 目前实现了三种样式的开关控件按钮&#xff0c;如下所示&#xff1a; 项目部分代码如下所示&#xff1a; #ifndef IMAGESWITCH_H #define IMAGESWITCH_H/*** 图片开关控件 * 1. 自带三种开关按钮样式。* 2. 可自定义开关图片。*/#include <QWid…

SpringBoot新增员工模块开发

需求分析与设计 一&#xff1a;产品原型 一般在做需求分析时&#xff0c;往往都是对照着产品原型进行分析&#xff0c;因为产品原型比较直观&#xff0c;便于我们理解业务。 后台系统中可以管理员工信息&#xff0c;通过新增员工来添加后台系统用户。 新增员工原型&#xf…

Vue中如何使用Tailwind CSS样式?多次引用不成功?具体步骤怎么做?

一、安装Tailwind CSS和依赖 在你的Vue项目中安装Tailwind CSS及其依赖。你可以使用npm或yarn来安装。 npm install tailwindcsslatest postcsslatest autoprefixerlatest # 或者yarn add tailwindcsslatest postcsslatest autoprefixerlatest 二、初始化Tailwind CSS np…

Linux常用命令-网络管理

文章目录 ping基本用法主要选项常见用途和理解输出注意事项 ifconfig基本用法配置网络接口示例高级功能 netstat基本用法常用选项示例注意事项 wget主要特点基本用法常见选项 示例注意事项 curl主要特点基本用法常见选项 示例注意事项 参考资料在线文档和手册图书在线教程和指南…

YOLO-World:实时开放词汇对象检测(论文+代码)

目录 一、YOLO-World摘要以及主要贡献 1.1摘要 1.2主要贡献 二、YOLO-World模型创新点总结 2.1YOLO Detector 2.2Text Encoder 2.3Re-parameterizable Vision-Language PAN 2.4核心创新点总结 三、如何应用 3.1推理预测 3.2自定义词汇推理 3.3自定义词汇类别…