M3VSNET:无监督多度量多视图立体视觉网络(2021年)

M3VSNET:无监督多度量多视图立体视觉网络(2021年)

    • 摘要
    • 1 引言
    • 2 相关工作
    • 3 实现方法
      • 3.1 网络架构

B. Huang, H. Yi, C. Huang, Y. He, J. Liu and X. Liu, “M3VSNET: Unsupervised Multi-Metric Multi-View Stereo Network,” 2021 IEEE International Conference on Image Processing (ICIP), Anchorage, AK, USA, 2021, pp. 3163-3167, doi: 10.1109/ICIP42928.2021.9506469.
The code is available at https://github.com/whubaichuan/M3VSNet

摘要

与传统的MVS方法相比,目前采用的基于监督学习的网络的多视图立体匹配(MVS)方法具有显著的性能。然而,用于训练的真实深度图很难获得,而且是在有限的情况下。在本文中,我们提出了一种新的无监督多度量MVS网络,名为M3VSNet,用于没有任何监督的密集点云重建。为了提高点云重构的鲁棒性和完整性,我们提出了一种新的多度量损失函数,该函数结合了像素级和特征级损失函数,从匹配对应的不同角度学习固有的约束条件。此外,我们还在三维点云格式中加入了正常深度的一致性,以提高估计深度图的准确性和连续性。实验结果表明,M3VSNet建立了最先进的无监督方法,在DTU数据集上取得了比以前的监督MVSNet更好的性能,并在坦克和寺庙数据集上证明了强大的泛化能力和有效的改进。

1 引言

多视图立体视觉(MVS)旨在从多视图图像中重建三维密集点云,在增强现实、虚拟现实和机器人技术等领域有多种应用。传统方法通过手工特征(如NCC)计算匹配对应取得了很大的进展。然而,MVS在大规模环境中的有效和鲁棒的方法仍然是具有挑战性的任务。最近,深度学习被引入来缓解这一限制。基于监督学习的MVS方法取得了显著进展,特别是提高了密集点云重建的效率和完整性。这些基于学习的方法通过学习和推断信息来处理立体视觉对应难以获得的匹配歧义性。然而**,这些基于监督学习的方法强烈地依赖于具有真实深度图的训练数据集。它们的场景种类有限,也不容易获得。因此,这是一个很大的障碍,可能导致在不同复杂场景下的泛化能力差**。此外,密集点云重建的鲁棒性和完整性仍有很大的改进空间。基于学习的方法主要基于像素级水平,这会导致不正确的匹配对应,且的鲁棒性较低。因为对于两个相同的图像,只要从像素水平的角度进行像素偏移,差异可能会很大。然而,从特征水平等感知的角度来看,它们几乎是相同的。因此,本文旨在研究基于学习的MVS的数据独立性、鲁棒性和完整性。在本文中,我们提出了一种新的无监督多度量MVS网络,名为M3VSNet,如图1所示,即使在非理想环境下,它也可以推断出密集点云重建的深度图。最重要的是,我们提出了一种新的多度量损失函数,即像素级和特征级损失函数。关键的见解是,人类的视觉系统通过物体的特征来感知周围的世界。在损失函数方面,可以很好地保证光度和几何匹配的一致性。
在这里插入图片描述

具体来说,我们引入了来自预先训练过的VGG16网络的多尺度特征图,作为特征级丢失的重要线索。低级特征表示学习更多的纹理细节,而高级特征学习具有较大的接受域的语义信息。不同层次的特征是对不同的感受域的表现。此外,为了提高深度图的精度和连续性,我们在世界坐标空间中加入法线-深度一致性来约束估计深度图得到的局部表面切线与计算的法线正交。因此,在无纹理、镜面反射或反射和纹理重复区等具有挑战性的场景中,网络可以很好地提高匹配对应的鲁棒性和准确性。

2 相关工作

该领域提出了许多传统的方法,如基于体素的方法[8]、特征点扩散[3]和估计深度图[9]的融合。估计深度图的融合可以将重建解耦为深度估计和融合。单目的视频和双目成对图像的深度估计与多视点立体视觉有许多相似之处。单目视频缺乏实际深度的真实尺度,双目成对图像总是需要对并行的两幅图像进行校正。与单眼视频和双目成对图像相比,多视图遮挡和一致性等障碍提高了多视图立体视觉深度估计的难度。自从Yao Yao在2018年提出MVSNet以来,已经提出了许多基于MVSNet的监督网络。更重要的是,获得真实的深度图非常繁琐。Dai以对称的方式同时预测所有视图的深度图,这消耗了大量的GPU内存。此外,Tejas提出了简化的网络和传统的损失指定,但结果不令人满意。

3 实现方法

3.1 网络架构

M3VSNet的基本架构由三个部分组成,即金字塔特征聚合、基于方差的成本量生成和3D U-Net正则化,如图1所示。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/197139.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智能优化算法应用:基于混合蛙跳算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于混合蛙跳算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于混合蛙跳算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.混合蛙跳算法4.实验参数设定5.算法结果6.参考…

2021年12月 Scratch图形化(四级)真题解析#中国电子学会#全国青少年软件编程等级考试

Scratch等级考试(1~4级)全部真题・点这里 一、单选题(共15题,每题2分,共30分) 第1题 下图两个积木的值分别是? A:false true B:false false C:true true D:true false 答案:A 第2题 小猫和小狗是非常好的朋友,他们发明了一种加密方法:用两位数字代表字母。…

qInstallMessageHandler的学习

背景:需要做一个日志系统。 把信息重定向到txt文件中。 参考: QT 调试信息如何输出到文件(qDebug/qWarning/qCritical/qFatal)-CSDN博客 Qt 之 qInstallMessageHandler(重定向至文件)-CSDN博客 demo…

使用 ZFPlayer 播放视频的注意点

一 静音功能 通过调用系统的AVPlayer.muted来实现的 - (void)setMuted:(BOOL)muted {_muted muted;self.player.muted muted;if (self.audioMuteChange) {self.audioMuteChange(self, muted);}... }播放进度条 /// 滑杆 property (nonatomic, strong, readonly) ZFSliderV…

Kubernetes入门学习(上)

文章目录 Kubernetes入门学习(上)介绍云原生 Kubernetes架构基础概念Kubernetes架构控制平面组件Node组件 组件关系 安装Kubernetes基本对象和操作Pod(容器集)Deployment(部署)与ReplicaSet(副本集)Service(服务&#…

Linux shell编程学习笔记31:alias 和 unalias 操作 命令别名

目录 0 前言1 定义别名2 查看别名 2.1 查看所有别名2.2 查看某个别名 2.2.1 alias 别名2.2.2 alias | grep 别名字符串2.2.3 使用 CtrlAltE 组合键3 unalias:删除别名4 如何执行命令本身而非别名 4.1 方法1:使用 CtrlAltE 组合键 && unalias4…

促进高层次人才创新创业,长沙又在“放大招”

“人才”,寥寥数笔,却勾勒出一座城市的发展核心、创新引擎。大力引进高层次人才,更是城市提升综合实力的有效举措。 11月26日,在长沙市委组织部(市委人才工作局)举办“汇聚磅礴力量 全力建设全球研发中心城…

TCP 三次握手和四次挥手(图解)

TCP 三次握手和四次挥手 建立连接-三次握手 什么是三次握手? 简单来说: 客户端向服务器发送 SYN 报文,请求建立连接。服务器收到 SYN 报文后,回复一个 SYNACK 的报文,表示同意建立连接。客户端收到 SYNACK 报文后&am…

unity3d 旋转cube时变形

将cube移到父路径同级,重置再,更改角度,或者将父路径先重置,再将cube移动到父节点下面

股票技术从初级到高级,从实盘进阶到摩尔缠论

一、教程描述 摩尔缠论是什么?一个伟大的缠论分支体系,由顶尖高手创立的缠论分支,这个顶尖高手,江湖上的代号为摩尔,可能是一个人,或者是一群人。摩尔缠论,基于缠论的核心思想与基础理论&#…

Windows下Linkis1.5DSS1.1.2本地调试

1 Linkis: 参考: 单机部署 | Apache Linkis技术分享 | 在本地开发调试Linkis的源码 (qq.com)DataSphere Studio1.0本地调试开发指南 - 掘金 (juejin.cn) 1.1 后端编译 参考【后端编译 | Apache Linkis】】 修改linkis模块下pom.xml,将mysql.connetor.scope修改…

数据结构 | 查找

基本概念 关键字:数据元素中唯一标识该元素的某个数据项的值,使用基于关键字的查找,查找结果应该是唯一的。例如,在由一个学生元素构成的数据集合中,学生元素中“学号”这一数据项的值唯一地标识一名学生。 查找表&a…

从零开始的c语言日记day37——数组指针练习

一、 取地址数组储存在了*p里,里面储存的是整个数组的地址但本质也是第一个元素的地址解引用后1为4个字节所以就可以打印数组了。但一般不用这种方法 这样更方便一些 打印多维数组 如果不用这样传参,用指针传参怎么做呢? Main里函数的arr表示…

22款奔驰GLE450升级原厂360全景影像 超广角的视野

360全景影像影像系统提升行车时的便利,不管是新手或是老司机都将是一个不错的配置,无论是在倒车,挪车以及拐弯转角的时候都能及时关注车辆所处的环境状况,避免盲区事故发生,提升行车出入安全性。 360全景影像包含&…

网工内推 | 外企网工,五险一金,弹性工作,最高30k*14薪

01 金蝶软件(中国)有限公司 招聘岗位:网络工程师 职责描述: 1、合理规划公司网络,保障网络架构的合理性、可靠性及前瞻性; 2、负责公司网络运维,处理日常运维事件,保障网络的稳定可…

基于mvc的大学生家教信息网站系统php+vue

运行环境:phpstudy/wamp/xammp等 开发语言:php 后端框架:Thinkphp5 前端框架:vue.js 服务器:apache 数据库:mysql 数据库工具:Navicat/phpmyadmin 开发软件:hbuilderx/vscode/Dreamweaver/PhpSt…

不同路径 II(力扣LeetCode)动态规划

不同路径 II 题目描述 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish”)。 现在考虑网格中有障碍物。…

freerots启动过程分析(qemu仿真RISC-V架构为例)

1、前言 本文是基于qemu上virt板子适配的freertos系统源码进行讲解qemu安装可参考博客:《qemu源码下载和安装》;freertos移植到qemu上运行可参考博客:《移植freertos到qemu上运行》; 2、汇编代码部分 汇编文件:FreeR…

qt实现一个安卓测试小工具

qt实现一个安卓测试小工具 最终效果:目录结构源码gui.py 主要是按钮,文本控制代码main.py 主要是逻辑代码gui.spec 是打包使用的adb.ui 最终效果: 目录结构 上面2个是打包的生成的不用管 源码 gui.py 主要是按钮,文本控制代码…