DUSt3R:简化三维重建

3D 重建是从二维 (2D) 图像创建对象或场景的 3D 虚拟表示的任务,可用于模拟、可视化或本地化等多种目的。 它广泛应用于计算机视觉、机器人和虚拟现实(VR)等多个领域。 在基本设置中,3D 重建方法输入一对图像 I1 和 I2,并输出两个图像的深度图 D1 和 D2,以及它们之间的相对姿态 P,如下图 1 所示。

图 1:以 4 个图像作为输入的 3D 重建,以输入图像的姿势作为输出的重建 3D 场景。

如果两个图像的相机参数(内在参数)已知,则当前最先进的多视图立体重建 (MVS) 方法(例如 DeMoN [1] 和 DeepV2D [2])可以完成此任务,如视频 1 所示。 ,不仅需要提供内在函数,而且做出良好估计的过程相当繁琐,并且经常容易出错。

视频 1:一种 3D 重建方法,以一对图像 I1 和 I2 作为输入,以深度图 D1 和 D2 作为输出,加上它们之间的相对姿态 P。

如果相机参数未知或估计不当,则 3D 重建会失败,如视频 2 所示。

视频 2:如果相机内在参数未知或估计不当,现有最先进的方法将无法重建 3D 场景。

DUSt3R方法更简单的主要优点是,通过直接对图像内容进行操作,它可以估计图像深度D1、D2和姿态P,并在不知道相机参数的情况下生成完整的3D重建。

视频 3:说明 DUSt3R 在不了解相机参数的情况下如何工作,这与现有的最先进方法相反

1、DUSt3R 的工作原理

DUSt3R 不受约束,因为它解决了在没有相机参数或视点姿势信息的情况下从图像进行 3D 重建的挑战。 该系统的工作原理是将成对重建制定为点图回归,这使其与标准投影相机模型有很大不同。 该网络有效地从图像对中解码出具有丰富几何细节的点图,从而简化了提取详细场景几何图形的过程。

网络架构基于标准 Transformer 编码器和解码器,这意味着我们可以利用现有强大的预训练模型。 我们的公式直接提供场景的 3D 模型以及深度信息,但我们还可以无缝恢复像素匹配以及相对和绝对相机姿势。

图 2:DUSt3R 架构显示了如何首先使用共享 ViT 编码器以连体方式对场景的两个视图(I1、I2)进行编码。 然后将生成的 token 表示 F1 和 F2 传递给两个 Transformer 解码器,它们通过交叉注意力不断交换信息。 最后,两个回归头输出两个相应的点图和相关的置信度图。 重要的是,这两个点图在第一图像 I1 的相同坐标系中表示。 使用简单的回归损失来训练网络。

2、从两个相反的图像重建

下面是从物体几乎相反的视点进行 3D 重建的几个示例。 对于每种情况(长凳、摩托车和烤面包机),我们都会显示两个输入图像和动画可视化视频。 即使图像之间几乎没有重叠的视觉内容:

DUSt3R 也能轻松处理剧烈的视点变化,例如摩托车:

视频 4:左侧是来自几乎相反视点的物体的 2 个输入图像,右侧是 DUSt3R 生成的 3D 可视化输出。

3、从一张图像重建

DUSt3R 甚至能够从单个图像重建 3D 场景,如下图 3 所示:

图 3:使用 DUST3R 从单个图像进行 3D 重建。 这张图片是一幅 17 世纪荷兰画作“圣杰罗姆在他的书房中,小亨德里克·范·斯滕韦克在橡木上的油画,1630 年”(维基共享资源)。

4、多视角全局优化

在提供多个视图的情况下,DUSt3R 提出了一种简单而有效的全局优化策略,该策略在公共参考系中表达所有成对点图:

视频 5:全局优化过程的动画,在公共参考系中表达所有成对点图。

5、将多个任务集成到单个管道中

DUSt3R 最重要的功能是能够将传统上单独处理的各种 3D 视觉任务统一到一个简化的管道中。 DUSt3R 架构利用预训练模型和完全数据驱动的方法来学习强大的几何和形状先验。 此过程会产生场景的直接 3D 模型,这些模型也适用于深度和姿态估计、视觉定位和多视图 3D 重建等任务。

图 4:DUSt3R 方法输出 3D 模型,这些模型适用于单个管道中的许多不同任务,到目前为止,这些任务都是单独处理的。

6、评价结果

DTU、Tanks and Temples 和 ETH3D 等数据集的实验结果表明,DUSt3R 在相机参数未知的情况下也能工作。 该网络可以处理单眼重建并在公共参考系中对齐多个图像对。 评估将 DUSt3R 定位为设定新标准,在包括多视图/单目深度估计和相机姿态估计在内的一系列任务中实现最先进的结果。 下面的表 1 将 DUSt3R 与 CO3Dv2 和 RealEst10K 数据集上的多视图姿态回归任务中最先进的方法进行了比较(详细信息请参阅论文 [3])。

表 1:该表比较了从 PnP-RANSAC (w/PnP) 或全局对齐 (GA) 获得的 DUSt3R 姿态估计结果与基于学习的 RelPose、Colmap+SPSG、基于结构的 PixSFM、PoseReg 和 PoseDiffusion。

7、结束语

DUSt3R 代表了 3D 几何视觉的重大进步,比传统方法有了显着的简化。 结果强调了其在处理各种 3D 视觉挑战方面的潜力和多功能性,而无需进行详尽而细致的估计和校准相机参数的步骤,这代表着 3D 重建领域的未来发展向前迈出了重要一步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/477715.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

字体测试集:选取、应用与兼容性指南

1. 字体测试集 本人非专业字体工作者,字体测试集为个人经验总结整理,仅供参考 那时,天下人的口音、言语都是一样。 南去經三國,東來過五湖 南去经三国,东来过五湖 永东国酬爱郁灵鹰袋 0Oo1lI ga The quick brown fox j…

6个免费的ChatGPT网站

AI 大模型的出现给时代带来了深远的影响: 改变了产业格局:AI 大模型的发展推动了人工智能技术在各行业的广泛应用,改变了传统产业的运作方式,促进了新兴产业的崛起,如智能驾驶、医疗健康、金融科技等。提升了科学研究…

微软发布首款AI PC ,产业链有望迎来新一轮量价齐升

3月21日晚,微软举办主题为“办公新时代”的线上新品发布会,发布Surface Pro 10和Surface Laptop 6,新品将搭载基于英特尔酷睿Ultra或高通骁龙X Elite的处理器,配备新一代NPU,以增强AI性能。 这两款AI PC将支持“AI Exp…

土地利用的时序建模

1、LULC 模型的现状 最近的土地利用和土地覆盖 (LULC) 建模进展来自两种方法。 在一种方法中,现有模型适用于 LULC,而在另一种方法中,模型架构是针对 LULC 明确设计的。 随着大型基础模型的兴起,人工智能和深度学习取得了重大进…

数据结构 二叉树 力扣例题AC——代码以及思路记录

LCR 175. 计算二叉树的深 某公司架构以二叉树形式记录,请返回该公司的层级数。 AC int calculateDepth(struct TreeNode* root) {if (root NULL){return 0;}else{return 1 fmax(calculateDepth(root->left), calculateDepth(root->right));} } 代码思路 …

【Linux C | 多线程编程】线程的创建、线程ID、线程属性

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 ⏰发布时间⏰:2024-03-22 0…

SSC9211_USB-CAM解决方案

一、方案描述 SSC9211是一种用于USB-CAM应用程序跟场景的高度集成的SOC产品。平台本身基于ARM层-A7双核,内置16位,64M的DDR2,集成了图像传感器接口、高级ISP、高性能JPEG编码器和其他丰富的外设接口。支持单,双 MIPI sensor方案&…

H3C--堆叠(IRF)

拓扑图 配置流程 配置SW1与SW2堆叠 一、SW1: shutdown 物理端口配置堆叠优先级,优先级高的成为主设备创建堆叠逻辑接口,将物理接口加入到堆叠逻辑接口中 二、SW1: sysname SW1 # irf member 1 priority 6 # irf-port 1/1port…

基于时空上下文(STC)的运动目标跟踪算法,Matlab实现

博主简介: 专注、专一于Matlab图像处理学习、交流,matlab图像代码代做/项目合作可以联系(QQ:3249726188) 个人主页:Matlab_ImagePro-CSDN博客 原则:代码均由本人编写完成,非中介,提供…

windowsVMware虚拟机中扩展linux磁盘空间

1.虚拟磁盘扩容 VM中,关闭linux虚拟机,直接编辑虚拟机-硬盘-扩展磁盘容量 2.通过Gparted工具进行LINUX系统磁盘分区 未分区挂载前可以看到/挂载点下空间为20G: 通过虚拟机-快照-拍摄快照,操作前可拍摄快照(便于恢复之前…

科技云报道:造完“大模型”,“具身智能”将引领AI下一个浪潮?

科技云报道原创。 资深机器人专家Eric Jang不久前曾预言:“ChatGPT 曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。” 3月13日深夜,一段人形机器人的视频开始热传。 在视频中,Figure的人形机器人,可以完全…

基于java+springboot+vue实现的健身房管理系统(文末源码+Lw+ppt)23-523

摘 要 健身房管理的以往工作流程繁杂、多样、管理复杂与设备维护繁琐。而如今计算机已完全能够胜任健身房管理工作,而且更加准确、方便、快捷、高效、清晰、透明,它完全可以克服以上所述的不足之处。这将给查询信息和管理带来很大的方便,从…

从0写一个问卷调查APP的第13天-1

1.今日任务 我也只是一个大学生,有什么思路不对的地方给我指出来哟! 分析:上次我们实现了任务调查的插入。但是我们插入的问卷调查只有它的标题,也就是这个问卷调查是什么我们告诉数据库了,但是现在我们还没有给它添加任何问题&…

图片如何去除水印?试试这三款去水印工具!

在处理图片时,经常会遇到一个棘手的问题:水印。不论是想去除不美观的版权标记,还是希望消除图片上的杂物,一个好用的去水印工具都是必不可少的。今天,我们就为大家介绍三款功能强大、操作简便的图片去水印软件&#xf…

JavaScrpt学习笔记_一

一、Js编写位置 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> <!-- 可以将js代码编写到外部js文件中&#xff0c;然后通过script标签引入写到外部文件中可以在不同页面中…

梦百合发布“正确睡眠观”,再次呼吁“别睡硬床”

3月21日“世界睡眠日”当天,MLILY梦百合召开了主题为“别睡硬床”的品牌发布会,梦百合家居董事长倪张根发布了一场线上主题演讲,普及睡硬床可能带来的危害,呼吁国人“别睡硬床!”,并发布“100万张硬床垫改造计划”,期望消费者通过从体验一张薄垫开始,从而逐步认识到睡硬床的危害…

1.C#对接微信Native支付(接入前准备)

在申请微信支付商户和微信公众号成功后&#xff0c;我们需要根据官方文档继续进行下一步操作。 1.申请appid和申请mchid 其实只要申请了支付商户和公众号那么这两个id就已经生成了。 我们在公众号管理端的微信支付中可以看到appid 在微信支付商户管理端中可以看到mchid 2…

20240316-1-向量化搜索

向量化搜索 在高维空间内快速搜索最近邻&#xff08;Approximate Nearest Neighbor&#xff09;。召回中&#xff0c;Embedding向量的搜索。 FAISS、kd-tree、局部敏感哈希、【Amnoy、HNSW】 FAISS faiss是Facebook的AI团队开源的一套用于做聚类或者相似性搜索的软件库&…

图中的边关系和节点关系之间的转换

图中的边关系和节点关系之间的转换 边关系转为图 在relation数组中记录的是从一个节点到一个节点&#xff0c;前面的就叫做from&#xff0c;后面的就叫做to&#xff0c;因此每次添加进节点关系的数组的时候&#xff0c;from就是数组索引&#xff0c;to就是需要加入的值。也就是…

揭秘最热门AI写作软件,看看有哪些值得推荐的AI写作神器

在快节奏的现代生活中&#xff0c;我们常常面临各种压力&#xff0c;例如工作、学习等。因此&#xff0c;一款能够提高写作效率的工具变得尤为重要。那么&#xff0c;有没有什么AI写作软件是比较好用的呢&#xff1f;下面小编给大家推荐几款热门的写作软件。 一.爱制作AI写作 …