Google的MELON: 通过未定位图像重建精确3D模型的突破性算法

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Google 最近开发的一种名为MELON的新算法,代表了计算机视觉领域的一项重大进展,使得在只有少量图像的情况下重建物体的3D形状成为可能。这一基础的计算机视觉任务在从电子商务3D模型的创建到自动驾驶汽车导航等多个领域都有广泛应用。

关键的问题之一是如何确定拍摄图像的确切位置,这一过程称为姿态推断。如果相机姿态已知,一系列成功的技术——如神经辐射场(NeRF)或3D高斯投影——可以重建3D物体。但如果这些姿态不可用,就会遇到困难的“先有鸡还是先有蛋”的问题,即如果我们知道3D物体,我们可以确定姿态,但在知道相机姿态之前我们无法重建3D物体。伪对称性——即许多物体从不同角度观看时看起来相似——使这个问题更加复杂。例如,正方形物体如椅子每旋转90°看起来都很相似。通过在转盘上从各种角度渲染物体并绘制其光度自相似性图,可以揭示物体的伪对称性。

在介绍了一种名为“MELON: 在SO(3)中未定位图像的NeRF”(MELON: Modulo Equivalent Latent Optimization of NeRF)的技术后,该技术在3DV 2024大会上受到关注,它可以完全从头开始确定以物体为中心的相机姿态,同时重建物体的3D形状。MELON是首批能够在没有初始相机姿态估计、复杂训练方案或有标签数据的预训练的情况下实现这一目标的技术之一。MELON是一种相对简单的技术,可以轻松地整合到现有的NeRF方法中。研究团队演示了MELON如何从未定位图像中重建NeRF,并在只需要4-6张物体图像的情况下实现了最先进的精度。

为了帮助解决这个难题,研究团队利用了两项关键技术来促进收敛。第一项是一个非常轻量级、动态训练的卷积神经网络(CNN)编码器,该编码器可以从训练图像中回归相机姿态。通过将缩小的训练图像传递给一个四层CNN来推断相机姿态。这个CNN从噪声中初始化,不需要预训练。其容量如此之小,以至于它迫使看起来相似的图像具有相似的姿态,从而为收敛提供了一个隐式的正则化。

第二项技术是模除损失(modulo loss),它同时考虑了物体的伪对称性。对于每个训练图像,研究团队从一组固定的视点渲染物体,只通过与训练图像最匹配的视图进行损失的反向传播。这有效地考虑了每张图像的多个视图的可能性。实际上,研究团队发现,在大多数情况下,N=2视图(从物体的另一侧观察)就足够了,但有时对于方形物体使用N=4可以获得更好的结果。

这两种技术被整合到标准的NeRF训练中,除了相机姿态不是固定的,而是由CNN推断并通过模除损失复制。光度梯度通过最佳匹配的相机反向传播到CNN中。研究团队观察到,相机通常会迅速收敛到全局最优姿态。在神经场训练完成后,MELON可以使用标准的NeRF渲染方法合成新的视图。

研究团队简化了问题,使用了NeRF合成数据集,这是NeRF研究的一个流行基准,并且在姿势推断文献中很常见。这个合成数据集的相机位于精确固定的距离,并且具有一致的“向上”方向,研究团队需要推断的只是相机的极坐标。这就像一个物体位于球体中心,相机始终指向它,在表面上移动一样。然后研究团队只需要纬度和经度(2个自由度)来指定相机姿势。

MELON使用了一个动态训练的轻量级CNN编码器,该编码器可以为每张图像预测一个姿态。通过模除损失复制预测的姿态,该损失只惩罚与地面真实颜色的最小L2距离。在评估时,神经场可以用于生成新的视图。

为了评估MELON在NeRF合成数据集上的性能,研究团队计算了两个关键指标。地面真实姿势与推断姿势之间的方向

误差可以量化为单一的角度误差,该误差在所有训练图像中平均计算,得到姿势误差。接着,研究团队通过测量从新视角渲染的MELON物体与保留测试视图的峰值信号噪声比(PSNR)来测试MELON渲染物体的准确性。结果显示,MELON在训练的前1000步内快速收敛到大多数相机的大致姿势,并在50k步后达到了27.5 dB的竞争性PSNR。

MELON在优化过程中对玩具卡车模型的收敛表现。左侧:NeRF的渲染图。右侧:极坐标图显示预测的(蓝色X标记)与地面真实(红点)相机的位置。MELON对NeRF合成数据集中的其他场景也取得了类似的结果。

此外,MELON还在从极度嘈杂的未定位图像进行新视角合成时表现良好。研究团队向训练图像中添加了不同量的白高斯噪声。例如,尽管在σ=1.0的情况下物体几乎无法辨认,但MELON仍能确定姿势并生成物体的新视图。

MELON从极嘈杂的未定位128×128图像中合成新视图的能力。顶部:训练视图中存在的噪声水平示例。底部:从嘈杂训练视图重建的模型及其平均角度姿势误差。考虑到如RawNeRF这样的技术已展示了NeRF在已知相机姿势下的出色去噪能力,MELON在未知相机姿势的嘈杂图像上如此稳健地工作的事实是意料之外的。

总结,MELON是一种无需近似姿势初始化、复杂的GAN训练计划或预训练有标签数据即可确定以物体为中心的相机姿势并重建3D物体的技术。MELON是一种相对简单的技术,可以轻松地集成到现有的NeRF方法中。尽管研究团队只在合成图像上演示了MELON的应用,但他们正在调整其技术以适应现实世界的条件。了解更多信息,请参阅相关论文和MELON网站。

MELON: NeRF with Unposed Images Using Equivalence Class Estimation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/477208.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OFC2023活动剪影

马上就要OFC 2024了,应该有些新图可以发一发了 先发点老图,丢在这里,怕下次不知道去哪里找 以上是以太网联盟Ethernet Alliance 在OFC2023上展示的一个演示机柜 以下是我们参与OFC2023的剪影,除了参与EA的演示,还有独…

从错误中进行上下文学习

1、写作动机: 在上下文学习中,也称为少样本提示(ICL),一直是调整LLM适应下游任务的标准方法,通过从少量输入-输出示例中学习。然而,所有基于ICL的方法都只从正确的输入-输出对中学习。 2、主要…

京东云开发者:DDD 学习与感悟 —— 向屎山冲锋

原文地址:https://mp.weixin.qq.com/s/Hvq1ttBopbxypatVcKcLiA 软件系统是通过软件开发来解决某一个业务领域或问题单元而产生的一个交付物。而通过软件设计可以帮助我们开发出更加健壮的软件系统。因此,软件设计是从业务领域到软件开发之间的桥梁。而DDD是软件设计…

基于ARM 的Linux系统的交叉编译

返回:OpenCV系列文章目录(持续更新中......) 上一篇:在 MacOS 中安装 下一篇:MultiArch与Ubuntu/Debian 的交叉编译 警告 本教程可以包含过时的信息。 此步骤已在 Ubuntu Linux 12.04 上进行了测试,但应…

JAVA 获取系统当前时间、时间格式互相转化工具类,2024百度Java岗面试真题收录解析

DateTimeFormatter ftf DateTimeFormatter.ofPattern(“yyyy-MM-dd HH:mm:ss”); LocalDateTime parse LocalDateTime.parse(strTime, ftf); return LocalDateTime.from(parse).atZone(ZoneId.systemDefault()).toInstant().toEpochMilli(); } //通过LocalDateTime获取当…

【论文精读】OTA: Optimal Transport Assignment for Object Detection(物体探测的最优传输分配)

OTA最优传输 🚀🚀🚀摘要一、1️⃣ Introduction---介绍二、2️⃣Related Work---相关工作2.1 🎓 Fixed Label Assignment--静态标签分配2.2 ✨Dynamic Label Assignment--动态标签分配 三、3️⃣Method---论文方法3.1 &#x1f39…

CPP容器vector和list,priority_queue定义比较器

#include <iostream> #include <bits/stdc.h> using namespace std; struct VecCmp{bool operator()(int& a,int& b){return a>b;/*** 对于vector和list容器&#xff0c;这里写了&#xff1e;就是从大到小* 对于priority_queue容器&#xff0c;这里写…

Linux第82步_“gpio子系统”下的使用KEY开关灯

使用新字符设备驱动的一般模板和“gpio子系统”&#xff0c;以及设备树&#xff0c;驱动KEY和LED。 1、在stm32mp157d-atk.dts文件中添加“gpio_led”和“key0”节点 打开虚拟机上“VSCode”&#xff0c;点击“文件”&#xff0c;点击“打开文件夹”&#xff0c;点击“zgq”&…

QChart/QChartView—绘制多组柱状图

void Widget::initChartBar() {// 创建柱状图QChart* pChart new QtCharts::QChart();pChart->setTitle("Multiple Bar Chart with Dates");// 创建柱状图序列QBarSeries* pSeries new QtCharts::QBarSeries();// 启用柱状图标签显示,可以把数据显示柱状图上pSe…

ETCD跨城容灾与异地多活网络故障的相关表现分析

ETCD跨城容灾与异地多活网络故障的相关表现分析 1. 网络架构2. 单个网络中断-跟leader区中断2.1. 网络中断2.2. 网络恢复 3. 单个网络中断-跟非leader区中断4. 两个网络中断-leader区中断5. 两个网络中断-非leader区中断6. 两个网络中断-非leader区中断7. 总结8. 参考文档 etcd…

阿里云2024最新优惠:WoSign SSL证书首购4折

阿里云SSL证书 2024 最新优惠来啦&#xff01;阿里云SSL证书新用户&#xff0c;wosign SSL证书低至4折&#xff0c;WoSign SSL提供全球信任RSA SSL证书和国密算法SM2 SSL证书&#xff01;阿里云官网官方优惠&#xff0c;需要开年采购SSL证书的用户抓紧申请这波优惠&#xff01;…

基于微信小程序的电影票务系统

文章目录 项目介绍主要功能截图&#xff1a;部分代码展示设计总结项目获取方式 &#x1f345; 作者主页&#xff1a;超级无敌暴龙战士塔塔开 &#x1f345; 简介&#xff1a;Java领域优质创作者&#x1f3c6;、 简历模板、学习资料、面试题库【关注我&#xff0c;都给你】 &…

工控机丨丨工业电脑丨工控计算机丨工业一体机丨什么是工业一体机

工业一体机俗称工控机&#xff0c;是一种专门为工业应用而设计的计算机设备&#xff0c;主要应用于工厂、车间、仓库等工业场所。此外工控机还叫做工控计算机&#xff0c;通常采用工业级主板、工业级CPU、工业级硬盘、工业级内存和工业级电源等硬件组件&#xff0c;以确保其在高…

Excel 使用VBA自动调整插入图片大小到单元格

一、前言描述 需要插入文件夹中的图片到excel中&#xff0c;并和对应单元格的名称进行匹配。 二、方法步骤 使用宏来插入图片&#xff0c;并适配单元格 1. 开启宏 点击 文件->选项->信任中心->信任中心设置->宏设置->启用VBA宏 2. 新建一个宏 直接altf…

步进电机驱动器的接线与使用(接线详细)

今天小编就来继续学习与使用步行电机的学习&#xff0c;如果位置对你有帮助&#xff0c;评论收藏&#xff0c;点赞一下 步进电机驱动器 步进电机驱动器是一种专用于控制步进电机的电子设备&#xff0c;用于控制步进电机的转动和位置。步进电机是一种将电信号转换为机械运动的电…

训练svm并部署树莓派

训练svm并部署树莓派 开发环境1. 准备数据集2. 训练模型3. 部署模型开发环境 vscode python 3.8 用到的库: scikit-learn==1.3.2 pickle torch pandas matplotlib 1. 准备数据集 数据为xls文件,如下格式 2. 训练模型 文件结构 执行训练 python代码 import pickle &…

Go 限流器-漏桶 VS 令牌桶 常用包原理解析

本文主要介绍两个包Uber漏桶&#xff0c;time/rate令牌桶 可以了解到&#xff1a; 使用方法漏桶/令牌桶 两种限流思想 and 实现原理区别及适用场景应用Case 背景 我们为了保护系统资源&#xff0c;防止过载&#xff0c;常常会使用限流器。 使用场景&#xff1a; API速率限制…

Excel 使用SQL统计表格数据

一. 需求 ⏹有如下Excel表格&#xff0c;现要求统计每个店铺的每种类别的商品总销量和最大销量 ⏹详细数据如下 店铺商品类别销量一山店苹果水果27729一山店梨水果76175一山店菠萝水果14699一山店香蕉水果61371一山店西兰花蔬菜72822一山店大白菜蔬菜65090一山店小白菜蔬菜13…

verilog设计-CDC:单bit脉冲快时钟域到慢时钟域

一、前言 当单bit信号由快时钟域传递给慢时钟域时&#xff0c;快时钟域的异步信号最小可为快时钟信号的一个时钟周期脉冲&#xff0c;快时钟域的单时钟周期脉冲长度小于慢时钟域的时钟周期&#xff0c;很有可能该脉冲信号在慢时钟域的两个时钟上升沿之间&#xff0c;导致该脉冲…

DECO: Query-Based End-to-End Object Detection with ConvNets 学习笔记

论文地址&#xff1a;https://arxiv.org/pdf/2312.13735.pdf源码地址&#xff1a;https://github.com/xinghaochen/DECO 近年来&#xff0c;Detection Transformer &#xff08;DETR&#xff09; 及其变体在准确检测目标方面显示出巨大的潜力。对象查询机制使DETR系列能够直接获…