腾讯 InstantMesh,单图生成 3D 模型,10 秒内完成,性能超越 SOTA

前言

近年来,3D 内容创作在游戏、动画、虚拟现实等领域发挥着越来越重要的作用。然而,传统的 3D 模型制作流程繁琐,需要专业人员花费大量时间和精力。为了简化 3D 内容创作流程,腾讯 ARC 实验室推出了 InstantMesh,一个基于单图像的 3D 网格生成框架,能够在短短 10 秒内完成高质量的 3D 模型生成,并显著超越了现有的 SOTA 模型。

  • Huggingface模型下载:https://huggingface.co/TencentARC/InstantMesh

  • AI快站模型免费加速下载:https://aifasthub.com/models/TencentARC

InstantMesh 的技术特点

InstantMesh 的核心技术在于将多视角扩散模型和大型重建模型(LRM)相结合,并引入可微分等值面提取模块,实现高效的 3D 网格生成。

多视角扩散模型:生成 3D 一致的多视角图像

InstantMesh 首先利用一个预训练的多视角扩散模型,从单张输入图像中生成多张 3D 一致的视角图像。该模型采用了 Zero123++,能够生成 6 张具有特定视角分布的图像,覆盖 3D 物体的上部和下部,确保重建的完整性。 为了确保生成的图像背景一致,研究团队对 Zero123++ 进行了微调,使其能够生成一致的白色背景图像,从而避免后期处理带来的潜在问题。

大型重建模型:从图像生成 3D 网格

InstantMesh 使用一个基于 LRM 架构的稀疏视角重建模型,从多视角图像中直接生成 3D 网格。LRM 架构利用 Transformer 的强大能力,将图像信息映射到 3D 空间的隐式表示,实现高效的 3D 重建。

InstantMesh 将可微分等值面提取模块 FlexiCubes 集成到重建模型中,直接从 3D 隐式场中提取网格表面,并能够应用深度和法线等几何信息进行监督,进一步提升了网格模型的精度和光滑度。

优化训练策略,提升效率和精度

为了提升训练效率,InstantMesh 采用了两种阶段的训练策略。第一阶段,模型在三平面 NeRF 表示上进行训练,并利用预训练的 OpenLRM 模型权重进行初始化,加速模型收敛。第二阶段,模型切换到网格表示进行训练,并利用 FlexiCubes 提取网格表面,并利用深度和法线等几何信息进行监督,进一步提升网格模型的精度。

此外,研究团队还针对输入视角进行了随机旋转和缩放,并对输入图像的相机参数添加随机噪声,提升模型对不同视角和尺度变化的鲁棒性。

性能表现

InstantMesh 在 Google Scanned Objects (GSO) 和 OmniObject3D (Omni3D) 两个公开数据集上进行了评估,结果显示,InstantMesh 在 2D 视觉质量和 3D 几何质量方面均显著优于其他 SOTA 方法。

评估指标:

  • 2D 视觉质量: PSNR、SSIM、LPIPS

  • 3D 几何质量: Chamfer Distance (CD)、F-Score (FS)

测试结果表明:

  • 在 2D 新视角合成任务中,InstantMesh 在 SSIM 和 LPIPS 指标上显著优于其他方法,表明其生成的 3D 模型在视觉上更具真实感。

  • 在 3D 几何质量评估中,InstantMesh 在 CD 和 FS 指标上也显著优于其他方法,表明其生成的 3D 模型在几何精度方面更高。

应用场景

InstantMesh 可以应用于多个领域,例如:

  • 游戏开发: 快速生成游戏中的 3D 模型,提升游戏开发效率。

  • 动画制作: 加速动画制作流程,为动画师提供更多创作可能性。

  • 虚拟现实 生成逼真的虚拟场景和 3D 物体,提升用户体验。

  • 工业设计: 快速生成产品原型,加速产品设计迭代。

总结

InstantMesh 的出现,为 3D 内容创作带来了新的突破,它能够在短短 10 秒内生成高质量的 3D 网格模型,并且在性能上超越了其他 SOTA 方法。InstantMesh 的开源,将为 3D 生成 AI 领域的研究和应用带来巨大的推动作用,赋能研究人员和内容创作者,推动 3D 内容创作的快速发展。

模型下载

Huggingface模型下载

https://huggingface.co/TencentARC/InstantMesh

AI快站模型免费加速下载

https://aifasthub.com/models/TencentARC

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/670586.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python课设-学生信息管理系统

一、效果展示图 二、前端代码 1、HTML代码 <1>index.html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">…

C语言(内存函数)

Hi~&#xff01;这里是奋斗的小羊&#xff0c;很荣幸各位能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎~~ &#x1f4a5;个人主页&#xff1a;小羊在奋斗 &#x1f4a5;所属专栏&#xff1a;C语言 本系列文章为个人学习笔记&#xff0c;在这里撰写成文一…

Python魔法之旅-魔法方法(10)

目录 一、概述 1、定义 2、作用 二、应用场景 1、构造和析构 2、操作符重载 3、字符串和表示 4、容器管理 5、可调用对象 6、上下文管理 7、属性访问和描述符 8、迭代器和生成器 9、数值类型 10、复制和序列化 11、自定义元类行为 12、自定义类行为 13、类型检…

【Python系列】Python的多返回值

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

ClickHouse 使用技巧总结

文章目录 数据导入、导出技巧外部文件导入导技巧使用集成表引擎导入、导出数据 建表技巧表引擎选择技巧分区键选择技巧数据结构选择技巧分区技巧 高级技巧物化视图投影位图变更数据捕获 常见报错及处理方法 数据导入、导出技巧 外部文件导入导技巧 ClickHouse作为OLAP即席分析…

opencv-python(二)

马赛克 img cv2.imread(./bao.jpeg)print(img.shape)img2 cv2.resize(img,(35,23))img3 cv2.resize(img2,(900,666))cv2.imshow(bao,img3)cv2.waitKey(0)cv2.destroyAllWindows()img2 cv2.resize(img, (90,66))img3 np.repeat(img2, 10, axis 0) # 重复行img4 np.repeat(…

I2C LCD1602液晶显示屏

前言 本文实现在 LCD1602显示屏的使用。 显示屏使用带I2C转接板的,如下图所示。 并且会做一些有趣的显示方式。 效果预览 材料准备 材料数量价格Arduino nuo118杜邦线411602A显示屏110 依赖库下载 本文使用都库在 arduino ide 中搜索 LiquidCrystal_I2C 即可找到。 注意作…

混合动力电动汽车介绍(一)

电动汽车发展的技术背景主要包含环境问题和能源问题两大方面。环境问题的表现形式为空气污染&#xff0c;而能源问题的表现形式为现有能源供应体系对化石燃料的过分依赖。《新能源汽车产业发展规划&#xff08;2021-2035&#xff09;》中明确我国新能源汽车技术研发的“三纵”、…

kivy.garden.matplotlib

matplotlib 是什么 # pip install matplotlib2.2.2 from kivy.garden.matplotlib.backend_kivyagg import FigureCanvasKivyAgg FigureCanvasKivyAgg class FigureCanvasKivyAgg(FigureCanvasKivy, FigureCanvasAgg):FigureCanvasKivyAgg class. See module documentation f…

SickOS1.1 - Shellshock原理和利用过程精讲

SickOS1.1的另一种思路&#xff1b;用另一种方法打透这台机器 Nikto扫描 正常都是-h扫描&#xff1b;有代理就用-useproxy 指向的代理ip:端口 nikto -h 192.168.218.157 -useproxy 192.168.218.157:3128apache版本&#xff0c;有点低&#xff0c;现在都是2.4.54版本了&#x…

Cobaltstrike常用功能

一、快捷工具栏 3、需要创建监听器&#xff0c;才能让靶机上线&#xff0c;连接我们公网服务端上去开启的帧监听端口&#xff0c;做任何操作 都是通过服务器的IP地址去连接靶机&#xff0c;去和靶机进行文件stage的一个传输和交互。这里推荐把cs 放到公网上边&#xff0c;比较…

通过LabVIEW提升生产设备自动化水平

现代制造业对生产设备的自动化水平提出了越来越高的要求。使用LabVIEW这一强大的图形化编程环境&#xff0c;可以显著提升生产设备的自动化程度&#xff0c;改善生产效率和产品质量。本文将详细分析如何通过LabVIEW改善生产设备的自动化水平&#xff0c;并提供具体的实施策略与…

数论1---整除

概念与基本性质就不说了 例题1&#xff1a;已知a|n&#xff0c;b|n.且axby1,求证&#xff1a;ab|n 即&#xff1a; 所以&#xff1a;ab|n 例题2&#xff1a;设m是一个大于2的正整数&#xff0c;证明&#xff1a;对于任意正整数n&#xff0c;都有 由于我不想打公式了直接拍照…

opencv进阶 ——(九)图像处理之人脸修复祛马赛克算法CodeFormer

算法简介 CodeFormer是一种基于AI技术深度学习的人脸复原模型&#xff0c;由南洋理工大学和商汤科技联合研究中心联合开发&#xff0c;它能够接收模糊或马赛克图像作为输入&#xff0c;并生成更清晰的原始图像。算法源码地址&#xff1a;https://github.com/sczhou/CodeFormer…

SAP PP学习笔记14 - MTS(Make-to-Stock) 按库存生产(策略10),以及生产计划的概要

上面讲了SAP里面的基础知识&#xff0c;BOM&#xff0c;作业手顺&#xff08;工艺路线&#xff09;&#xff0c;作业区&#xff08;工作中心&#xff09;&#xff0c;MRP&#xff0c;MPS等概念&#xff0c;现在该到用的时候了。 SAP PP学习笔记07 - 简单BOM&#xff0c;派生BO…

【教程】如何实现WordPress网站降级(用于解决插件和主题问题)

在最新可用版本上运行WordPress安装、插件和主题是使用该平台的关键最佳实践。还建议使用最新版本的PHP。但是,在某些情况下,这是不谨慎或不可能的。 如果您发现自己处于这种情况,您可能需要撤消更新并降级您的WordPress网站(或其中的一部分)。幸运的是,有一些方法可用于…

uniapp 怎么设置凸起的底部tabbar

1. uniapp 怎么设置凸起的底部tabbar 1.1. 方案一系统提供 1.1.1. 使用uniapp官方提供的属性midButton 使用时&#xff0c;list数组须为偶数 &#xff08;1&#xff09;pages.json "tabBar": {"custom": true,"color": "#8F8F94",&q…

推荐网站(19)anytools图片分辨率处理网站

今天&#xff0c;我要向您推荐一个非常实用的在线图片处理工具网站——AnyTools。这个网站提供了一站式的图片分辨率处理服务&#xff0c;并且具备添加各种过滤器的功能&#xff0c;非常适合需要快速调整图片大小和风格优化的场合。 多分辨率支持&#xff1a;用户可以自定义图片…

(南京观海微电子)——LVD屏介绍

LVDS&#xff08;Low Voltage Differential Signaling&#xff0c;即 低电压差分信号 &#xff09; 接口又称 RS-644 总线接口&#xff0c;是20世纪90年代才提出的一种 数据传输 和接口技术。 LVDS接口是美国NS美国国家半导体公司为克服以 TTL电平 方式传输宽带高码率数据时功…

Linux--线程的互斥

线程系列&#xff1a; 一、线程的认识&#xff1a;线程的认识&#xff1a;误进解线程的概念和线程的基本控制 二、Linux–线程的分离、线程库的地址关系的理解、线程的简单封装 线程的互斥 线程互斥&#xff08;Thread Mutual Exclusion&#xff09;是多线程编程中的一个重要概…