腾讯提出的InstantMes,能够从单张图像快速生成高质量的三维网格模型。这项技术利用了前馈框架,结合了多视图扩散模型和基于大规模重建模型(LRM)的稀疏视图重建技术,极大地优化了3D资产的创建过程。
如上图所示,给定单个图像作为输入,InstantMesh框架可以在10秒内生成高质量的3D网格。
相关链接
项目:github.com/TencentARC/InstantMesh
论文:arxiv.org/abs/2404.07191
Demo:huggingface.co/spaces/TencentARC/InstantMesh
ComfyUI: https://github.com/jtydhr88/ComfyUI-InstantMesh
论文阅读
InstantMesh:使用稀疏视图大型重建模型从单个图像高效生成3D网格
摘要
我们提出InstantMesh,这是一个从单个图像中立即生成的即时3D网格生成的前馈框架,具有最先进的一代质量和明显的训练可伸缩性。通过协同基于LRM体系结构的现成多视频扩散模型的优势和稀疏视图重建模型,InstantMesh能够在10秒内创建不同的3D资产。
为了提高训练效率并利用更多的几何监督,例如深度和正常状态,我们将一个可区分的ISO地表提取模块集成到我们的框架中,并直接在网格表示方面进行优化。 公共数据集的实验结果表明,即时插入率明显优于其他最新的图像-TO3D基准,无论是定性和定量上。
方法
InstantMesh框架概述
给定一个输入图像,我们首先利用一个多视图扩散模型来合成在固定的相机姿势下的新颖视图。然后将生成的多视图图像输入到基于变换的稀疏视图大模型重建一个高质量的三维网格。
整个图像到3d的生成过程只需要大约10秒钟。通过集成一个等面提取模块,即FlexiCubes,我们可以有效地渲染三维几何形状,并应用深度等几何监督并直接在网格上进行法线表示来增强结果。
实验
与其他基线方法相比,InstantMesh生成的3D网格显示出更好的几何和纹理。因为它们重建了视图空间中的对象。InstantMesh的结果呈现在一个固定的仰角20度,而其他方法的结果是在固定的标高下呈现的0度。
使用不同稀疏视图重建模型变体的图像到3d生成结果。对于每个生成的网格,我们进行可视化 纹理渲染(上)和非纹理几何(下)。所有的图像渲染在一个固定的仰角20度。
ComfyUI版本
https://github.com/jtydhr88/ComfyUI-InstantMesh
结论
在这项工作中提出了InstantMesh,一个开源的即时图像到3d框架,利用基于转换器的稀疏视图大型重建模型来创建高质量的3D资产,从图像生成的a 多视图扩散模型。
建立在Instant3D框架,我们引入了基于网格的表示和额外的几何监督,显著提升训练效率与重建质量。我们在其他方面也做一些改进,比如数据准备和训练策略。
数据集的评估表明,InstantMesh优于其他最新的图像到3d的基线定性和定量。InstantMesh旨在为3D生成AI社区和授权做出实质性贡献的研究者和创造者。