1、ShapeLLM: Universal 3D Object Understanding for Embodied Interaction
中文标题:ShapeLLM: 用于具身交互的通用三维物体理解
简介:这篇论文介绍了ShapeLLM,它是专为具体交互设计的首个三维多模态大语言模型(LLM)。ShapeLLM利用三维点云和语言探索通用的三维物体理解。基于改进的3D编码器,ShapeLLM通过将ReCon扩展为ReCon ++,从多视角图像中提取几何信息,以实现更好的几何理解。通过将ReCon ++ 作为LLM的3D点云输入编码器进行训练,ShapeLLM 在构建的指令跟随数据上进行训练,并在新的人工策划的评估基准3D MM-Vet 上进行测试。ReCon ++ 和 ShapeLLM 在三维几何理解和语言统一的三维交互任务方面表现出最先进的性能,如具体的视觉基础。
原文地址:https://arxiv.org/abs/2402.17766v1
2、VRP-SAM: SAM with Visual Reference Prompt
中文标题:VRP-SAM: 带有视觉参考提示的 SAM
简介:这篇文章介绍了一种创新的视觉参考提示(VRP)编码器,它使得分割任何物体模型(SAM)能够利用注释的参考图像来作为分割的指导,从而形成了VRP-SAM模型。简而言之,VRP-SAM利用注释的参考图像来识别特定对象,并对目标图像中的这些特定对象进行分割。值得注意的是,VRP编码器支持各种参考图像的注释格式,包括点、框、涂鸦和掩模。通过扩展其通用性和适用性,同时保留SAM的优势,VRP-SAM提高了用户友好性。为了增强VRP-SAM的泛化能力,VRP编码器采用了元学习策略。为验证VRP-SAM的有效性,我们在Pascal和COCO数据集上进行了广泛的实证研究。值得一提的是,在可学习参数最少的情况下,VRP-SAM在视觉参考分割方面取得了最先进的性能。此外,VRP-SAM展现出强大的泛化能力,使其能够对未见过的对象进行分割,并实现跨领域分割。
原文地址:https://arxiv.org/abs/2402.17726v1
3、CAD-SIGNet: CAD Language Inference from Point Clouds using Layer-wise Sketch Instance Guided Attention
中文标题:CAD-SIGNet:使用逐层草图实例引导注意力从点云进行CAD语言推断
简介:这篇文章介绍了计算机辅助设计(CAD)领域中的逆向工程,虽然该领域尚未完全实现。其主要目标是在给定物理对象的3D扫描情况下,揭示CAD过程背后的设计细节。作者提出了CAD-SIGNet,这是一种端到端可训练的自回归架构,用于从输入点云中还原CAD模型的设计历史,包括一系列草图和挤出操作。该模型通过逐层交叉注意点云和CAD语言嵌入之间的视觉语言表示来学习。特别是,作者提出了一种新的草图实例引导注意(SGA)模块,以便更好地重建草图的细节。由于其自回归属性,CAD-SIGNet不仅能够在给定输入点云的情况下还原相应CAD模型的完整设计历史,还能提供多个可信的设计选择。这使得设计师可以在设计过程中提供多个下一步选择,从而实现交互式逆向工程场景。作者在公开可用的CAD数据集上进行了广泛实验,展示了他们的方法在两个设置中的有效性:完整设计历史还原和基于点云的条件自动完成。