3D分割新范式!浙大开源Reasoning3D:通过大视觉语言模型搞定3D部件分割

文章链接:https://arxiv.org/pdf/2405.19326

项目链接:http://tianrun-chen.github.io/Reason3D/

今天和大家分享的是一项新任务:Zero-Shot 3D 推理分割,用于对象的部件搜索和定位。这是一种超越了以往类别特定的3D语义分割、3D实例分割和开放词汇3D分割的全新3D分割模式。本文设计了一种简单的baseline方法——Reasoning3D,具有理解和执行复杂命令的能力,能够对3D网格的特定部分进行细粒度的分割,同时具备上下文意识和推理答案以实现交互式分割。

具体而言,Reasoning3D利用了一个预训练的2D分割网络,并由大语言模型(LLMs)驱动,以Zero-Shot的方式解释用户输入的queries。先前的研究表明,大规模预训练赋予基础模型先验的世界知识,使其能够理解复杂命令,研究者们可以利用这一能力在有限的3D数据集上实现“分割任何东西”。

实验表明,该方法具有广泛的适用性,能够有效地基于隐式文本queries定位和突出3D对象的部分(在3D网格中),包括这些关节3D对象和现实世界扫描数据。Reasoning3D还可以生成与这些3D模型及其分解对应的自然语言解释。此外,免训练方法允许快速部署,并作为未来研究部件级3D(语义)对象理解的通用基线,在机器人技术、物体控制、部件组装、自动驾驶应用、增强现实和虚拟现实(AR/VR)以及医疗应用等各个领域中具有应用前景。

动机及创新点

最近,大型视觉模型(LVLM)在理解2D图像,在需要复杂推理,多转向对话和解释性答案的任务方面表现出了显着的功能[28,65,76]。本文的目标是将它们的能力扩展到3D领域,相信这种过渡具有很大的实际价值 - 永远不要忘记我们生活在3D世界中!

在这里,受解决了3D生成中类似挑战的研究[16,17,52,54,60,72]的启发——在2D中使用网络模型,然后将一些信息提升到3D,本文利用现成的2D模型以zero-manner执行任务的方法。这种方法,称之为Reasoning3D,通过其无训练特性和2D预训练,使能够规避大量3D数据集的稀缺性和高计算成本所带来的限制。

具体而言,Reasoning3D方法涉及从多个观点呈现3D模型,并根据给定的queries输入将预训练的推理细分网络应用于每个2D视图。通过这样做,为每个视角生成了分割mask和随附的文本解释。然后将这些单独的mask和解释融合在一起,以产生全面的3D分割mask(标签分配给了3D模型的顶点)。已经在野外的各种模型中评估了Reasoning3D方法,无论有没有纹理。还测试了现有的开放式视频分割基准测试中的方法,该基准验证了方法的有效性。虽然Reasoning3D是一种简单的基线方法,但认为它是研究人员探索和扩展3D部分细分未来的好起点。

方法

如图2所示,Reasoning3D首先将网格输入提供给渲染器进行视角渲染,生成每个相应视角的Face ID。接下来,渲染后的视角和用户输入的提示通过预训练的2D推理分割网络进行处理,该网络分割图像以提取所需部分并输出解释。最后,利用每个视角及其对应的网格Face ID之间的映射关系,通过专门设计的多视图融合机制将分割部分重新构建回网格上。

多视图图像渲染和Face ID生成

人类与3D环境的交互通常涉及动态探索,结合来自不同角度的视角以构建一个连贯的3D理解,而不是瞬间同化一个3D环境。Reasoning3D主张通过多视角图像进行3D推理。这一策略还利用了视觉-语言模型中广泛的2D预训练,类似于之前利用预训练视觉-语言模型进行3D视觉任务的方法。此过程的输入是网格 F = { f n } n = 1 N F = \{f_n\}^N_{n=1} F={fn}n=1N,它由N组面 f n f_n fn组成。在这个渲染过程中,3D模型被转换为来自不同视角的多个2D图像 X i m g = { x i } i = 1 11 X_{img} = \{x_i\}^{11}_{i=1} Ximg={xi}i=111。除了生成这些2D图像外,渲染过程还会为每个图像生成相应的Face ID。这些Face ID是2D图像和原始3D网格之间的重要链接。具体来说,它们形成一个映射矩阵 W p f W_{pf} Wpf,将2D图像中的每个像素 P = { p i } i = k M m P = \{p_i\}^{Mm}_{i=k} P={pi}i=kMm连接到3D网格上的特定face f n f_n fn,确保2D和3D数据保持准确对齐。该过程的公式如下:

其中,P表示渲染图像中的像素, f n f_n fn表示从视角看到的3D网格的面。由k表示的Face ID W p f W_{pf} Wpf 连接了渲染图像中的像素P和当前视图中可见的3D网格面fn。

基于用户输入提示的推理和分割

与之前的方法(例如CLIPSeg,LSeg和GLIP)可以处理开放词汇的明确提示不同,Reasoning3D旨在处理隐含提示,例如“你能分割出包含‘笼中鸟’的图像的适当部分吗?”在这里,利用大型基础模型的最新进展来执行这一多模态推理任务。

根据Lai等人[28]的研究,研究者们在原始LLM词汇中扩展了一个新标记<SEG>,表示请求分割输出。给定用户输入的提示问题 X q u e s t i o n X_{question} Xquestion和输入图像 X i m g X_{img} Ximg,它们被输入到多模态大语言模型(LLM) F M M F_{MM} FMM中,随后输出文本响应 Y a n s w e r Y_{answer} Yanswer。该过程的公式如下:

接下来,生成与输入图像对应的分割mask 涉及一系列步骤。首先,研究者们从输出的文本响应 Y a n s w e r Y_{answer} Yanswer中提取与<SEG>标记对应的嵌入向量 E ^ a n s w e r \hat E_{answer} E^answer。这一步能够从语言提示中捕捉与分割任务相关的信息。随后,通过 M L P γ MLP \gamma MLPγ投影层处理 E ^ a n s w e r \hat E_{answer} E^answer以获得特征向量 E a n s w e r E_{answer} Eanswer。同时,利用视觉主干网络 F v b F_{vb} Fvb,从视觉输入 X i m g X_{img} Ximg中提取视觉嵌入 E i m g E_{img} Eimg

最后将特征向量 E a n s w e r E_{answer} Eanswer和视觉嵌入 E i m g E_{img} Eimg输入到解码器 F d e c F_{dec} Fdec中。解码器 F d e c F_{dec} Fdec利用这些特征生成最终的分割mask M及其每个mask 的置信度分数 S M S_M SM。这产生了基于语言提示和视觉信息的分割结果,每个分割mask 都有相应的置信度分数和对应的答案文本。解码器的详细结构遵循Segment Anything。该过程的公式如下:

3D中的mask 融合和细化

需要将获得的2D分割mask 在3D空间中融合,以获得所需的3D分割结果。研究者们发现,直接合并多视图分割的结果可能由于累积误差和缺乏全面的多视图3D信息而导致结果不连贯和质量不高。因此,设计了一个多阶段的融合和细化机制,以充分利用语义信息和视角信息,从而获得更好的3D分割结果。

首先,使用top-k方法过滤生成的mask ,以减少2D分割中的错误。具体来说,如果两个mask 之间的面积差异大于某个阈值T,选择k=1,表示这是想要的mask (最显著的部分),然后生成一个与mask匹配的边界框;否则,选择多个mask 并生成多个边界框。经过过滤的top-k mask S M S_M SM、相应的置信度分数SM以及Face ID将用作融合算法的输入。使用映射关系 W p f W_{pf} Wpf将2D图像mask 区域映射到3D网格的面上,得到初步的分割网格。请注意,只有在生成的边界框内的mask才参与融合过程。

按照[1]的方法,通过Gaussian Geodesic Reweighting平滑和细化分割边界,减少噪声和错误。随后,应用可见性平滑技术消除由视角变化引起的不连续性,确保分割网格从各个角度看起来自然连贯。最后,使用全局过滤策略过滤出置信度分数低的mask区域。

具体来说,对于每个2D mask M,估计其中心面 G i j G^j_i Gij,其中i表示视角,j表示视角内的mask 。对于当前视角下的3D网格,检索与当前mask 对应的所有面的顶点,并计算它们的面积加权平均值。然后将这个平均点投影到点F上,包含此投影的面 F i j F^j_i Fij被识别为当前视角和mask 的中心面。随后,计算从中心面 G i j G^j_i Gij到所有面 f ∈ F i j f \in F^j_i fFij的测地距离向量 d i j ∈ R N d^j_i \in R^N dijRN。这里,N代表当前mask的网格中的面数。

其中, g d i s t ( , ) gdist(,) gdist(,) 表示使用网格 F F F上的热方法计算的两个面的测地长度。网格面之间的测地距离测量的是沿表面从一个面到另一个面的路径长度。

接下来,在距离上拟合高斯分布,并根据每个面与大写面之间的测地距离计算相应的概率密度值。

其中, μ i j μ^j_i μij σ i j σ^j_i σij 分别表示到 d i j d^j_i dij 的距离的均值和标准差。随后,统计每个视图中网格中每个面被分割的次数 n。最后,将每个面的频率乘以相应的概率密度,再乘以相应的置信度分数 S M S_M SM,以获得每个网格面的最终置信度。

然而,仅使用上述方法可能会导致中心面 G i j G^j_i Gij 周围的权重不足,特别是在面之间的平均距离较大的区域。为了解决这个问题,研究者们计算其局部邻域,其中邻居由网格连接性确定:如果两个面至少共享一个顶点,则面 m 被认为是面 n 的邻居。为此,构建了一个 q q q 阶邻域 N q ( n ) ( q = 5 ) N_q(n) (q = 5) Nq(n)(q=5),具体如下。对于face m ∈ F m \in F mF,如果在图上存在一条路径连接 m 和 n,并且路径上最多有 q 个其他顶点,则将face n ∈ F n \in F nF 包含在邻域中。

最后,采用全局过滤,使用计算的阈值过滤出置信度分数较低的mask 区域。该阈值是为每个面计算的平均置信度分数。

实验

开放词汇分割的对比实验

由于没有现有的Reasoning 3D分割方法可以进行比较,首先按照SATR中的协议使用相同的渲染协议,将Reasoning3D与现有的开放词汇3D分割模型(如SATR和3DHighlighter)进行了比较。正如下表1和表2所示,尽管Reasoning3D并不是为开放词汇分割任务设计的,也没有进行微调或特别设计的结构,但在开放词汇分割基准测试中,Reasoning3D仍然取得了竞争性的表现。

Reasoning3D分割的性能

与现有的开放词汇分割方法相比,Reasoning3D具有更好的特性,因为Reasoning3D可以使用自然语言作为输入信息。LLM解析自然语言并直接给出分割结果,这使得计算机与人之间的交互体验更加自然和方便。下图4中展示了一个示例。模型来自FAUST数据集。

在开放词汇分割中,只给出了明确的分割命令,因此Reasoning3D的潜力还没有被充分利用。随机收集了来自3D建模网站SketchFab的3D模型,并使用这些实际中的3D模型进行评估,并让志愿者给出“隐含”的分割命令。图6和图1展示了一些示例。这些示例表明Reasoning3D具备提供深入推理、3D理解、部分分割和对话能力的能力。模型可以输出需要的分割mask和解释。

为了更好地让用户与本文的系统进行交互,还设计了一个用户界面(UI),以便用户可以输入任意3D模型及其所需的提示来分割所需区域。(图6)此UI也将开源。

结论

本文介绍了一项新任务:zero-shot 3D推理分割,用于在对象内进行部件搜索和定位。这种新方法超越了传统的特定类别的3D语义分割、3D实例分割和开放词汇3D分割的限制。本文开发了Reasoning3D,一个简单而有效的基线方法,可以理解并执行复杂的命令,以对3D网格的特定部分进行分割,具有上下文理解和推理输出,用于交互式分割。Reasoning3D利用预训练的2D分割网络与大语言模型(LLM)结合,以zero-shot方式解释用户queries。先前的研究表明,广泛的预训练使基础模型具备了对世界的广泛理解能力,使它们能够处理复杂的命令。Reasoning3D利用了这一能力,可以在有限的3D数据集上进行有效的3D分割,使其成为一种资源高效的解决方案。

实验表明,Reasoning3D具有可泛化性,并能够根据隐含的文本query准确地定位和识别3D物体的部件。这包括关节式3D物体和真实世界的扫描数据。此外,Reasoning3D可以为分割的3D模型及其组件生成自然语言解释。本文方法的无需训练的特性有助于快速部署,并为部分水平的3D对象理解研究提供了强大的基线。这在各个领域都有潜在的应用,例如机器人技术、物体控制、部件组装、自动驾驶、增强和虚拟现实(AR/VR)以及医学领域。

参考文献

[1] Reasoning3D - Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D
Reasoning Part Segmentation via Large Vision-Language Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/678359.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

韩语“对不起”怎么说?柯桥留学韩语培训

一、引言 在学习韩语的过程中&#xff0c;掌握如何表达歉意是非常重要的一部分。无论是日常交流还是正式场合&#xff0c;礼貌地说“对不起”能展现出你的修养和对他人的尊重。本文将详细介绍韩语中表示“对不起”的几种常用表达方式及其使用情境。 二、主体内容 1、详细解释 标…

冯喜运:6.4汇市观潮:今日黄金原油行情走势及操作策略

【黄金消息面分析】&#xff1a;在全球经济的波动中&#xff0c;美元和黄金市场的表现一直是投资者关注的焦点。最近&#xff0c;市场情绪和经济数据的波动对这两个市场产生了显著的影响。周二欧市早盘&#xff0c;现货黄金价格出现短线回调&#xff0c;金价跌破2340美元/盎司&…

【MyBatisPlus】MyBatisPlus条件查询

【MyBatisPlus】MyBatisPlus条件查询 文章目录 【MyBatisPlus】MyBatisPlus条件查询1、查询条件方式2、组合条件3、NULL值处理4、查询投影-设置【查询字段、分组】5、查询条件6、字段映射与表名映射问题导入 1、查询条件方式 MyBatisPlus将书写复杂的SQL查询条件进行了封装&…

基于ESP32-S3芯片的通用型无线模组方案,启明云端乐鑫一级代理商

随着物联网技术的飞速发展&#xff0c;智能设备正以前所未有的速度进入到我们的日常生活中&#xff0c;AIoT&#xff08;人工智能物联网&#xff09;已成为智能家居、智能设备、智能安防等领域的核心技术。 作为乐鑫一级代理商&#xff0c;基于ESP32-S3芯片&#xff0c;启明云…

武汉凯迪正大—开关柜综合试验台 通电试验车 开关柜通电测试台

产品概述 ​武汉凯迪正大KDGK-II 成套综合测试台用于高低压开关柜生产厂家对所生产的高低压开关柜进行出厂前的各项通电试验。它能提供各种交、直流电源&#xff0c;便于对开关柜的检测&#xff0c;提高工作效率。 技术参数 输入电源&#xff1a;三相四线AC380V 输出电压及电…

【JAVA架构】开发在线开具电子发票系统

【JAVA架构VUE】开发在线开具电子发票系统 对接税务厂家接口 实现销售发票开具 进项发票在线拉取 红冲发票在线开具 详细内容可以关注本人专栏等 销售发票开具 开具发票 进项发票在线拉取 红冲发票在线开具

YoloV9改进策略:Block篇|基于FasterNet的Block改进|性能和精度得到大幅度提高(独家原创)

本文使用FasterNet的Block改进YoloV9,对FasterNet的Block做了适当的修改,使其能够适配YoloV9,可以替换YoloV9的Bottleneck模块。 论文翻译:《CVPR2023年最新的网络,基于部分卷积PConv,性能远超MobileNet,MobileVit 为了设计快速神经网络,许多工作都专注于减少浮点运算…

高考杂志《高考》杂志社高考杂志社2024年第13期目录

高考论坛 新高考背景下高中生物核心素养培养的策略研究 胡世敏; 3-5《高考》投稿&#xff1a;cn7kantougao163.com 对新高考背景下职业生涯规划教育发展的思考 李昉睿; 6-8 基于新高考的高中语文现代诗歌教学探究 申艳; 9-11 “三新”改革下培养高中生英语核心…

A6110 轴相对振动监控器AMS 6500机械健康监测器

轴相对振动监控器的设计具有极高的可靠性 工厂最重要的旋转机械。此单槽显示器与一起使用 其他AMS 6500监视器构建一个完整的API 670机械保护监视器。 应用包括蒸汽、气体、压缩机和水力涡轮机械。 轴相对振动监控模块的主要功能是 通过比较准确监测轴相对振动并可靠地保护机械…

Vxe UI vue 使用 VxeUI.previewImage() 图片预览方法

Vxe UI vue 使用 VxeUI.previewImage() 图片预览方法的调用 查看 github 代码 调用全局方法 VxeUI.previewImage() 参数说明&#xff1a; urlList&#xff1a;图片列表&#xff0c;支持传字符串&#xff0c;也可以传对象数组 [{url: xx’l}] activeIndex&#xff1a;指定默…

OceanBase 4.3.0 列存引擎解读:OLAP场景的入门券

近期&#xff0c;OceanBase 发布了4.3.0版本&#xff0c;该版本成功实现了行存与列存存储的一体化&#xff0c;并同时推出了基于列存的全新向量化引擎和代价评估模型。通过强化这些能力&#xff0c;OceanBase V4.3.0 显著提高了处理宽表的效率&#xff0c;增强了在AP&#xff0…

excle中数据分析,excle导入用sql简单处理

前言&#xff1a; 办法一&#xff1a;直接用excle导入db就行&#xff0c;如果excle导如db不能用&#xff0c;就用笨办法下面这个方法去做 1、从系统中导出excle 2、db中插入相应的表和标题 3、先手动插入条件&#xff0c;把insert语句复制出来 INSERT INTO test.test (orders…

AI预测体彩排3采取888=3策略+和值012路或双胆下一一缩定乾坤测试6月4日预测第1弹

哈喽&#xff0c;各位亲爱的小伙伴&#xff0c;咱们从今天开始进行新一轮的测试验证&#xff0c;在正式开始前&#xff0c;咱们先对上一个周期的10次测试做一个总结。经过对一个周期&#xff08;10天&#xff09;的测试&#xff0c;我的AI模型对于8码定位的命中率为70%&#xf…

AI办公蓝桥杯全国总决赛获奖心得分享

从校赛到省赛&#xff0c;再到全国总决赛&#xff0c;一路走来&#xff0c;见证了自己的成长与蜕变。这篇文章将分享我在蓝桥杯大赛中的经历与心得&#xff0c;希望对正在奋斗路上的你有所启发和帮助。 1&#xff0c;从平凡到闪耀&#xff1a;自我成长的历程 最开始&#xff…

科技云报道:走出“实验室”,GenAI迎来关键拐点

科技云报道原创。 对传统产业来说&#xff0c;GenAI是一场“哥白尼式的革命”&#xff0c;它改变了传统的业务模式&#xff0c;开启了人类与AI合作的新纪元。基于AI助手和大语言模型&#xff0c;企业能够实现智能运营的目标。 如果说&#xff0c;2022年是AI大模型元年&#x…

mysql终端使用中的错误

在这个过程中&#xff0c;出现了几个问题&#xff1a; 在退出 MySQL 后&#xff0c;你尝试再次使用 mysql 命令登录&#xff0c;但系统提示找不到该命令。这可能是因为 MySQL 的执行文件路径没有加入到系统的环境变量中。你可以尝试使用绝对路径来运行 mysql 命令&#xff0c;或…

教师产假多少天

教师产假究竟有多少天&#xff1f;这个问题或许在您计划家庭时显得尤为重要。教师作为国家公职人员&#xff0c;享有法定的产假权益。 根据规定&#xff0c;女职工的产假一般为98天&#xff0c;包括产前15天和产后83天。但请注意&#xff0c;这一标准并非全国统一&#xff0c;不…

学习算法笔记(7.5)-贪心算法(股票售卖问题)

学到这里的大家应该都非常清楚贪心算法到底是怎么一回事了&#xff0c;说白了就是动态规划的一种特例&#xff0c;没有动态规划的使用范围广&#xff0c;但是效率却比动态规划效率高&#xff0c;贪心算法不考虑之前的情况&#xff0c;只考虑当前的最优选择以期达到最优的结果。…

【python】成功解决“ModuleNotFoundError: No module named ‘IPython’”错误的全面指南

成功解决“ModuleNotFoundError: No module named IPython’”错误的全面指南 一、引言 在Python编程中&#xff0c;ModuleNotFoundError是一种常见的错误类型&#xff0c;它通常表明Python解释器无法找到你试图导入的模块。特别是当你遇到“ModuleNotFoundError: No module…

echarts图例formatter配置添加百分比

echarts图例如何添加百分比 const pieChart async () > {const myChart echarts.init(piepic.value)const piedata await getPieData(); // 等待数据返回myChart.setOption({title: {},grid: {},tooltip: {trigger: item,},legend: {top: middle,align:left,icon: circl…