具身智能机器人实现新里程碑!新型3D世界模型问世

随着人工智能技术的不断进步,视觉-语言-动作(VLA)模型在机器人控制、自动驾驶、智能助手等领域展现出了广阔的应用前景。这类模型能够将视觉、语言、动作等多模态信息进行融合,实现从感知到决策的端到端学习。然而,现有的VLA模型大多基于二维视觉输入,缺乏对三维物理世界的深入理解和交互能力。此外,它们往往采用从感知到动作的直接映射方式进行决策,忽略了复杂环境动态和行动后果之间的关联。这与人类先建立内在世界模型,再基于想象和预演来规划行动的认知过程存在明显差异。

为了构建更接近人类认知的VLA模型,来自马萨诸塞州大学阿默斯特分校、MIT等机构的提出了3D-VLA,这是一种新型的、具有里程碑式意义的具身基础模型(embodied foundation model),能够通过生成式世界模型无缝连接三维感知、推理和行动!与之前的工作不同,3D-VLA在视觉-语言大模型(VLM)中引入了3D特征,使其能够直接对三维场景进行理解和交互。同时,该模型还具备目标导向的多模态生成能力,能想象未来状态并据此指导动作规划。这一创新框架有望在机器人操控、虚拟助手、元宇宙等场景中得到广泛应用。

论文地址: https://arxiv.org/abs/2403.09631

▍一种新颖的3D视觉-语言-动作生成模型

3D-VLA的核心是建立一个通用的生成式世界模型,将3D感知、推理、预测和规划有机结合。具体而言,该模型以3D-LLM(3D大语言模型)为骨干,通过在其词表中引入一系列交互令牌,如场景、物体、动作等,增强了模型与3D环境互动的能力。在处理输入时,模型先将RGB图像或视频转换为深度图和点云等3D表征,提取关键物体的三维边界框等语义信息。基于这些3D特征,模型能执行空间推理、回答问题、生成目标等多种下游任务。

值得一提的是,3D-VLA还融合了扩散模型来实现多模态目标生成。通过预训练RGB-D到RGB-D、点云到点云的扩散模型,并用对齐器将其与语言编码器的输出对齐,3D-VLA能根据指令灵活地想象未来图像、深度图、点云等表征。相比从高维潜空间采样,这种可控的目标生成方式极大提升了规划的可解释性和针对性。在后续的决策阶段,代理将生成的目标重新输入世界模型,迭代预测和优化行动序列,最终输出可执行的机器人控制指令。

在这里插入图片描述

总的来说,3D-VLA开创了VLA模型与三维世界交互的新范式,使其更贴近真实环境中感知、思考和行动的流程。通过3D感知、多模态推理、目标想象、动作规划的无缝衔接,该模型在建模物理常识、因果关系、时序依赖等方面展现出了初步的类人智能特征。未来,这一具身基础模型有望进一步扩展到实际机器人系统和虚拟人交互中,推动人工智能在环境适应、任务泛化、快速学习等方面的突破。

▍大规模3D具身指令数据集的构建

训练3D-VLA这样大规模的生成式世界模型,离不开海量的多模态数据支持。然而,现有的VLA数据集大多聚焦在视频-文本对上,缺乏精细的3D标注。为此,研究者们从公开的机器人操控、人体-物体交互等数据集中,自动化地提取了丰富的3D-语言-动作三元组。

具体而言,他们先利用ZoeDepth等方法从RGB视频中估计深度信息,将其还原为点云;接着采用基于Grounded-SAM的目标检测模型获取物体的3D边界框;并通过光流估计、遮挡分析等手段从视频中确定关键帧作为子目标。-cloud>等特殊令牌标记图像内容。最终,该团队构建了一个包含200万数据对、涵盖目标检测、动作生成、多模态对齐等10多个任务的3D具身指令数据集。如此规模和质量的数据集,为3D-VLA的训练和评估提供了坚实基础。

在这里插入图片描述

▍交互令牌和扩散模型的引入

传统的VLM主要通过文本和图像特征的交叉注意力实现多模态对齐。为了更好地建模3D环境,3D-VLA在其语言编码器中引入了一系列特殊的交互令牌。例如,用、标记输入的三维场景,用、突出关注的物体,以及用[action]、[/action]标识执行的动作等。这些可解释的令牌使得模型能够灵活地关联3D环境要素,动态地调整注意力机制。此外,为了赋予世界模型目标导向的想象能力,研究者将DDPM、Stable Diffusion等扩散模型的生成范式引入其中。通过在大规模3D数据上预训练从RGB-D到RGB-D、从点云到点云的扩散模型,并学习语言-视觉-动作三者的联合分布,3D-VLA能根据输入的文本指令和环境表征,直接采样生成可感知的未来状态。在推理阶段,该模型还设计了一个对齐器模块,用于在隐空间中动态地对齐扩散解码器和语言编码器的输出。这使得模型能灵活地插入不同形式的subgoal,并自适应地调整输出模态。

在这里插入图片描述

▍实验结果

在模型训练和评估中,研究者在3D-VLA和多个SOTA的VLA基线模型上进行了广泛的实验。一方面,在传统的具身问答、视觉定位、指令生成等理解型任务上,3D-VLA的各项指标都大幅领先于BLIP2、OpenFlamingo等视觉语言模型。以视觉问答为例,3D-VLA在对话式VQA和视觉推理VQA上的TOP-1准确率分别达到了65.8%和59.3%,相比BLIP2提升了4.5%和6.2%。这表明融入三维表征和空间推理能力,能显著提升模型对场景的语义理解。在指令生成任务中,3D-VLA生成的任务描述在流畅性、信息完整性等人工评估维度上也全面超越基线方法。

在这里插入图片描述

另一方面,研究者还设计了一系列新颖的生成型任务来考察3D-VLA的规划和想象能力。在目标深度图生成中,该模型根据输入RGB图像和目标文本,重构出了形状、位置、视角基本正确的深度表征。在机器人动作规划任务中,3D-VLA先根据指令预测3D目标场景,并用此作为subgoal进行路径搜索和运动规划,最终生成可执行的低层控制指令。在三个具身交互数据集上的测试显示,该模型完成任务的成功率达到85%以上,大幅超过了传统的VLA规划算法。

在这里插入图片描述

这些实验结果充分证明了3D-VLA在感知、推理、规划等认知能力上的优势。通过从大规模3D-语言-动作数据中学习物理和语义知识,并将其编码为通用的世界模型,该框架能够在多个应用场景中实现较好的任务迁移和零样本泛化能力。

在这里插入图片描述

▍结语与展望

3D-VLA的提出标志着VLA模型向三维世界迈进了关键一步。通过将视觉-语言大模型与3D表征、扩散生成等前沿技术相结合,该框架初步实现了从3D感知到规划的端到端建模。一方面,模型能理解和推理三维场景,回答空间指令;另一方面,它还能想象目标状态,并用生成的subgoal来指导行动序列的规划。这种高度整合的世界模型极大拓展了VLA的应用边界,为构建更智能、更鲁棒的具身智能体铺平了道路。

当然,3D-VLA仍有不少改进空间。首先,如何在保证语义对齐的前提下,进一步提升3D感知和生成的效果,是一个值得研究的问题。其次,在实际机器人系统中,模型输出的离散动作令牌需要解码为连续控制,这需要与运动规划等模块进行更紧密的适配。此外,3D-VLA还需要在更大规模、更多样化的数据集上进行训练,以增强知识的丰富性和鲁棒性。

展望未来,3D-VLA有望在更多垂直领域得到应用和创新。在家庭服务机器人中,该模型可作为高层控制器,感知、推理家居环境,并规划执行日常家务。在工业无人机巡检等任务中,3D-VLA可根据用户指令,自主地对关键部件进行定位、检测和分析。在虚拟助理和元宇宙场景中,具备三维世界模型的对话代理将能提供更自然、更具情境感知力的交互体验。总的来说,3D-VLA代表了VLA模型发展的新方向,虽然尚处于起步阶段,但其在机器人、智能助理、虚拟现实等领域已初现广阔的应用前景。相信随着技术的不断进步,这一赋予机器以三维想象力的框架,将为人机协作开辟更多可能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/525524.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python基础】生成器

文章目录 [toc]什么是生成器生成器示例生成器工作流程生成器表达式send()方法和close()方法send()方法close()方法 个人主页:丷从心. 系列专栏:Python基础 学习指南:Python学习指南 什么是生成器 在Python中,使用生成器可以很方…

Longan Pi 3H 开发板体验

Longan Pi 3H 开发板体验 开箱内容 打开包装,你可以看到以下物品 一个Longan Pi 3H盒子Longan Pi 3H开发板 产品基本介绍 Longan Pi 3H 是基于 Longan Module 3H 核心板的 ARM Linux 开发板,以 H618 (Quad core ARM Cortex-A531.5Ghz , 64-bit) 为主控…

合并主分支到子分支

参考:【Git】合并分支出现 Please enter a commit message to explain why this merge is necessary.-CSDN博客 git 如何将主分支(master)合并到子分支上_git 将主分支合并到子分支-CSDN博客 1、先切换到主分支master git checkout master 2、把主分支代码拉到本地…

小程序实现订阅功能和测试发送订阅信息

现在一次性订阅是只能用户点一次才能发送一次,而针对长期模板只有规定的几种类目政务、民生、交通等等的才可以,所以说感觉这功能其实已经不是很适合使用了,只适合一些特别的场景才可以使用。 地址:https://developers.weixin.qq…

【排列回溯】Leetcode 46. 全排列 47. 全排列 II

【排列回溯】Leetcode 46. 全排列 47. 全排列 II 46 全排列——used数组上下层保证不取重复的即可47. 全排列 II——used去重上下层,再去重本层重复元素 46 全排列——used数组上下层保证不取重复的即可 ---------------🎈🎈题目链接&#x…

2024年面试AI编译器岗经验总结

面试经历: 面试中必备的知识: 1.用C++实现一个卷积 (图解)一步一步使用CPP实现深度学习中的卷积 - GiantPandaCVGiantPandaCVhttp://giantpandacv.com/academic/%E7%AE%97%E6%B3%95%E7%A7%91%E6%99%AE/%E5%B0%BD%E8%A7%88%E5%8D%B7%E7%A7%AF%E7%A5%9E%E7%BB%8F%E7%BD%91%E…

Springboot引入swagger

讲在前面&#xff1a;在spring引入swagger时&#xff0c;由于使用的JDK、Spring、swagger 的版本不匹配&#xff0c;导致启动报错&#xff0c;一直存在版本依赖问题。所以在此声明清楚使用版本。JDK 1.8、Spring boot 2.6.13、 Swagger 2.9.2。 引入maven依赖 <dependency&…

Mysql【索引覆盖、索引下推、索引合并、索引跳跃】介绍

索引覆盖、索引下推、索引合并、索引跳跃都是Mysql对索引的优化手段&#xff0c;它们的思想就是尽量让查询数据走索引&#xff0c;那它们有什么区别呢&#xff1f; 一、首先介绍一下MySQL体系结构 上图来自MySQL官方文档。 通常把MySQL从上至下分为以下几层&#xff1a; MySQ…

备考ICA----Istio实验18---单集群中部署多个Istio控制面

备考ICA----Istio实验18—单集群中部署多个Istio控制面 单个 Kubernetes 控制面以及多个 Istio 控制面和多个网格。通过 Kubernetes 命名空间和 RBAC 实现软多租户业务隔离。 1. 环境准备 1.1 创建2个命名空间 kubectl create ns usergroup-1 kubectl label ns usergroup-…

外包干了6天,技术明显进步

先说一下自己的情况&#xff0c;本科生&#xff0c;2019年我通过校招踏入了南京一家软件公司&#xff0c;开始了我的职业生涯。那时的我&#xff0c;满怀热血和憧憬&#xff0c;期待着在这个行业中闯出一片天地。然而&#xff0c;随着时间的推移&#xff0c;我发现自己逐渐陷入…

探索Kubernetes的大二层网络:原理、优势与挑战

在云原生领域&#xff0c;Kubernetes (K8s) 已经成为容器编排的事实标准☁️&#x1f4e6;。为了支撑其灵活的服务发现和负载均衡&#x1f50d;&#x1f504;&#xff0c;K8s采用了大二层网络的设计理念&#x1f578;️。本文将深入探讨大二层网络的工作原理、带来的好处✨&…

在线JSON工具

功能支持 ctrls json格式化游览器本地保存ctrla ctrlc 自动检测选中范围是否是全选&#xff0c;然后按照格式化方式添加到粘贴板中json 粘贴JSON自动格式化json可视化修改json压缩复制json层级折叠json关键key 搜索(自动提示高亮)满足某些近视的可以自行调整字体大小, 并且会游…

敦煌网、速卖通、国际站铺需要自养号补单来稳定出单率吗?

亚马逊、速卖通、Lazada、shoppe、速卖通、敦煌网、Temu、shein、美客多、阿里国际、卖家如何保证店铺出单稳定?在竞争激烈的平台上&#xff0c;保持店铺的稳定出单是每个卖家都追求的目标。为了实现这一目标&#xff0c;卖家需要综合考虑产品、运营、客户服务等多个方面的因素…

推动科技创新润德生物邀您到场参观2024第13届生物发酵展

参展企业介绍 山东润德生物科技有限公司成立于2014年10月17日&#xff0c;是一家围绕生物制品的研发、生产、营销、国际贸易、技术服务为核心业务的国家高新技术企业&#xff0c;近年来荣获国家制造业单项冠军示范企业、国家级绿色工厂、国家知识产权优势企业、国家工业产品绿…

Nacos Namespace 未授权访问漏洞

Nacos Namespace 未授权访问漏洞 问题 nacos 源码启动&#xff0c;发现即使开启了鉴权&#xff1a;nacos.core.auth.enabledtrue&#xff0c;未登录情况下&#xff0c;命名空间列表接口仍旧能查询到数据 鉴权逻辑 通过**AuthFilter **进行权限校验判断方法上是否存在注解 …

电脑硬件 - 硬盘

硬盘是一台电脑的数据中心&#xff0c;存放着我们用户的所有文件和数据 对于一块硬盘&#xff0c;其重要指标&#xff1a;顺序读写能力&#xff0c;随机读写能力 顺序读写影响大文件的拷贝&#xff0c;随机读写影响大量小文件的拷贝&#xff08;打开软件的快慢&#xff09; 因…

Chatgpt掘金之旅—有爱AI商业实战篇|内容策展业务|(八)

演示站点&#xff1a; https://ai.uaai.cn 对话模块 官方论坛&#xff1a; www.jingyuai.com 京娱AI 一、AI技术创业内容策展业务有哪些机会&#xff1f; 人工智能&#xff08;AI&#xff09;技术作为当今科技创新的前沿领域&#xff0c;为创业者提供了广阔的机会和挑战。随着…

蓝色系UX/UI设计求职面试作品集模版figmasketchPPT可编辑源文件

页面数量: 20P 页面尺寸:1920*1080PX 交付格式&#xff1a;figma、sketch、PPT 赠送文件&#xff1a;24款高质量样机&#xff08;PSD格式&#xff09; 该作品集虽然只有20页&#xff0c;但可根据需求复制作品集里已有的页面作为模版来扩展您的设计项目 该作品集模版可编辑可修…

蓝桥杯嵌入式备考笔记

这里写目录标题 keil配置LED-KEY-LCDledkeyLCD最多21位 RTCPWM捕获占空比ADCI2C按键长按uartPWMDAC双击高亮EEp初始化LED闪烁时间倒计时 keil配置 LED-KEY-LCD 留下这几个 按键 创建俩个文件写代码&#xff0c;记得把这两个文件加进工程 led uwTick 1ms执行一次 写错…

基于springboot实现教师人事档案管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现IT技术交流和分享平台系统演示 摘要 我国科学技术的不断发展&#xff0c;计算机的应用日渐成熟&#xff0c;其强大的功能给人们留下深刻的印象&#xff0c;它已经应用到了人类社会的各个层次的领域&#xff0c;发挥着重要的不可替换的作用。信息管理作为计算…