DexVLA:通用机器人控制中具有插件式扩散专家的视觉语言模型

25年2月来自美的集团和华东师范的论文“DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control”。

让机器人能够在不同的环境中执行不同的任务是机器人学习的核心挑战。虽然视觉-语言-动作 (VLA) 模型已显示出可泛化机器人技能的前景,但要充分发挥其潜力,需要解决动作表示和有效训练方面的限制。当前的 VLA 模型通常侧重于规模化视觉-语言模型 (VLM) 组件,而动作空间表示仍然是一个关键的瓶颈。 DexVLA 框架,旨在提高 VLA 在不同机器人实施例中执行复杂、长期任务的效率和泛化能力。DexVLA 具有一种基于扩散的动作专家,可规模化到十亿个参数,专为跨具身学习而设计。一种具身课程学习策略促进有效的训练:(1) 在跨具身数据上对与 VLA 分离的扩散专家进行预训练,(2) 将 VLA 模型与特定具身对齐,以及 (3) 进行后训练以快速适应新任务。对多个实例(包括单臂、双手和灵巧手)进行全面的实验,证明 DexVLA 无需针对特定任务进行调整即可适应具有挑战性的任务,能够使用有限的数据在新实例上学习灵巧技能,并且能够仅使用直接语言提示完成复杂的长期任务(例如折叠衣物)。

DexVLA 如图所示:

请添加图片描述

让机器人能够在不同的环境中执行不同的任务是机器人技术面临的一个核心挑战。实现多功能性(即能够在不同的环境中解决各种任务,同时适应语言命令、环境限制和意外干扰)则更具挑战性。模仿学习 [26, 40, 24, 59, 58, 35],特别是通过视觉-语言-动作 (VLA) 模型(例如 [5, 7, 23, 20]),在实现可泛化的技能方面表现出了良好的前景。

然而,实现万能的机器人基础模型愿景,面临着持续的挑战。两个关键瓶颈阻碍进展:1)数据稀缺:最先进的模型,如 OpenVLA [23]/Octo [30],依赖于海量数据集,如 Open-X 实例数据集(4,000 小时)[31] 或更大的语料库,如 π0 [5] 使用的 10,000 小时数据集。通过人工演示收集此类数据成本极高,且劳动密集型 [13, 18, 51, 53]。(2)架构不平衡:当前的 VLA 模型通常优先规模化视觉-语言模型 (VLM) 组件,即 OpenVLA 使用 7B VLM,而 π0 使用 3B VLM。尽管通过互联网规模的数据预训练增强了视觉和语言理解,但 VLM 组件仍然与机器人动作的具身感觉运动环境脱节。

视觉-语言-动作模型。最近的研究重点是开发在日益广泛的机器人学习数据集上训练的通用机器人策略 [12、15、13、18、17、24、36、9、14]。VLA 模型 [23、5、33、50、7、62、60、16、2] 代表一种训练此类通用策略的有前途的方法。VLA 采用在大量互联网规模图像和文本数据上预训练的视觉-语言模型来控制机器人 [55]。这种方法有几个优点:利用具有数十亿个参数的大型视觉-语言模型主干,提供拟合大量机器人数据集的必要能力。此外,重用在互联网规模数据上预训练的权重可以增强 VLA 解释各种语言命令并推广到新目标和环境的能力。然而,目前的 VLA 模型并没有专门利用底层 VLM 的参数来学习灵巧的机器人技能。虽然有少数研究(如 π0 [5] 和 TinyVLA [50])引入外部动作专家来促进动作学习,但它们的训练流程仍然依赖于整个模型。另一个挑战是,即使是像 π0 这样先进的方法,尽管能够完成高度灵巧和长远的任务,也需要高级策略(如 SayCan [1])的帮助来将任务分解为子目标。这使 VLA 能够按顺序完成子任务。

扩散模型。扩散模型 [11, 32, 19] 已成为视觉生成的主导方法。扩散策略 [8] 成功地将扩散模型应用于机器人学习,展示了其对多模态动作分布进行建模的能力。后续研究进一步发展扩散策略 [61, 48, 34, 38, 41, 42, 3, 4, 10, 25, 37, 47, 29],将其应用于 3D 环境 [22, 57, 56, 54],扩展其功能 [63],提高其效率 [21, 34],并融入架构创新。有许多研究正在研究扩散 VLA 的使用 [50, 5, 49]。尽管现有模型在各种任务上都实现了强大的性能和泛化,但它们主要依赖于预训练的视觉-语言模型能力。

本文提出的 DexVLA 架构概述如图所示:

请添加图片描述

DexVLA 模型主要基于 Transformer 语言模型主干。遵循 VLM 模型的通用框架,用图像编码器将机器人的图像观察结果投影到与语言tokens相同的嵌入空间中。对于多个摄像机视图,这些视觉tokens是连接的。VLM 组件生成两个输出:推理tokens和动作 tokens。动作tokens通过投影模块传递,该模块由两个具有 LayerNorm 的线性层组成。该模块类似于 LLaVA [28] 等视觉-语言模型中设计的连接器,用于转换 VLM 的嵌入空间以符合动作专家的输入要求。推理tokens使用 FiLM 层注入策略模型,这些层缩放和漂移策略内投影层的参数。因此,该模型可以自主生成推理并利用扩散专家中的这种推理来指导动作生成。

按照标准的后融合 VLM 配方 [27, 28],图像编码器将机器人的图像观测嵌入到与语言tokens相同的嵌入空间中。进一步用机器人特定的输入和输出(即本体感受状态和机器人动作)增强这个主干。

构建扩散专家。由于动作专家主导机器人动作的学习过程,因此设计良好的神经架构对于更好的视觉运动策略学习至关重要。用 Scale Diffusion Policy (ScaleDP [63]),它是 Transformer 架构中 Diffusion Policy 的变型,其中 ScaleDP 的最大版本最多有 1B 个参数。然而,简单的 ScaleDP 不是为跨具身预训练而设计的。本文设计一个多头输出,以便在具有各种机器人配置的 ScaleDP 上进行预训练。每个头负责一个机器人配置。此设置类似于 Octo。

训练目标。给定一批输入序列,整体训练损失定义为扩散损失(L_diff)和下一个token预测(NTP)损失(L_ntp)的加权组合。

具身课程学习

课程学习是一种训练策略,其中系统以从简单到复杂的顺序学习任务,反映了人类获得技能的方式。三阶段训练策略实施具身课程,其中智体首先从跨具身数据学习可泛化的运动技能(第 1 阶段),然后适配其特定的物理形式(第 2 阶段),最后改进特定于任务的行为(第 3 阶段)。这反映了人类的技能习得,其中基础能力(例如抓握)先于专业知识(例如折叠衣服)。通过分离与具身无关的学习和与具身相关的学习,与端到端训练相比,将数据需求减少 60%。

精心设计的训练策略,对于优化深度神经网络至关重要。与网络固有训练动态相一致的方法可确保更高效、更有效的数据利用。框架 DexVLA 通过将视觉-语言模型 (VLM) 与扩散专家相结合,瞄准一般机器人控制。利用其模块化架构(结合两个不同的组件),提出一个三阶段训练策略,系统地解决:(1)学习灵巧的操作技能,使模型能够完成复杂的任务;(2)跨具身学习,使模型适应不同的机器人平台。

1)第 1 阶段 跨具身预训练:视觉-语言-动作模型可以看作是两个不同组件的组合。架构的顶部是视觉-语言模型 (VLM),它处理视觉输入和语言指令,并将它们映射到共享的嵌入空间中。这个共享空间使用互联网规模的数据进行预训练,实现了广泛的功能,包括语言理解、多模态理解和各种其他视觉-文本任务。然而,尽管进行广泛的训练,但 VLM 缺乏与现实环境中的不同目标进行物理交互的能力。

为了有效地预训练动作专家,利用所有可用数据,同时将其暂时与VLM 组件分离。这样,就可以专注于开发独立于语言基础的强大动作生成能力。虽然 CNN 架构(例如 ResNet)通常用作视觉编码器,但 VLM 模型中的视觉编码器通常采用 Transformer 架构。因此,为了便于后续阶段的对齐,用 ViT 架构进行视觉编码。对于语言嵌入提取,用 DistilBERT [39]。然后使用 FiLM 层将生成的语言嵌入集成到模型中,这与之前的工作一致。对扩散专家进行预训练的一个关键见解是,必须将长期任务(例如,收拾桌子、折叠衣物)分解为子任务。这些任务通常持续超过 2 分钟,对于传播专家来说,从单一语言指令中有效学习具有挑战性。因此,在这些长期任务中注释子步骤指令,以提供更结构化的学习信号。使用子步骤进行预训练对于获得强大的性能至关重要。

在基于扩散的动作专家上预训练大规模机器人数据,而不是整个 VLA,具有几个优点。首先,与 VLA 相比,扩散专家的参数数量明显较少(10 亿对 30 亿),因此训练速度更快。从数量上看,在扩散专家上进行预训练,比在完整 VLA 模型上进行预训练快五倍。

2)第 2 阶段 具身-特定对齐:虽然第 1 阶段从跨具身数据中学习基本的运动技能,但这种跨具身学习可能会损害目标(target)具身的性能,使其不适合现实世界的部署。第 2 阶段通过使用特定具身数据训练模型来解决此问题,将 VLM 中的抽象视觉语言表示与扩散专家对齐。因此,过滤数据集以仅包含特定具身的数据,确保每个样本涉及单个具身。视觉语言模型(如 LLaVA [28, 27])中使用的镜像技术,此阶段专注于将目标具身的动作空间与其相应的相机视图和随附的语言指令对齐。具体而言,联合训练 VLM 模型、投影层和扩散专家使用特定具身的数据,同时冻结 VLM 的视觉编码器。

3)第 3 阶段 任务特定适配:此阶段改进模型熟练流畅地执行下游任务的能力,类似于大语言模型中的后训练阶段,在该阶段,模型根据特定域的数据进行微调。对于更简单、不太依赖泛化的任务,例如折叠衬衫、收拾桌子或使用训练的目标拾取箱子,由于模型已经表现良好,因此不需要进行特定任务的训练。但是,复杂、需要灵活性的任务需要模型学习细粒度、依赖于上下文的操作。因此,有效的后训练依赖于高质量的专家演示数据集,该数据集展示一致且流畅的任务执行策略,这些策略专注于促进成功完成任务的行为。注:在第 2 阶段和第 3 阶段都使用了带注释的子步骤语言数据。但是,不是直接使用这些子步骤推理作为指令输入,而是将它们用作中间语言输出,迫使模型学习和生成这些子步骤语言描述。这种方法已被证明非常有效,使模型能够执行复杂的长期任务,例如折叠衣物。虽然其他 VLA(如 π0 [5])也可以完成此类任务,但它们依赖于高级策略模型(如 SayCan [1])来识别任务状态并提供下一步指示。相比之下,本文框架利用 VLM 主干作为隐式高级策略模型。这允许模型内部解释任务的状态并将这种理解注入策略以指导动作生成,从而无需外部高级策略模块。

实施细节如下。

在实验中,通过结合特定任务的后训练和自生成推理能力来解决一系列具有挑战性的多阶段任务。对于其中一些任务,数据在预训练中存在,但需要进行微调才能掌握。对于一些任务,预训练中没有数据。本次评估中的任务如图 所示,包括:

请添加图片描述

衣物折叠(双手 AgileX):此任务需要静态(非移动)双手系统来折叠衣物。衣物最初在箱子中处于随机皱褶状态,目标是取出衣物、折叠衣物并将其放在一堆之前折叠好的衣物之上。皱褶衣物的随机初始配置,带来了重大挑战,因为策略需要推广到任何配置。此任务存在于预训练中。
烘干机卸载(双手 AgileX):在此,AgileX 移动机器人必须将衣物从烘干机中取出并放入洗衣篮中。此任务存在于预训练中。
分类(带夹持器的 Franka):模型需要从右侧面板拾取所有物品,并将它们放置在左侧托盘的正确子部分中。左侧托盘分为四个子部分。所有新目标都属于与这四个部分相同的类别。此任务包括 200 次演示。此任务不在预训练数据中。
bin 拾取(带夹子的 Franka):模型需要拾取右侧面板中的所有物品到左侧托盘中。与简单版本不同,所有物品都是新的,并且仅在测试时存在。此任务存在于预训练中。
清理桌子(双手 AgileX):机器人必须清洁桌子,将碗碟和餐具放入垃圾桶,并将垃圾放入垃圾桶。与简单版本不同,所有物品都是新的。特别是,使用没见过的颜碗碟和外观不同的垃圾。此任务存在于预训练中。

在实验中,用 Qwen-2-VL 2B [46] 模型作为基础视觉语言模型。最多使用三个摄像机视图。扩散专家包含 10 亿个参数。两个 MLP 层(每个层后跟 LayerNorm)将视觉-语言模型连接到动作专家。用 FiLM 将视觉语言模型的最终嵌入注入扩散专家,并将其应用于两个 MLP 中的每一个。在第 1 阶段训练期间,用收集的数据集。第 2 阶段训练仅限于共享相同具身的数据。第 3 阶段后训练是有选择性的,仅针对明确提到的任务进行。

预训练数据集共有 100 小时的数据,涉及 91 个不同的任务。详细的数据分配参见下图。

请添加图片描述

为清楚起见,以小时而不是轨迹报告数据量,因为任务的持续时间差异很大(即,洗衣折叠所需的时间比其他任务长得多)。这种数据量化方法与 π0 使用的方法一致。详细的超参数列于下表中。

请添加图片描述

评估是在 10 个任务的 4 种不同机器人配置上进行的。这些设置总结在以下列表中:
• 带夹持器的 Franka。具有 7 个自由度的 Franka Emika 机器人,配备 Robotiq 平行钳口夹持器。数据以 15Hz 的频率收集。
• 拥有灵巧手的 Franka。安装在 Franka Emika 机器人上的 Inspired 灵巧手。相机设置与夹持器版本相同,总共具有 12 维配置。具体来说,SE(3) 末端执行器姿势(3D 位置 + 3D 方向)加上 6 维手关节空间。数据以 15Hz 的频率收集。
• 双手 UR5e。两个 UR5e 机器人,每个机器人都配有 Robotiq 平行钳口夹持器和腕式摄像头。两个手臂之间放置了一个自上而下的摄像头。此设置共有三个摄像头视图和 14 维配置和动作空间。数据以 10Hz 的频率收集。
• 双手 AgileX。两个 6-DoF AgileX 臂,每个臂都配有腕式摄像头和底座摄像头。此设置具有 14 维配置和动作空间,总共由三个摄像头支持。数据以 10Hz 的频率收集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/969048.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【微服务学习一】springboot微服务项目构建以及nacos服务注册

参考链接 3. SpringCloud - 快速通关 springboot微服务项目构建 教程中使用的springboot版本是3.x,因此需要使用jdk17,并且idea也需要高版本,我这里使用的是IDEA2024。 环境准备好后我们就可以创建springboot项目,最外层的项目…

DeepSeek 助力 Vue 开发:打造丝滑的返回顶部按钮(Back to Top)

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

deepseek大模型,本地搭建deepseek模型,springai调用本地deepseek模型,java调用deepseek大模型api

文档对应的视频地址: https://www.bilibili.com/video/BV1V8NBevEjk/?spm_id_from333.1387.homepage.video_card.click&vd_source14d27ec13a4737c281b7c79463687112SpringAI调用本地deepseek模型 一、 使用deepseek步骤 官网注册账号 地址: https…

大模型语言简介

大模型语言能做什么 信息提取 将长段文字中的信息抽取出来并且以结构化的方式输出。相比起传统NLP的方式,大模型在泛化能力上有非常大的提升,并且开发成本要低2个数量级。应用场景包括:论文论点论据提取、用户画像提取、舆情分析、病例结构…

计算机毕业设计Python旅游评论情感分析 NLP情感分析 LDA主题分析 bayes分类 旅游爬虫 旅游景点评论爬虫 机器学习 深度学习

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

FreeRtos实时系统: 十二.FreeRTOS的队列集

FreeRtos实时系统: 十二.FreeRTOS的队列集 一.队列集简介二.队列集相关API函数三.队列集操作实验 一.队列集简介 左边的接收任务会在没接收到队列时会阻塞,如果前面释放信号量这时该任务也获取不到信号量。 右边使用队列集如果获取到,判断句柄是谁&#…

vsftpd 编译安装流程

目录 vsftpd 编译安装流程1、下载源码包并上传致服务器解压2、进入源码目录后编译源码文件3、将对应文件安装到指定位置4、准备 vsftpd 的运行环境5、启动 vsftpd 服务进行测试6、编译安装说明 vsftpd 编译安装流程 1、下载源码包并上传致服务器解压 源码包下载地址&#xff1…

【Android开发】华为手机安装包安装失败“应用是非正式版发布版本,当前设备不支持安装”问题解决

问题描述 我们将Debug版本的安装包发送到手机上安装,会发现华为手机有如下情况 解决办法 在文件gradle.properties中粘贴代码: android.injected.testOnlyfalse 最后点击“Sync now”,等待重新加载gradle资源即可 后面我们重新编译Debug安装…

计算机网络-八股-学习摘要

一:HTTP的基本概念 全称: 超文本传输协议 从三个方面介绍HTTP协议 1,超文本:我们先来理解「文本」,在互联网早期的时候只是简单的字符文字,但现在「文本」的涵义已经可以扩展为图片、视频、压缩包等&am…

八大排序——归并排序

目录 1.基本思想 2.动态图 3.分解的时候我们可以使用递归的方式进行 代码解释 1. main 方法 2. mergeSort 方法 3. merge 方法 示例运行过程 初始数组 每轮排序后的数组 代码总结 合并两个有序序列 1.基本思想 归并排序就是递归得将原始数组递归对半分隔&#xff0c…

C++ Primer 跳转语句

欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…

Elasticsearch:15 年来致力于索引一切,找到重要内容

作者:来自 Elastic Shay Banon 及 Philipp Krenn Elasticsearch 刚刚 15 岁了!回顾过去 15 年的索引和搜索,并展望未来 15 年的相关内容。 Elasticsearch 刚刚成立 15 周年。一切始于 2010 年 2 月的一篇公告博客文章(带有标志性的…

后稀缺社会的经济模型:当技术突破资源边界时的范式革命

文章目录 引言:走出马尔萨斯陷阱一、技术基础:构建后稀缺社会的四大支柱1.1 自动化生产系统:边际成本趋零的物理基础1.2 能源基础设施:聚变-光伏-储能的黄金三角二、经济模型转变:从稀缺范式到丰裕范式2.1 传统经济模型的失效2.2 新价值方程的涌现三、后稀缺经济的三层架构…

macOS部署DeepSeek-r1

好奇,跟着网友们的操作试了一下 网上方案很多,主要参考的是这篇 DeepSeek 接入 PyCharm,轻松助力编程_pycharm deepseek-CSDN博客 方案是:PyCharm CodeGPT插件 DeepSeek-r1:1.5b 假设已经安装好了PyCharm PyCharm: the Pyth…

记录-rtsp 链接中账号密码包含有@的导致解析失败

问题: 在使用librtsp开源库的时候发现,当输入的rtsp流包含有多个的时候 (比如账号密码中包含,rtsp://admin:Pssw0rd192.168.31.xxx/Streaming/Channels/101),会导致拉流失败。 问题处理: 一、这是因为librtsp中只对一个做了解析…

纪念日倒数日项目的实现-【纪念时刻-时光集】

纪念日/倒数日项目的实现## 一个练手的小项目,uniappnodemysql七牛云。 在如今快节奏的生活里,大家都忙忙碌碌,那些具有特殊意义的日子一不小心就容易被遗忘。今天,想给各位分享一个“纪念日”项目。 【纪念时刻-时光集】 一…

JDK 14,15,17的一些新特性(部分常用)

1:instanceof(后,使用不再需要墙转) 2:switch语句增强 1:支持lmbda,自动防击穿,有返回值 2:支持case多个值,复杂逻辑结果支持yield返回 3:字符串…

Linux学习笔记之进程

进程 进程的定义 进程是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配的基本单位,也是操作系统结构的基础。   例如当QQ程序运行的时候,计算机会先从磁盘读取QQ程序到内存,然后OS管理这个程序,…

泛型 类 接口 方法 通配符

泛型 泛型类 what: 类型参数化 why use&#xff1a; 1. 输出时候是object类型 而不是真正类型转化麻烦 import java.util.ArrayList; import java.util.List;public class ObjectExample {public static void main(String[] args) {List<Object> list new ArrayLi…

打穿内网三重奏-红日7

靶机下载地址&#xff1a; 漏洞详情 (qiyuanxuetang.net) 攻击链路&#xff1a; DMZ区IP段为192.168.11.1/24 第二层网络环境IP段为192.168.52.1/24 第三层网络环境IP段为192.168.93.1/24 这里DMZ和攻击者我用的是192.168.11.1 这个网段&#xff0c;其他不变 这里我加了两张…