RoboGrasp:一种用于稳健机器人控制的通用抓取策略

25年1月来自北京大学和哈佛大学的论文“RoboGrasp: A Universal Grasping Policy for Robust Robotic Control”。

模仿学习和世界模型在推进通用机器人学习方面显示出巨大的潜力,而机器人抓取仍然是实现精确操控的关键挑战。现有方法通常严重依赖机械臂状态数据和 RGB 图像,导致过拟合特定目标形状或位置。为了解决这些限制,Robo-Grasp,一个通用的抓取策略框架,将预训练的抓取检测模型与机器人学习相结合。利用来自目标检测和分割任务的强大视觉引导,RoboGrasp 显著提高抓取精度、稳定性和通用性,在小样本学习和抓取盒子提示任务中实现高达 34% 的成功率提升。RoboGrasp 基于基于扩散的方法构建,可适应各种机器人学习范式,从而能够在各种复杂场景中实现精确可靠的操控。该框架代表一种可规模化且多功能的解决方案,可用于应对机器人抓取中的现实挑战。

当婴儿第一次遇到一个目标,通常可以本能地抓住它。然而,对于机器人来说,这项任务要复杂得多。针对一个目标训练的策略往往无法推广到其他目标。行为克隆的最新进展,特别是基于扩散的策略,已经成为一种有前途的解决方案,在处理复杂的多模态动作空间方面提供灵活性和表现力(Pearce,2023;Chi,2023)。

然而,行为克隆在训练环境之外的泛化方面仍然面临挑战,特别是在动态、混乱的环境中,有未见过的或干扰性的目标。一个关键的限制,在于它们在训练和推理过程中依赖原始传感器数据作为条件输入(Chi,2023;Ze,2024)。如果没有明确的任务指导,这些策略依赖于从数据中学习的隐式模式,从而限制它们的鲁棒性(Selvaraju,2019)。

机器人策略规划方面的最新进展,促进了行为克隆 (BC) 的民主化,使其范围超出专业研究实验室 (Zhao,2023;Team,2024;Chi,2024)。这些方法通常涉及将传感器观测映射到未来机器人姿势轨迹的模型。在这种背景下,扩散模型已成为解决行为克隆关键限制的有力工具,例如协变量漂移 (Pomerleau,1989),其中机器人无法在其训练数据之外进行推广 (Zhou,2022)。以扩散策略 (DP) (Chi,2023) 为例的基于扩散策略,通过生成多样化和多模态动作轨迹来克服这些挑战,从而显着提高动态和不可预测环境中的鲁棒性。

最近的大型机器人专家演示数据集 (Collaboration,2024) 推动了扩展 BC 架构的努力。机器人扩散Transformer (RDT) (Liu,2024b)、Octo (Octo Model Team,2024) 和 π0 (Black,2024) 等工作表明,从不同数据集中学习到的技能可以迁移到新任务中,一些模型实现零样本泛化以抓取新目标。然而,训练大型模型仍然需要大量计算,这限制了资源受限环境中的可访问性。

最近的努力研究基于点的 affordance 表示 (Liu,2024a;Tang,2024;Huang,2024),其中关键点用于识别与任务相关的目标并使用结构化信息指导策略,通常利用预训练的视觉模型。虽然这些方法可扩展,但它们主要传达目标位置,而缺乏关于如何有效抓取或操纵它们的可操作信息。

基于抓取的 affordance 表示,通过编码可行的抓取策略(Kleeberger,2020)提供更全面的解决方案,提供空间和可操作信息。像 Grasp Anything(Vuong,2023)这样的数据集凸显该领域可扩展数据收集的潜力。然而,将抓取affordance与基于扩散的策略相结合仍未得到充分探索。现有的研究如 GQCNN(Mahler,2017)提供初步步骤,但需要进一步研究才能充分发挥 affordance 驱动规划的潜力。
本文提出的 RoboGrasp 是扩散策略 (DP) 的增强变型,旨在整合特定于抓取的信息以改进机器人操作。关键增强功能包括集成抓取检测模块和修整观察编码器。超参(例如历史时间步数 (2) 和预测动作 (16))与原始 DP 框架保持一致。RoboGrasp 架构概览如图所示:(a)用于训练和推理的数据流和数据集;(b)硬件设置,包括工业级机械臂、RealSense 摄像头和用于数据收集的 Quest VR 耳机;(c)抓取 affordance 的演示注释;(d)实验任务设计;(e)RoboGrasp 策略架构。

请添加图片描述

如图所示,抓取框信息包括抓取框中心点的 x 和 y 坐标以及框的高度和宽度。通常还包括相对于相机方向的旋转角度,但是由于本实验中使用的机械臂无法旋转,因此这些参数在实验中被视为多余的,并且所有物体都保持在未旋转的位置。

请添加图片描述

抓握检测模块利用 YOLOv11-m (Redmon,2016) 的速度、简单性和通用性。YOLOv11-m 在自定义标记的数据集上进行微调,以预测类别目标、抓握框中心的 2D 空间坐标以及框的宽度和高度。在策略训练期间,直接使用抓握检测模块生成的标签,而在推理时,YOLOv11-m 会动态预测观察数据的抓握框。为了简化抓握选择,模块每次运行仅输出置信度得分最高的框,因为该任务涉及每次实验抓取一个目标。如图所示抓取的盒子示意图:

请添加图片描述

观察编码器将视觉和低维数据组合成统一的潜表示。每个摄像机视图都采用基于 ResNet34 的特征金字塔编码器,在连接之前分别处理多视图 RGB 数据。低维输入(例如机械臂的末端姿势和夹持器传感器数据)遵循原始 DP 设计进行整合。一种增强功能将抓取框特征(类标签和空间信息)引入到连接的观察数据中。

此连接数据被投影到固定维度的潜空间中,作为每个时间步的单个token。为了捕获时间依赖性,未经训练的轻量级 Transformer 在指定的历史时间步中应用自注意。

扩散动作头使用与 DP 中相同的轻量级扩散 Transformer 来预测 16 个时间步内的动作。具有余弦 Beta 噪声调度的 DDIM 调度器(Nichol & Dhariwal,2021)用于去噪,确保高效和平滑的采样。

交叉注意机制,根据观察 tokens 来调节噪声动作,使策略能够有效地整合视觉和空间背景。动作被线性投影到潜空间中以便在 Transformer 内进行处理,然后通过专用的线性层重投影到其原始维度。

如图所示:PickBig 任务的放置位置泛化实验设置。(a)和(b)显示八个放置位置中的两个。PickBig 的目标是区分两个形状相似的积木,并成功沿其直径抓住较大的积木。

请添加图片描述

如图所示:PickCup 任务的少样本实验设置。(a) 中的绿色杯子代表只有 5 次演示的抓握手柄少样本任务。(b) 中的蓝色塑料杯代表有 10 次演示的抓握直径少样本任务。

请添加图片描述

如图所示为“PickGoods”饼干的抓取盒。在 (a) 中,提供了巧克力棒的抓取盒,而在 (b) 中,提供了饼干的抓取盒。目标是按照抓取盒提示成功挑选指定商品。
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967887.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

金仓数据库-KingbaseES-学习-01-单机部署(非图形化安装)

目录 一、环境信息 二、介绍 三、下载地址 四、安装步骤 1、配置内核参数 (1)文件系统相关 (2)共享内存与信号量(IPC) (3)网络与端口配置 (4)关键场…

双周报Vol.65:新增is表达式、字符串构造和数组模式匹配增强、IDE模式匹配补全增强...多项技术更新!

MoonBit更新 新增 is 表达式 这个表达式的语法形式为 expr is pat,这个表达式为 Bool 类型,当 expr 符合 pat 这个模式的时候返回 true,比如: fn use_is_expr(x: Int?) -> Unit {if x is Some(i) && i > 10 { .…

【Apache Paimon】-- 作为一名小白,如何系统地学习 Apache paimon?

目录 一、整体规划 1. 了解基本概念与背景 2. 学习资料的选择 3. 学习路径与规划 4. 学习建议 5. 注意事项 6. 参考学习资料 二、详细计划 阶段 1:了解基础(1-2 周) 阶段 2:深入掌握核心功能(3-4 周&#xf…

查出 product 表中所有 detail 字段包含 xxx 的完整记录

您可以使用以下 SQL 查询语句来查出 product 表中所有 detail 字段包含 oss.kxlist.com 的完整记录&#xff1a; SELECT * FROM product WHERE INSTR(detail, oss.kxlist.com) > 0;下面是detail字段包含的完整内容 <p><img style"max-width:100%;" src…

深度剖析责任链模式

一、责任链模式的本质&#xff1a;灵活可扩展的流水线处理 责任链模式&#xff08;Chain of Responsibility Pattern&#xff09;是行为型设计模式的代表&#xff0c;其核心思想是将请求的发送者与接收者解耦&#xff0c;允许多个对象都有机会处理请求。这种模式完美解决了以下…

大数据项目7:基于大数据的天气数据分析和可视化系统

项目简介 本项目主要研究的内容是基于大数据分析和挖掘的技术&#xff0c;结合海量的天气数据&#xff0c;对异常灾害数据进行分析和预测&#xff0c;发现异常气象中的规律。当下大数据的技术正在高速发展&#xff0c;并且在教育&#xff0c;金融&#xff0c;农业&#xff0c…

PyQt学习记录01——加法计算器

0. 安装配置 0.1 安装相关库 首先打开你的PyCharm程序&#xff0c;然后新建一个目录用于学习&#xff0c;其次在terminal中输入 pip install pyqt5如果你不具有科学上网能力&#xff0c;请改为国内源 pip install pyqt5 -i https://pypi.douban.com/simple然后安装pyqt相关…

pytest测试专题 - 1.2 如何获得美观的测试报告

<< 返回目录 1 pytest测试专题 - 1.2 如何获得美观的测试报告 1.1 背景 虽然pytest命令的报文很详细&#xff0c;用例在执行调试时还算比较方便阅读和提取失败信息&#xff0c; 但对于大量测试用例运行时&#xff0c;可能会存在以下不足 报文被冲掉测试日志没法归档 …

嵌入式八股文面试题(二)C语言算法

相关概念请查看文章&#xff1a;C语言概念。 1. 如何实现一个简单的内存池&#xff1f; 简单实现&#xff1a; #include <stdio.h> #include <stdlib.h>//内存块 typedef struct MemoryBlock {void *data; // 内存块起始地址struct MemoryBlock *next; // 下一个内…

树莓派上 基于Opencv 实现人脸检测与人脸识别

一&#xff0c;需求 基于树莓派4b&#xff0c;usb1080p摄像头&#xff0c;实现人脸检测与人脸识别。尝试了海陵科的模组和百度的sdk。海陵科的模组无法录入人脸&#xff0c;浪费了100多块钱。百度的sdk 在树莓派上也无法录入人脸&#xff0c;官方解决不了。最后只能用opencv自…

机器学习10-卷积和卷积核3

机器学习10-卷积和卷积核3 纹理表示卷积神经网络全链接神经网络的瓶颈卷积网络中的卷积操作特征响应图组尺寸计算 池化操作示例 图像增强翻转随机缩放抠图色彩抖动其他方案1. 平移2. 旋转3. 拉伸4. 径向畸变5. 裁剪 纹理表示 如何去表示纹理&#xff1f; 基于卷积核组的纹理表…

Ollama部署DeepSeek(windows or ubuntu)

Ollama(官网是https://ollama.com/)是一个专为在本地机器上便捷部署和运行大型语言模型&#xff08;LLM&#xff09;而设计的开源框架。它简化了大型语言模型的部署过程&#xff0c;提供了轻量级与可扩展的架构&#xff0c;使得研究人员、开发人员和爱好者能够更加方便地在本地…

嵌入式知识点总结 操作系统 专题提升(五)-内存

针对于嵌入式软件杂乱的知识点总结起来&#xff0c;提供给读者学习复习对下述内容的强化。 目录 1.在1G内存的计算机能否malloc&#xff08;1.2G&#xff09;&#xff1f;为什么&#xff1f; 2.malloc能申请多大的空间&#xff1f; 3.内存管理有哪几种方式&#xff1f; 4.什…

Lucene 中的并发错误:如何修复乐观并发失败

作者&#xff1a;来着 Elastic Benjamin Trent 及 Ao Li 感谢 CMU PASTA 实验室开发的确定性并发测试框架 Fray&#xff0c;我们找到了一个棘手的 Lucene 漏洞并将其修复。 是的&#xff0c;另一个修复错误博客。但这个故事有一个转折&#xff0c;一位开源英雄突然出现并拯救了…

redis 缓存击穿问题与解决方案

前言1. 什么是缓存击穿?2. 如何解决缓存击穿?怎么做?方案1: 定时刷新方案2: 自动续期方案3: 定时续期 如何选? 前言 当我们使用redis做缓存的时候,查询流程一般是先查询redis,如果redis未命中,再查询MySQL,将MySQL查询的数据同步到redis(回源),最后返回数据 流程图 为什…

【分布式理论9】分布式协同:分布式系统进程互斥与互斥算法

文章目录 一、互斥问题及分布式系统的特性二、分布式互斥算法1. 集中互斥算法调用流程优缺点 2. 基于许可的互斥算法&#xff08;Lamport 算法&#xff09;调用流程优缺点 3. 令牌环互斥算法调用流程优缺点 三、三种算法对比 在分布式系统中&#xff0c;多个应用服务可能会同时…

【车载项目】 systemui下拉负一屏界面,通过语音输入:“中文模式/英文模式“,会闪现一下负一屏下层的画面

1、背景 【操作步骤】负一屏界面&#xff0c;语音输入&#xff1a;“中文模式/英文模式” 【预期结果】显示正常 【实际结果】 会闪现一下负一屏下层的文字 【发生概率】必现 systemui下拉负一屏界面&#xff0c;通过语音输入&#xff1a;“中文模式/英文模式”&#xff0c;会…

CSS 渐变效果详解——线性渐变与径向渐变

在现代前端开发中&#xff0c;CSS 渐变被广泛应用于网页背景、按钮、图形等元素的渲染。相较于使用图片&#xff0c;实现渐变可以减少资源请求&#xff0c;同时也更灵活。今天我们主要介绍两种常用的渐变类型&#xff1a;线性渐变&#xff08;Linear Gradient&#xff09;与径向…

【愚公系列】《Python网络爬虫从入门到精通》001-初识网络爬虫

标题详情作者简介愚公搬代码头衔华为云特约编辑&#xff0c;华为云云享专家&#xff0c;华为开发者专家&#xff0c;华为产品云测专家&#xff0c;CSDN博客专家&#xff0c;CSDN商业化专家&#xff0c;阿里云专家博主&#xff0c;阿里云签约作者&#xff0c;腾讯云优秀博主&…

如何借鉴GitHub开源项目进行LabVIEW开发

在设备开发过程中&#xff0c;许多开发者选择借鉴GitHub等平台上的开源项目&#xff0c;特别是当目标程序没有LabVIEW版本时。比如&#xff0c;在本例中&#xff0c;我们看到一个开源的Micro-Manager项目&#xff0c;它主要使用Java、C、Python等编程语言。对于LabVIEW开发者来…