RoboGrasp：一种用于稳健机器人控制的通用抓取策略

25年1月来自北京大学和哈佛大学的论文“RoboGrasp: A Universal Grasping Policy for Robust Robotic Control”。

模仿学习和世界模型在推进通用机器人学习方面显示出巨大的潜力，而机器人抓取仍然是实现精确操控的关键挑战。现有方法通常严重依赖机械臂状态数据和 RGB 图像，导致过拟合特定目标形状或位置。为了解决这些限制，Robo-Grasp，一个通用的抓取策略框架，将预训练的抓取检测模型与机器人学习相结合。利用来自目标检测和分割任务的强大视觉引导，RoboGrasp 显著提高抓取精度、稳定性和通用性，在小样本学习和抓取盒子提示任务中实现高达 34% 的成功率提升。RoboGrasp 基于基于扩散的方法构建，可适应各种机器人学习范式，从而能够在各种复杂场景中实现精确可靠的操控。该框架代表一种可规模化且多功能的解决方案，可用于应对机器人抓取中的现实挑战。

当婴儿第一次遇到一个目标，通常可以本能地抓住它。然而，对于机器人来说，这项任务要复杂得多。针对一个目标训练的策略往往无法推广到其他目标。行为克隆的最新进展，特别是基于扩散的策略，已经成为一种有前途的解决方案，在处理复杂的多模态动作空间方面提供灵活性和表现力（Pearce，2023；Chi，2023）。

然而，行为克隆在训练环境之外的泛化方面仍然面临挑战，特别是在动态、混乱的环境中，有未见过的或干扰性的目标。一个关键的限制，在于它们在训练和推理过程中依赖原始传感器数据作为条件输入（Chi，2023；Ze，2024）。如果没有明确的任务指导，这些策略依赖于从数据中学习的隐式模式，从而限制它们的鲁棒性（Selvaraju，2019）。

机器人策略规划方面的最新进展，促进了行为克隆 (BC) 的民主化，使其范围超出专业研究实验室 (Zhao，2023；Team，2024；Chi，2024)。这些方法通常涉及将传感器观测映射到未来机器人姿势轨迹的模型。在这种背景下，扩散模型已成为解决行为克隆关键限制的有力工具，例如协变量漂移 (Pomerleau，1989)，其中机器人无法在其训练数据之外进行推广 (Zhou，2022)。以扩散策略 (DP) (Chi，2023) 为例的基于扩散策略，通过生成多样化和多模态动作轨迹来克服这些挑战，从而显着提高动态和不可预测环境中的鲁棒性。

最近的大型机器人专家演示数据集 (Collaboration，2024) 推动了扩展 BC 架构的努力。机器人扩散Transformer (RDT) (Liu，2024b)、Octo (Octo Model Team，2024) 和 π0 (Black，2024) 等工作表明，从不同数据集中学习到的技能可以迁移到新任务中，一些模型实现零样本泛化以抓取新目标。然而，训练大型模型仍然需要大量计算，这限制了资源受限环境中的可访问性。

最近的努力研究基于点的 affordance 表示 (Liu，2024a；Tang，2024；Huang，2024)，其中关键点用于识别与任务相关的目标并使用结构化信息指导策略，通常利用预训练的视觉模型。虽然这些方法可扩展，但它们主要传达目标位置，而缺乏关于如何有效抓取或操纵它们的可操作信息。

基于抓取的 affordance 表示，通过编码可行的抓取策略（Kleeberger，2020）提供更全面的解决方案，提供空间和可操作信息。像 Grasp Anything（Vuong，2023）这样的数据集凸显该领域可扩展数据收集的潜力。然而，将抓取affordance与基于扩散的策略相结合仍未得到充分探索。现有的研究如 GQCNN（Mahler，2017）提供初步步骤，但需要进一步研究才能充分发挥 affordance 驱动规划的潜力。
本文提出的 RoboGrasp 是扩散策略 (DP) 的增强变型，旨在整合特定于抓取的信息以改进机器人操作。关键增强功能包括集成抓取检测模块和修整观察编码器。超参（例如历史时间步数 (2) 和预测动作 (16)）与原始 DP 框架保持一致。RoboGrasp 架构概览如图所示：（a）用于训练和推理的数据流和数据集；（b）硬件设置，包括工业级机械臂、RealSense 摄像头和用于数据收集的 Quest VR 耳机；（c）抓取 affordance 的演示注释；（d）实验任务设计；（e）RoboGrasp 策略架构。

请添加图片描述

如图所示，抓取框信息包括抓取框中心点的 x 和 y 坐标以及框的高度和宽度。通常还包括相对于相机方向的旋转角度，但是由于本实验中使用的机械臂无法旋转，因此这些参数在实验中被视为多余的，并且所有物体都保持在未旋转的位置。

请添加图片描述

抓握检测模块利用 YOLOv11-m (Redmon，2016) 的速度、简单性和通用性。YOLOv11-m 在自定义标记的数据集上进行微调，以预测类别目标、抓握框中心的 2D 空间坐标以及框的宽度和高度。在策略训练期间，直接使用抓握检测模块生成的标签，而在推理时，YOLOv11-m 会动态预测观察数据的抓握框。为了简化抓握选择，模块每次运行仅输出置信度得分最高的框，因为该任务涉及每次实验抓取一个目标。如图所示抓取的盒子示意图：

请添加图片描述