大模型时代的具身智能系列专题(十二)

Robert Platt(波士顿动力)

Robert Platt是美国东北大学Helping Hands机器人实验室主任、计算机科学教授。在加入东北大学之前,Platt 曾是麻省理工学院的研究科学家和美国宇航局的机器人工程师。platt博士毕业于马萨诸塞大学阿默斯特分校计算机科学专业。Platt 的工作主要集中在机器人操控的感知、规划和控制上。他对机器人感知与规划/控制之间的交集特别感兴趣,目标是让机器人能够在现实世界感知不确定的情况下稳健地执行操控任务。这一研究领域对于执行机器人装配或维修任务,或在日常环境中简单地抓取和举起物体至关重要。Platt 预计稳健的机器人操控将在家庭、医疗保健、工厂或仓库、危险环境和军事领域拥有广泛的应用。

主题相关作品

  • ThinkGrasp

ThinkGrasp

在严重杂乱的环境中,机器人抓取面临着由于遮挡和多个物体的存在而带来的重大挑战。主要问题在于:为自然语言指令指定的目标物体设计合适的抓取姿态。

一个显著的挑战是遮挡,即物体常常被其他物品部分或完全遮挡,这使得机器人难以识别和抓取目标物体。另一个问题是自然语言指令的模糊性。这些指令可能含糊不清,需要机器人准确解读用户的意图,并在众多可能性中识别出正确的物体。此外,环境的动态性意味着抓取策略必须随着物体位置和方向的变化实时调整。确保安全性和稳定性至关重要,因为抓取姿态不仅要可行,而且要稳固,以避免损坏物体或机器人。效率也至关重要,因为减少实现成功抓取所需步骤的数量可以使过程更快、更有效。

为了克服这些挑战,我们需要一个系统,该系统能够准确理解环境、解释自然语言命令、即使目标物体部分遮挡也能定位、根据当前环境调整其抓取方式、确保安全稳定的抓取,并高效运行以用最少的努力完成任务。

在这里插入图片描述
提出的方法通过一个迭代流程(图1)解决了杂乱环境中抓取的战略部分。给定一个初始的RGB-D场景观测O0(模拟中为224×224,真实机器人为640×480)和一个自然语言指令g。
首先,系统利用GPT-4o执行我们称之为“想象分割”的过程。在这个过程中,GPT-4o将视觉场景和自然语言指令g作为输入。GPT-4o将生成视觉理解和分割假设,识别出与给定指令最匹配的潜在目标物体或部分。对于每个识别的物体,GPT-4o通过想象最优分割并在3×3网格内提出具体的抓取点,来建议最合适的抓取位置。
GPT-4o利用目标语言条件来识别当前场景中的潜在物体。然后,它确定哪个物体在移动后最有可能揭示目标物体,或者如果目标物体已经可见,则直接选择目标物体作为目标。它根据视觉输入和语言指令来想象分割后的物体,利用3×3网格方法,专注于对抓取来说最安全、最有利的物体部分。3×3网格策略将包含提议的目标物体或部分的裁剪框划分为3×3网格,并建议一个1到9之间的数字,指示最优抓取区域(1代表左上角,9代表右下角)。这种策略特别适用于低分辨率图像,它侧重于选择最优区域而不是精确的点,同时也考虑了机械臂和夹爪成功抓取的约束条件。
接下来,系统根据GPT-4o识别的是物体还是物体部分,使用LangSAM 或VLPart 进行分割,并裁剪包含这些物体的点云。GPT-4o将在每次抓取后根据新的视觉输入调整其选择,更新其“想象分割”以及对目标物体 o t o_t ot 和首选抓取位置的预测,使用裁剪后的点云。

为了确定最优抓取姿态 P g P_g Pg,系统基于裁剪后的点云生成一组候选抓取姿态A。为了验证我们的系统,我们在实验中保持变量一致。使用不同的抓取生成网络进行模拟和真实机器人测试。具体来说,我们在所有模拟比较中使用Graspnet-1Billion ,而在真实机器人比较中使用FGC-Graspnet 。这种方法确保了我们的结果是可靠的,并且观察到的任何差异都归因于抓取系统本身,而不是抓取生成网络的不一致性。候选抓取姿态A根据其接近GPT-4o建议的首选位置的程度以及各自抓取生成模块的抓取质量评分进行评估。系统对选定的目标 o t o_t ot 执行最优姿态 P g P_g Pg
这个闭环过程展示了系统的适应性,它根据每次抓取尝试后的更新场景观测 O t + 1 O_{t+1} Ot+1 生成下一个抓取策略 P g , t + 1 P_{g,t+1} Pg,t+1 。该流程根据需要调整其抓取策略,直到任务成功完成或达到最大迭代次数。它有效地管理了严重杂乱环境带来的挑战。

1)GPT-4o在目标物体选择中的角色与约束求解器
我们的抓取系统利用GPT-4o这一最先进的视觉语言模型(VLM),无缝集成视觉和语言信息。GPT-4o在上下文推理和知识表示方面表现出色,使其特别适用于杂乱环境中的复杂抓取任务。

目标物体选择:GPT-4o在识别与给定指令最匹配的物体方面表现出色,有效地关注相关区域并避免无关选择,即使在没有深度信息的情况下也是如此。这确保了系统不会尝试抓取不太可能隐藏目标物体的物体。例如,在图2中,左上角的小包裹被正确地忽略,因为它下面很可能没有任何隐藏物。
在这里插入图片描述
在目标物体选择过程中,GPT-4o使用语言指令g和场景上下文来选择最相关的物体。它考虑诸如物体与指令的相关性、抓取的难易程度以及潜在的障碍物等因素。这种有针对性的方法通过优先考虑最有可能导致任务成功完成的物体,确保了抓取的高效性和有效性。

该过程可以表述为:
在这里插入图片描述
其中,是 o t o_t ot 选定目标物体的颜色和名称, g g g是语言指令, O t c O_t^c Otc 是场景的颜色观测值, f s e l e c t f_select fselect 表示选择函数,该函数评估在指令和场景背景下每个物体 o o o的适用性。

处理遮挡和杂乱:GPT-4o策略性地识别和选择物体,即使在物体被严重遮挡或部分可见时也能确保准确抓取。系统智能地移除遮挡物以提高可见性和抓取准确性。
2)3×3网格策略用于最优抓取部分选择
3×3网格策略通过从选择精确点转变为在3×3网格内选择最优区域,增强了系统处理低分辨率图像(224×224)的能力。这种转变利用了更广泛的上下文信息,即使像素密度较低,也使抓取选择过程更加健壮和可靠。网格将目标物体(由分割算法得分最高的输出得出的边界框表示)划分为九个单元格。每个单元格都根据安全性、稳定性和可访问性进行评估。GPT-4o根据其对物体的想象分割,在此网格内输出一个优选的抓取位置,指导后续的分割和姿态生成步骤。
与依赖单一最佳抓取姿态选择的传统方法不同,我们的系统首先根据它们与优选位置的接近程度评估多个潜在的抓取姿态(前k名)。然后,从这些顶级候选者中,选择得分最高的姿态。这种方法与3×3网格策略相结合,以确定最优抓取区域,确保了所选抓取姿态既是最优的又是稳定的,从而显著提高了整体性能和成功率。
3)目标物体分割与裁剪区域生成
分割与裁剪:在我们的系统中,当GPT-4o识别出一个物体时,使用LangSAM框架来生成精确的分割掩码和边界框,这对于分割低分辨率图像特别有效。当GPT-4o识别出物体的特定部分(如手柄)时,利用VLPart进行详细的部件分割。如果VLPart无法准确分割该部件,会退回到LangSAM与3×3网格策略相结合,以确保我们的方法仍然能够准确地考虑和处理物体部件。
抓取姿态生成:为了确定最优抓取姿态Pg,系统基于裁剪后的点云生成一组候选抓取姿态A。候选抓取姿态A根据它们与GPT-4o建议的优选位置的接近程度以及各自抓取生成模块的抓取质量分数进行评估。经过评估后,得分最高的抓取姿态被选为最优抓取姿态。
鲁棒性和错误处理:尽管GPT-4o具有先进的功能,但偶尔也可能发生误识别。为了解决这个问题,采用迭代细化方法。如果抓取尝试失败,系统会捕获新图像,更新分割和抓取策略,并再次尝试。这种闭环过程确保了基于实时反馈的持续改进,从而显著提高了鲁棒性和可靠性。
消融实验(表1)表明,当我们将LangSAM与GPT-4o结合用于抓取点选择时,与单独使用GPT-4o相比,系统性能显著提高。通过将GPT-4o的上下文理解与LangSAM的精确分割和VLPart的详细部件识别相结合,我们的系统实现了更高的成功率和更高的效率。这种协同作用确保了更准确的抓取和更复杂场景的更佳处理。
在这里插入图片描述
4)抓取姿态生成与选择
候选抓取姿态生成:使用局部点云,系统生成一组候选抓取姿态:
在这里插入图片描述
抓取姿态评估:使用一种分析计算方法对每个抓取进行评分。基于来自GraspNet-1Billion的改进力封闭度量标准,通过逐渐将摩擦系数µ从1减小到0.1(直到抓取不再是对极的)来计算得分。摩擦系数µ越低,成功抓取的概率越高。我们的得分s定义为:
在这里插入图片描述
s在(0,1]区间。
每个候选抓取姿态都根据其与优选抓取位置的对齐程度进行评估。通过最大化一个考虑每个姿态适用性的得分函数来选择最优抓取姿态:
在这里插入图片描述
5)针对重度杂乱环境的闭环鲁棒系统
我们的系统通过闭环控制机制增强了在重度杂乱环境中的鲁棒性,该机制在每次抓取尝试后都会不断更新场景理解,确保使用最新的信息。裁剪区域和抓取姿态会根据实时反馈进行动态调整,从而使系统能够专注于最相关的区域并选择最优抓取姿态。

如图2所示,图像序列展示了根据用户指令选择目标物体的过程。首先,用户给出目标物体“芒果”并输入命令“给我一个水果”。初始的彩色输入图像来自模拟。GPT-4o根据提示选择一个物体(例如绿色瓶子)和一个优选位置,并将其分割成3×3网格。这些信息将被传递给LangSAM进行分割。LangSAM将图像中所有绿色瓶子进行分割,并裁剪出包含所有绿色瓶子的点云。然后,它在裁剪后的点云中生成所有可能的抓取姿态。具有最高LangSAM分割得分的姿态被选为目标物体。目标点是GPT-4o提供的优选物体位置的中心。然后,系统评估距离目标点最近的前10个姿态,并选择得分最高的姿态,最后在绿色瓶子上执行该姿态。即使GPT-4o的初步选择与目标不匹配(例如选择瓶子而不是芒果),由于颜色特征的明显差异,LangSAM的分割和评分过程也会纠正错误并锁定在目标物体上。

实验分析

我们的系统设计用于在模拟和现实世界环境中都能有效工作,并针对每个环境的独特挑战和限制进行了量身定制的适应。

模拟环境使用PyBullet构建,包括一个UR5机械臂、一个ROBOTIQ-85夹爪和一个Intel RealSense L515相机。原始图像被调整为224×224像素,并通过LangSAM进行分割以获得精确的对象掩码。我们将解决方案与最先进的方法Vision-Language Grasping (VLG)和OVGrasp进行了比较,这些方法使用相同的GraspNet主干以确保公平比较。此外,还将我们的方法与直接使用GPT-4o选择目标抓取点而不进行额外处理或与其他模块集成的方法进行了比较。
在这里插入图片描述

在这里插入图片描述

我们的杂乱环境实验集中在各种任务上,如抓取圆形物体、取用餐具或饮料等物品,以及其他特定请求。每个测试用例包括15次运行,通过两个指标来衡量:任务成功率和动作次数。任务成功率是指在15次测试运行中,在15次动作尝试内成功完成任务的平均百分比。动作次数是指每完成任务一次所需的平均动作数。

结果。表1总结了结果,表明我们的系统在整体成功率和效率指标上显著优于基线方法。在杂乱环境中的平均成功率为0.980,平均步数为3.39,平均成功步数为3.32(如图3所示)。这些结果表明,我们的系统不仅在完成抓取任务方面表现出色,而且效率更高,成功完成任务所需的步数更少。

还评估了系统在重度杂乱场景中的性能,其中物体被部分或完全遮挡。这些场景(如图4所示)包含多达30个未见过的物体,并且每次运行允许最多50次动作尝试。表1中的结果表明,在这些具有挑战性的条件下,我们的系统显著优于基线方法,实现了最高的成功率2,并且成功抓取所需的步数最少。
在这里插入图片描述
消融研究。为了评估我们系统中不同组件的贡献,这里进行了消融研究。这些消融研究的结果如表1所示,研究突出了我们完整系统的有效性。一种配置标记为“无3×3”,它不会将对象分割为3×3网格来选择抓取点,而是使用对象边界框的中心。另一种配置“GPT裁剪”使用GPT-4o来确定点云的裁剪坐标,从而专注于与抓取相关的区域。“无GPT4o”配置则完全排除了GPT-4o的使用。这些实验表明,我们集成了所有组件的完整系统实现了优越的性能,证明了每个部分在提升整体有效性方面的重要性。

真实世界场景实验
我们将系统的功能扩展到现实世界环境中,以处理复杂多变的场景。设置包括一个具有6个自由度的UR5机械臂和一个Robotiq 85夹爪。使用RealSense D455相机捕获观测数据,提供用于点云构建的彩色和深度图像。使用MoveIt运动规划框架和RRT*算法确定抓取的目标姿态。ROS管理通信,运行在一台配备12GB 2080Ti GPU的工作站上。我们的ThinkGrasp模型部署在具有双3090 GPU的服务器上,使用Flask,通过GPT-4o API在10秒内提供抓取姿态预测。

在我们的现实世界实验中,将系统与VL-Grasp进行了比较,使用了相同的FGCGraspNet下游抓取模型,以确保对我们的战略部分抓取和重度杂乱处理机制引入的改进进行公平评估。

结果。我们的结果(表3)表明,即使在杂乱的环境中,系统在识别和抓取目标物体方面也具有较高的成功率。VLPart和GPT-4o的集成显著提高了系统的鲁棒性和准确性。然而,由于单幅图像数据的局限性、下游模型产生的低质量抓取姿态以及UR5机器人稳定性和控制的差异,也发生了一些失败情况。这些失败凸显了稳健的图像处理对于确保准确的场景解释、精确的抓取姿态生成以提高成功率以及稳定的机器人控制操作的重要性。解决这些因素对于进一步提升系统性能至关重要。附录(表A)中提供了更多技术细节和实验设置。
在这里插入图片描述

reference

  • http://arxiv.org/pdf/2407.11298

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/919871.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【软件测试】设计测试用例的万能公式

文章目录 概念设计测试用例的万能公式常规思考逆向思维发散性思维万能公式水杯测试弱网测试如何进行弱网测试 安装卸载测试 概念 什么是测试用例? 测试⽤例(Test Case)是为了实施测试⽽向被测试的系统提供的⼀组集合,这组集合包…

uni-app Vue3语法实现微信小程序样式穿透uview-plus框架

1 问题描述 我在用 uni-app vue3 语法开发微信小程序时,在项目中使用了 uview-plus 这一开源 UI 框架。在使用 up-text 组件时,想要给它添加一些样式,之前了解到微信小程序存在样式隔离的问题,也在uview-plus官网-注意事项中找到…

C++(Qt)软件调试---内存分析工具Heob(26)

C(Qt)软件调试—内存分析工具Heob(26) 文章目录 C(Qt)软件调试---内存分析工具Heob(26)[toc]1、概述🐜2、环境配置🪲3、功能说明4、使用Heob分析qt 程序内存泄漏🦧5、使用Heob检测qt 程序野指针…

uni-app快速入门(八)--常用内置组件(上)

uni-app提供了一套基础组件&#xff0c;类似HTML里的标签元素&#xff0c;不推荐在uni-app中使用使用div等HTML标签。在uni-app中&#xff0c;对应<div>的标签是view&#xff0c;对应<span>的是text&#xff0c;对应<a>的是navigator&#xff0c;常用uni-app…

静态时序分析--时序约束

目录 1.时钟约束1.1创建时钟1.2.生成时钟1.3虚拟时钟1.4 最小时钟脉宽 2.I/O延时约束2.1设置输入延时2.2设置输出延时 3.I/O环境建模约束3.1输入驱动建模3.2输出负载建模 4.时序例外4.1多周期路径设置&#xff08;multicycle path&#xff09;4.2伪路径设置&#xff08;false_p…

解决IntelliJ IDEA的Plugins无法访问Marketplace去下载插件

勾选Auto-detect proxy setting并填入 https://plugins.jetbrains.com 代理URL&#xff0c;可以先做检查连接&#xff1a;

自存 sql常见语句和实际应用

关于连表 查询两个表 SELECT * FROM study_article JOIN study_article_review 查询的就是两个表相乘&#xff0c;结果为两个表的笛卡尔积 相这样 这种并不是我们想要的结果 通常会添加一些查询条件 SELECT * FROM study_articleJOIN study_article_review ON study_art…

目录背景缺少vscode右键打开选项

目录背景缺少vscode右键打开选项 1.打开右键管理 下载地址&#xff1a;https://wwyz.lanzoul.com/iZy9G2fl28uj 2.开始搜索框搜索vscode&#xff0c; 找到其源目录 3.目录背景里面&#xff0c; 加入vscode.exe 3.然后在目录背景下&#xff0c; 右键&#xff0c; code就可以打…

应用于各种小家电的快充协议芯片

前言 随着快充技术的广泛应用&#xff0c;以往小家电的慢充模式已经满足不了人们对充电速度的要求&#xff0c;因此商家纷纷对小家电应用了诱骗取电快充协议芯片 例如&#xff08;XSP16H)&#xff0c;有了快充的支持小家电的充电速度有了很大的提升&#xff0c;节省了很多的充电…

Java基础知识(五)

文章目录 ObjectObject 类的常见方法有哪些&#xff1f; 和 equals() 的区别hashCode() 有什么用&#xff1f;为什么要有 hashCode&#xff1f;为什么重写 equals() 时必须重写 hashCode() 方法&#xff1f; 参考链接 Object Object 类的常见方法有哪些&#xff1f; Object 类…

【spring 】Spring Cloud Gateway 的Filter学习

介绍和使用场景 Spring Cloud Gateway 是一个基于 Spring Framework 5 和 Project Reactor 的 API 网关&#xff0c;它旨在为微服务架构提供一种简单而有效的方式来处理请求路由、过滤、限流等功能。在 Spring Cloud Gateway 中&#xff0c;Filter 扮演着非常重要的角色&#…

[Docker#11] 容器编排 | .yml | up | 实验: 部署WordPress

目录 1. 什么是 Docker Compose 生活案例 2. 为什么要使用 Docker Compose Docker Compose 的安装 Docker Compose 的功能 使用步骤 核心功能 Docker Compose 使用场景 Docker Compose 文件&#xff08;docker-compose.yml&#xff09; 模仿示例 文件基本结构及常见…

学习虚幻C++开发日志——委托(持续更新中)

委托 官方文档&#xff1a;Delegates and Lamba Functions in Unreal Engine | 虚幻引擎 5.5 文档 | Epic Developer Community | Epic Developer Community 简单地说&#xff0c;委托就像是一个“函数指针”&#xff0c;但它更加安全和灵活。它允许程序在运行时动态地调用不…

【Linux】基础02

Linux编译和调试 VI编辑文件 vi : 进入文件编辑 是命令行模式 i &#xff1a;从光标处进入插入模式 dd : 删除光标所在行 n dd 删除指定行数 Esc &#xff1a; 退出插入模式 &#xff1a; 冒号进入末行模式 :wq : 保存退出 :q &#xff1a; 未修改文件可以退出 :q! …

前端:JavaScript (学习笔记)【1】

目录​​​​​​​ 一&#xff0c;介绍JavaScript 二&#xff0c;JavaScript的特点 1&#xff0c;脚本语言 2&#xff0c;基于对象的语言 3&#xff0c;事件驱动 4&#xff0c;简单性 5&#xff0c;安全性 6&#xff0c;跨平台性 7&#xff0c;JS 和java的区别 &…

安卓手机root+magisk安装证书+抓取https请求

先讲一下有这篇文章的背景吧&#xff0c;在使用安卓手机fiddler抓包时&#xff0c;即使信任了证书&#xff0c;并且手机也安装了证书&#xff0c;但是还是无法捕获https请求的问题&#xff0c;最开始不知道原因&#xff0c;后来慢慢了解到现在有的app为了防止抓包&#xff0c;把…

数字化那点事:一文读懂物联网

一、物联网是什么&#xff1f; 物联网&#xff08;Internet of Things&#xff0c;简称IoT&#xff09;是指通过网络将各种物理设备连接起来&#xff0c;使它们可以互相通信并进行数据交换的技术系统。通过在物理对象中嵌入传感器、处理器、通信模块等硬件&#xff0c;IoT将“…

Tomcat和Nginx原理说明

Tomcat Tomcat 是一个开源的 Java 应用服务器&#xff0c;它由多个关键组件组成。这些组件共同协作&#xff0c;实现了 Servlet 容器的功能。以下是 Tomcat 的核心组件说明及其逻辑架构的示意图。 1. Tomcat 核心组件说明 (1) Server 描述&#xff1a;Tomcat 的顶级组件&…

【大模型】LLaMA: Open and Efficient Foundation Language Models

链接&#xff1a;https://arxiv.org/pdf/2302.13971 论文&#xff1a;LLaMA: Open and Efficient Foundation Language Models Introduction 规模和效果 7B to 65B&#xff0c;LLaMA-13B 超过 GPT-3 (175B)Motivation 如何最好地缩放特定训练计算预算的数据集和模型大小&…

一文解决Latex中的eps报错eps-converted-to.pdf not found: using draft setting.

在使用Vscode配的PDFLatex编译IEEE TII的Latex模板时&#xff0c;出现eps文件不能转换为pdf错误&#xff0c;看了几十篇方法都没用&#xff0c;自己研究了半天终于可以正常运行了。主要原因还是Settings.JSON中的PDFLatex模块缺少&#xff1a;"--shell-escape", 命令…