大模型时代的具身智能系列专题(十四)

冯晨团队

冯晨是纽约大学的副教授。他对通过多学科使用启发研究实现机器人主动和协作感知和学习感兴趣,这些研究源自建筑、制造和运输领域。在纽约大学之前,冯晨是马萨诸塞州剑桥市三菱电机研究实验室 (MERL) 计算机视觉小组的研究科学家,专注于自动驾驶汽车和机器人的定位、地图绘制和深度学习,并发明了几种专利算法。冯晨拥有中国武汉大学地理空间工程学士学位、电气工程硕士学位和土木工程博士学位,均毕业于密歇根大学安娜堡分校。冯晨在 CVPR/ICCV/ICRA/IROS 等著名的 AI 和机器人会议发表文章并撰写评论,他还担任 IEEE 机器人与自动化快报 (RA-L) 的副主编。冯晨是 2023 年 NSF CAREER 奖的获得者。冯教授领导的AI4CE实验室(发音为“ AI-force ”)由来自纽约大学多个院系(计算机科学与工程系、计算机工程与应用学院、计算机科学与应用学院、计算机工程与应用学院)和学院(Tandon 和 Courant)的学生组成。AI4CE 实验室开展多学科的实用启发式研究,旨在为智能代理开发新型算法和系统,使其能够在动态和非结构化环境中准确理解材料和人类并与之高效交互。我们的目标是从根本上推动机器人和人工智能在定位、地图绘制、导航、移动操控和场景理解等领域的发展,以应对地球及其他地区的基础设施挑战,包括建筑机器人、制造自动化和自动驾驶汽车。

专题相关作品

  • SeeDo

SeeDo

在机器人领域,大型视觉语言模型(VLMs)或多模态大型语言模型(MLLMs)受到广泛关注。一些研究利用 VLMs 解析人类语言指令生成任务计划,还有些利用 VLMs 协助运动和轨迹规划,或者将 VLMs 用于数据生成系统模拟真实数据训练机器人策略。这些工作通常以文本、图像或两者作为 VLMs 的输入。虽然语言指令在很多应用场景中很有效,但有些任务难以用纯语言精确表达。视频提供了更直观的表示方式,特别适合具有多个步骤或涉及时空依赖的长周期任务。视频是人类自然的学习媒介,人类经常通过观察演示来获取技能和解析任务步骤。而且互联网上视频数据丰富,有希望用于扩大机器人学习规模。由于机器人和人类之间存在较大的领域差距,教机器人从人类视频中学习仍然具有挑战性。在模仿学习研究中,长周期任务往往需要收集大量的演示。
SeeDo将关键帧选择、视觉感知和VLM推理集成到一个管道中,因为它使VLM能够“看到”人类的演示,并向机器人解释相应的计划,让它“做”。
在这里插入图片描述
已有工作探索将VLMs 的任务规划能力应用在机器人控制方面,部分工作将机器人可执行代码作为任务计划的媒介,VLMs 接收人类语言指令及有时接收图像作为输入,输出任务计划代码。借助预训练 VLMs 的常识推理和丰富语义知识,一些研究表明机器人能更有效地处理非专家人类语言指令。也有工作利用演示视频为机器人学习提供直接监督信号,现有很多工作利用遥控机器人视频通过模仿学习训练机器人策略。近期工作也将 VLMs 训练为可接受包括视频在内的多种模态输入,并能进行视频分析任务如问答和视频字幕。

与直接将长期人类演示视频输入模仿学习模型不同,由于VLM的能力,用SeeDo解释它们具有几个优势:首先,VLM丰富的常识知识使其能够理解对象及其关系,让模型在存在表观差距的情况下也能掌握任务。其次,其强大的zeroshot泛化能力使其对视频中的环境变化更具鲁棒性。即便在演示视频和实际部署之间对象的外观、位置或周围环境存在差异,VLM生成的计划依然有效。

尽管VLM有优势,但文章发现它在处理全长视频的每一帧以及准确确定空间关系方面存在困难,而这是机器人应用中视频的关键特征。为解决此问题,SeeDo不仅配备了VLM推理模块,还配备了关键帧选择模块和视觉感知模块,如图1所示。关键帧选择基于手速度启发式地识别关键帧,视觉感知则增强了VLM跟踪物体的能力,提高了其整体感知能力。为测试完整的流水线,文章收集了一个长期取放任务的benchmark,其中包含三个不同类别的人类演示视频:蔬菜组织、服装组织和木块堆叠,所有这些都表现出强烈的时间和空间依赖性。文章依据最先进的视频VLM等benchmark对SeeDo进行了评估,SeeDo表现出最佳性能。

模型框架

在这里插入图片描述

首先,关键帧选择模块(Keyframe Selection)利用轻量级方法检测手并绘制手速随时间的变化曲线,对曲线进行插值和平滑处理,得到手速的波状表示,将波谷对应的帧作为关键帧。由于手检测不完美,有些波谷可能是插值结果,所以进一步过滤掉噪声关键帧。在 VLM 推理模块中,还会提示 VLM 评估帧是否包含手 - 对象交互,以提高准确性。

视觉感知模块(Visual Perception)指示 VLM 识别视频中的对象,然后使用开放词汇对象检测器提取第一帧中的对象边界框。这些边界框作为提示用于最新的 Segment Anything Model(SAM2)进行视频跟踪,将跟踪得到的跟踪 IDs 和掩码轮廓标注到先前选择的关键帧上作为视觉提示。

VLM 推理模块(VLM Reasoning)维护从视觉感知模块获得的对象列表,将掩码轮廓和跟踪 ID 作为关键帧中的视觉提示来帮助对象识别。通过使用轮廓而不是完整掩码,突出感兴趣的对象且不阻碍其外观。将掩码的中心坐标与相应的跟踪 IDs 一起附加到文本提示中,暗示对象的空间关系。

最后进行计划执行(Plan Execution),SeeDo 生成的任务计划可以由任何可以接受文本输入的机器人动作模型逐步处理。具体来说,作者使用语言模型程序(LMPs)在 UR10e 机器人手臂上实现任务计划,包括在 Pybullet 模拟和实际部署中。

在这里插入图片描述

实验

接下来看看实验如何设计。作者对可分解为一系列取放子任务的长周期日常任务和构建任务感兴趣,收集了涵盖三个不同类别的人类演示视频作为评估任务,如图3所示:

蔬菜组织任务包含人类将不同蔬菜放入不同容器的演示视频,使用毛绒玩具代替真实蔬菜,模拟厨房场景,有 6 种蔬菜和 4 种容器,共 38 个演示。

衣物组织任务包含人类将衣物整理到不同盒子的演示,有多种衣物类型,共 30 个演示。

木块堆叠任务包含人类玩木块的演示,对象视觉外观相似,对空间关系推理要求高,共 39 个演示。
在这里插入图片描述
作者提出三个指标评估生成计划的完整性:

  • 任务成功率(TSR):严格评估生成计划是否与视频完全一致,计划的每一步在内容和时间顺序上都必须与演示的动作序列匹配。

  • 最终状态成功率(FSR):类似于传统的成功率,只要对象的最终状态与演示结果匹配即为成功,不考虑执行的时间顺序。

  • 步骤成功率(SSR):评估部分完整性,将生成计划的取放步骤与演示视频按时间顺序对齐,计算对齐步骤数与演示中总真实步骤数的比例。

还从失败案例中识别出三种类型的错误:

  • 视觉错误:模型无法识别或有效区分不同对象,反映模型的视觉识别能力。

  • 空间错误:对象被正确识别和区分,但在推理它们之间的空间关系时出错,反映空间推理能力。

  • 时间错误:输出的动作数量与人类演示不同,或动作的时间顺序不正确,反映模型在视频理解和时间推理方面的能力。

定性结果

在这里插入图片描述

定量结果。SeeDo 在所有三个任务的 TSR、FSR 和 SSR 指标上均优于所有闭源和开源视频 VLM 基线。GPT - 4o Init + Final 的 FSR 在衣物任务上稍高,但整体 TSR 和 SSR 较差。SeeDo 在两个日常任务的 SSR 准确率超过 70%,在木块堆叠任务上超过 50%。

在这里插入图片描述
关键帧选择消融实验:使用均匀采样(Unif.)进行关键帧提取的实验结果不佳,难以确保关键帧包含关键动作,影响 GPT - 4o 理解,且常超出上下文限制,而基于手检测的关键帧选择(表中最后一行)能有效提取关键信息并取得更好性能。

在这里插入图片描述
视觉提示消融实验:在木块堆叠任务上进行实验,结果表明视觉提示显著增强了空间推理能力。
在这里插入图片描述
失败案例分析:SeeDo 在所有错误类型中的错误率均低于其他模型,特别是在时间错误率方面表现出色,但空间错误仍然是其主要失败原因,这可能归因于当前 VLMs 空间智能有限以及视觉感知模块跟踪不完善。

在这里插入图片描述

总结

本文使用大型视觉语言模型(VLMs)解决了从人类演示视频中提取机器人任务计划的挑战,提出的 SeeDo 方法在时间理解、空间关系推理和对象区分方面有显著提升,在不同类别长周期取放任务上性能优于现有视频 VLMs。

但现有研究仍有些局限性,具体如下:

  • 动作空间有限:当前实验仅限于取放动作,下一步需扩展到更复杂行为逻辑或更多样行为的动作空间。

  • 空间智能有限:视觉感知模块虽提高了区分左右空间关系的能力,但在需要更精确空间推理的任务(如木块堆叠)中仍会出错,需要未来 VLMs 有更强的空间智能。

  • 空间定位不明确:SeeDo 仅将对象空间位置描述为有限的高级相对空间关系对,依赖调用动作原语确定精确位置,对于需要精确操作的任务能力不足,未来需探索从演示视频中提取更精确的空间定位。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/921603.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

力扣-Hot100-栈【算法学习day.40】

前言 ###我做这类文档一个重要的目的还是给正在学习的大家提供方向(例如想要掌握基础用法,该刷哪些题?)我的解析也不会做的非常详细,只会提供思路和一些关键点,力扣上的大佬们的题解质量是非常非常高滴&am…

RT_Thread内核源码分析(三)——线程

目录 1. 线程结构 2. 线程创建 2.1 静态线程创建 2.2 动态线程创建 2.3 源码分析 2.4 线程内存结构 3. 线程状态 3.1 线程状态分类 3.2 就绪状态和运行态 3.3 阻塞/挂起状态 3.3.1 阻塞工况 3.4 关闭状态 3.4.1 线程关闭接口 3.4.2 静态线程关闭 3.4.3 动态线程关…

043 商品详情

文章目录 详情页数据表结构voSkuItemVo.javaSkuItemSaleAttrVo.javaAttrValueAndSkuIdVo.javaSpuAttrGroupVo.javaGroupAttrParamVo.java pom.xmlSkuSaleAttrValueDao.xmlSkuSaleAttrValueDao.javaAttrGroupDao.xmlAttrGroupServiceImpl.javaSkuInfoServiceImpl.javaSkuSaleAtt…

硬件知识 cadence16.6 原理图输出为pdf 网络名下划线偏移 (ORCAD)

1. cadence原理图输出为PDF网络名下划线偏移 生这种情况的原因 1. 设计的原理图图纸大小比正常的 A4图纸大。 2. 打印为PDF 的时候,打印机的设置有问题。 2.cadence原理图输出为 PDF网络名下划线偏移的情况 可以看到上图,网络名往上漂移。 3. 解决办法 …

Spring-boot3.4最新版整合swagger和Mybatis-plus

好家伙,今天终于开始用spring-boot3开始写项目了,以后要彻底告别1.x和2.x了,同样的jdk也来到了最低17的要求了,废话不多说直接开始 这是官方文档的要求jdk最低是17 maven最低是3.6 一. 构建工程,这一步就不需要给大家解释了吧 二. 整合Knife4j 1.大于 …

从零开始:如何使用第三方视频美颜SDK开发实时直播美颜平台

开发一个具有实时美颜功能的直播平台,能够显著提高用户体验和内容质量。而利用第三方视频美颜SDK可以大大简化开发过程,加快产品上市速度。本篇文章,小编将从零开始,详细讲解如何使用第三方视频美颜SDK开发一个实时直播美颜平台。…

ROS入门学习ONE

ros入门玩法1:控制小龟龟 终端1输入 sudo apt install ros-noetic-rqt-steering 新建终端2(快捷键CtrlAltT),打开控制台 roscore //启动ros系统 回到原终端 rosrun rosrun rqt_robot_steering rqt_robot_steering 新建终端3,…

shell脚本(二)

声明! 学习视频来自B站up主 泷羽sec 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&#…

简单理解下基于 Redisson 库的分布式锁机制

目录 简单理解下基于 Redisson 库的分布式锁机制代码流程:方法的调用:具体锁的实现:riderBalance 方法:tryLock 方法(重载):tryLock 方法(核心实现): 简单理解…

小鹏汽车智慧材料数据库系统项目总成数据同步

1、定时任务处理 2、提供了接口 小鹏方面提供的推送的数据表结构: 这几个表总数为100多万,经过条件筛选过滤后大概2万多条数据 小鹏的人给的示例图: 界面: SQL: -- 查询车型 select bmm.md_material_id, bmm.material_num, bm…

LeetCode 3244.新增道路查询后的最短距离 II:贪心(跃迁合并)-9行py(O(n))

【LetMeFly】3244.新增道路查询后的最短距离 II:贪心(跃迁合并)-9行py(O(n)) 力扣题目链接:https://leetcode.cn/problems/shortest-distance-after-road-addition-queries-ii/ 给你一个整数 n 和一个二维…

华为无线AC+AP组网实际应用小结

之前公司都是使用的H3C的交换机、防火墙以及无线AC和AP的,最近优化下无线网络,说新的设备用华为的,然后我是直到要部署的当天才知道用华为设备的,就很无语了,一点准备没有,以下为这次的实际操作记录吧&…

Fakelocation Server服务器/专业版 Windows11

前言:需要Windows11系统 Fakelocation开源文件系统需求 Windows11 | Fakelocation | 任务一 打开 PowerShell(以管理员身份)命令安装 Chocolatey Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProto…

C语言基础学习:抽象数据类型(ADT)

基础概念 抽象数据类型(ADT)是一种数据类型,它定义了一组数据以及可以在这组数据上执行的操作,但隐藏了数据的具体存储方式和实现细节。在C语言中,抽象数据类型(ADT)是一种非常重要的概念&…

基于深度学习CNN算法的花卉分类识别系统01--带数据集-pyqt5UI界面-全套源码

文章目录 基于深度学习算法的花卉分类识别系统一、项目摘要二、项目运行效果三、项目文件介绍四、项目环境配置1、项目环境库2、环境配置视频教程 五、项目系统架构六、项目构建流程1、数据集2、算法网络Mobilenet3、网络模型训练4、训练好的模型预测5、UI界面设计-pyqt56、项目…

Bokeh实现大规模数据可视化的最佳实践

目录 引言 一、Bokeh简介 二、安装Bokeh 三、数据准备 四、性能优化 五、创建图表 六、添加交互功能 七、应用案例 八、高级技巧 九、总结 引言 在数据科学领域,数据可视化是一个至关重要的环节。通过可视化,我们可以直观地理解数据的特征和趋势,为数据分析和决策…

Easyexcel(4-模板文件)

相关文章链接 Easyexcel(1-注解使用)Easyexcel(2-文件读取)Easyexcel(3-文件导出)Easyexcel(4-模板文件) 文件导出 获取 resources 目录下的文件,使用 withTemplate 获…

【山大909算法题】2014-T1

文章目录 1.原题2.算法思想3.关键代码4.完整代码5.运行结果 1.原题 为带表头的单链表类Chain编写一个成员函数Reverse,该函数对链表进行逆序操作(将链表中的结点按与原序相反的顺序连接),要求逆序操作就地进行,不分配…

[Redis#2] 定义 | 使用场景 | 安装教程 | 快!

目录 1. 定义 In-memory data structures 在内存中存储数据 2. 优点!快 Programmability 可编程性 Extensibility 扩展性 Persistence 持久化 Clustering 分布式集群 High availability 高可用性 ⭕快速访问的实现 3. 使用场景 1.Real-time data store …

学习编程,学习中间件,学习源码的思路

01 看的多,内化不足 最近想复习一下编程相关的知识,在复习前我翻开了之前的一些笔记,这些笔记基本都是从书本、视频、博客等摘取记录的,看着这些笔记心里总结:看的多,内化不足。 02 整理大纲 为了解决这个…