大模型时代的具身智能系列专题(十四)

冯晨团队

冯晨是纽约大学的副教授。他对通过多学科使用启发研究实现机器人主动和协作感知和学习感兴趣，这些研究源自建筑、制造和运输领域。在纽约大学之前，冯晨是马萨诸塞州剑桥市三菱电机研究实验室 (MERL) 计算机视觉小组的研究科学家，专注于自动驾驶汽车和机器人的定位、地图绘制和深度学习，并发明了几种专利算法。冯晨拥有中国武汉大学地理空间工程学士学位、电气工程硕士学位和土木工程博士学位，均毕业于密歇根大学安娜堡分校。冯晨在 CVPR/ICCV/ICRA/IROS 等著名的 AI 和机器人会议发表文章并撰写评论，他还担任 IEEE 机器人与自动化快报 (RA-L) 的副主编。冯晨是 2023 年 NSF CAREER 奖的获得者。冯教授领导的AI4CE实验室（发音为“ AI-force ”）由来自纽约大学多个院系（计算机科学与工程系、计算机工程与应用学院、计算机科学与应用学院、计算机工程与应用学院）和学院（Tandon 和 Courant）的学生组成。AI4CE 实验室开展多学科的实用启发式研究，旨在为智能代理开发新型算法和系统，使其能够在动态和非结构化环境中准确理解材料和人类并与之高效交互。我们的目标是从根本上推动机器人和人工智能在定位、地图绘制、导航、移动操控和场景理解等领域的发展，以应对地球及其他地区的基础设施挑战，包括建筑机器人、制造自动化和自动驾驶汽车。

专题相关作品

SeeDo

SeeDo

在机器人领域，大型视觉语言模型（VLMs）或多模态大型语言模型（MLLMs）受到广泛关注。一些研究利用 VLMs 解析人类语言指令生成任务计划，还有些利用 VLMs 协助运动和轨迹规划，或者将 VLMs 用于数据生成系统模拟真实数据训练机器人策略。这些工作通常以文本、图像或两者作为 VLMs 的输入。虽然语言指令在很多应用场景中很有效，但有些任务难以用纯语言精确表达。视频提供了更直观的表示方式，特别适合具有多个步骤或涉及时空依赖的长周期任务。视频是人类自然的学习媒介，人类经常通过观察演示来获取技能和解析任务步骤。而且互联网上视频数据丰富，有希望用于扩大机器人学习规模。由于机器人和人类之间存在较大的领域差距，教机器人从人类视频中学习仍然具有挑战性。在模仿学习研究中，长周期任务往往需要收集大量的演示。
SeeDo将关键帧选择、视觉感知和VLM推理集成到一个管道中，因为它使VLM能够“看到”人类的演示，并向机器人解释相应的计划，让它“做”。
在这里插入图片描述
已有工作探索将VLMs 的任务规划能力应用在机器人控制方面，部分工作将机器人可执行代码作为任务计划的媒介，VLMs 接收人类语言指令及有时接收图像作为输入，输出任务计划代码。借助预训练 VLMs 的常识推理和丰富语义知识，一些研究表明机器人能更有效地处理非专家人类语言指令。也有工作利用演示视频为机器人学习提供直接监督信号，现有很多工作利用遥控机器人视频通过模仿学习训练机器人策略。近期工作也将 VLMs 训练为可接受包括视频在内的多种模态输入，并能进行视频分析任务如问答和视频字幕。

与直接将长期人类演示视频输入模仿学习模型不同，由于VLM的能力，用SeeDo解释它们具有几个优势：首先，VLM丰富的常识知识使其能够理解对象及其关系，让模型在存在表观差距的情况下也能掌握任务。其次，其强大的zeroshot泛化能力使其对视频中的环境变化更具鲁棒性。即便在演示视频和实际部署之间对象的外观、位置或周围环境存在差异，VLM生成的计划依然有效。

尽管VLM有优势，但文章发现它在处理全长视频的每一帧以及准确确定空间关系方面存在困难，而这是机器人应用中视频的关键特征。为解决此问题，SeeDo不仅配备了VLM推理模块，还配备了关键帧选择模块和视觉感知模块，如图1所示。关键帧选择基于手速度启发式地识别关键帧，视觉感知则增强了VLM跟踪物体的能力，提高了其整体感知能力。为测试完整的流水线，文章收集了一个长期取放任务的benchmark，其中包含三个不同类别的人类演示视频：蔬菜组织、服装组织和木块堆叠，所有这些都表现出强烈的时间和空间依赖性。文章依据最先进的视频VLM等benchmark对SeeDo进行了评估，SeeDo表现出最佳性能。

模型框架

在这里插入图片描述

首先，关键帧选择模块（Keyframe Selection）利用轻量级方法检测手并绘制手速随时间的变化曲线，对曲线进行插值和平滑处理，得到手速的波状表示，将波谷对应的帧作为关键帧。由于手检测不完美，有些波谷可能是插值结果，所以进一步过滤掉噪声关键帧。在 VLM 推理模块中，还会提示 VLM 评估帧是否包含手 - 对象交互，以提高准确性。

视觉感知模块（Visual Perception）指示 VLM 识别视频中的对象，然后使用开放词汇对象检测器提取第一帧中的对象边界框。这些边界框作为提示用于最新的 Segment Anything Model（SAM2）进行视频跟踪，将跟踪得到的跟踪 IDs 和掩码轮廓标注到先前选择的关键帧上作为视觉提示。

VLM 推理模块（VLM Reasoning）维护从视觉感知模块获得的对象列表，将掩码轮廓和跟踪 ID 作为关键帧中的视觉提示来帮助对象识别。通过使用轮廓而不是完整掩码，突出感兴趣的对象且不阻碍其外观。将掩码的中心坐标与相应的跟踪 IDs 一起附加到文本提示中，暗示对象的空间关系。

最后进行计划执行（Plan Execution），SeeDo 生成的任务计划可以由任何可以接受文本输入的机器人动作模型逐步处理。具体来说，作者使用语言模型程序（LMPs）在 UR10e 机器人手臂上实现任务计划，包括在 Pybullet 模拟和实际部署中。

在这里插入图片描述

实验

接下来看看实验如何设计。作者对可分解为一系列取放子任务的长周期日常任务和构建任务感兴趣，收集了涵盖三个不同类别的人类演示视频作为评估任务，如图3所示：

蔬菜组织任务包含人类将不同蔬菜放入不同容器的演示视频，使用毛绒玩具代替真实蔬菜，模拟厨房场景，有 6 种蔬菜和 4 种容器，共 38 个演示。

衣物组织任务包含人类将衣物整理到不同盒子的演示，有多种衣物类型，共 30 个演示。

木块堆叠任务包含人类玩木块的演示，对象视觉外观相似，对空间关系推理要求高，共 39 个演示。
在这里插入图片描述
作者提出三个指标评估生成计划的完整性：

任务成功率（TSR）：严格评估生成计划是否与视频完全一致，计划的每一步在内容和时间顺序上都必须与演示的动作序列匹配。
最终状态成功率（FSR）：类似于传统的成功率，只要对象的最终状态与演示结果匹配即为成功，不考虑执行的时间顺序。
步骤成功率（SSR）：评估部分完整性，将生成计划的取放步骤与演示视频按时间顺序对齐，计算对齐步骤数与演示中总真实步骤数的比例。

还从失败案例中识别出三种类型的错误：

视觉错误：模型无法识别或有效区分不同对象，反映模型的视觉识别能力。
空间错误：对象被正确识别和区分，但在推理它们之间的空间关系时出错，反映空间推理能力。
时间错误：输出的动作数量与人类演示不同，或动作的时间顺序不正确，反映模型在视频理解和时间推理方面的能力。

定性结果

在这里插入图片描述

定量结果。SeeDo 在所有三个任务的 TSR、FSR 和 SSR 指标上均优于所有闭源和开源视频 VLM 基线。GPT - 4o Init + Final 的 FSR 在衣物任务上稍高，但整体 TSR 和 SSR 较差。SeeDo 在两个日常任务的 SSR 准确率超过 70%，在木块堆叠任务上超过 50%。

在这里插入图片描述
关键帧选择消融实验：使用均匀采样（Unif.）进行关键帧提取的实验结果不佳，难以确保关键帧包含关键动作，影响 GPT - 4o 理解，且常超出上下文限制，而基于手检测的关键帧选择（表中最后一行）能有效提取关键信息并取得更好性能。

在这里插入图片描述
视觉提示消融实验：在木块堆叠任务上进行实验，结果表明视觉提示显著增强了空间推理能力。

失败案例分析：SeeDo 在所有错误类型中的错误率均低于其他模型，特别是在时间错误率方面表现出色，但空间错误仍然是其主要失败原因，这可能归因于当前 VLMs 空间智能有限以及视觉感知模块跟踪不完善。

在这里插入图片描述

总结

本文使用大型视觉语言模型（VLMs）解决了从人类演示视频中提取机器人任务计划的挑战，提出的 SeeDo 方法在时间理解、空间关系推理和对象区分方面有显著提升，在不同类别长周期取放任务上性能优于现有视频 VLMs。

但现有研究仍有些局限性，具体如下：

动作空间有限：当前实验仅限于取放动作，下一步需扩展到更复杂行为逻辑或更多样行为的动作空间。
空间智能有限：视觉感知模块虽提高了区分左右空间关系的能力，但在需要更精确空间推理的任务（如木块堆叠）中仍会出错，需要未来 VLMs 有更强的空间智能。
空间定位不明确：SeeDo 仅将对象空间位置描述为有限的高级相对空间关系对，依赖调用动作原语确定精确位置，对于需要精确操作的任务能力不足，未来需探索从演示视频中提取更精确的空间定位。