Shubhangi Sinha团队
Shubhangi Sinha是康奈尔大学计算机科学系助理教授。在加入康奈尔大学之前,Tapo 是华盛顿大学计算机科学与工程专业的 NIH Ruth L. Kirschstein NRSA 博士后研究员。他在佐治亚理工学院获得了机器人学博士学位。他之前还曾在迪士尼研究中心工作过。Tapo 的研究旨在使机器人能够协助行动不便的人进行日常生活活动。Tapo 感兴趣的基本研究问题是如何在非结构化的人类环境中利用机器人世界的物理和社交互动来智能高效地执行相关的日常生活活动。这涵盖了人机交互、触觉感知和机器人操纵等领域的研究。Tapo 拥有计算机科学和机械工程背景,是一位全栈机器人专家。他不仅热衷于开发解决这些领域基本问题的算法,而且坚信开发真正的机器人系统、在现实世界中部署它们并与真实用户一起评估它们。
主题相关作品
- REPeat
REPeat
全球约 16% 人口存在残疾,其中许多人在日常生活基本活动(ADLs)中缺乏独立性,进食是 ADLs 中的关键活动,机器人辅助喂食系统有改善受助者生活质量和减轻护理人员负担的潜力。
此前机器人辅助喂食系统主要关注咬合获取(从盘子中捡起食物)和咬合转移(将食物移至受助者嘴边或口中)两个子问题,本文聚焦于咬合获取,尤其是针对吞咽困难者所需的软质食物。软质食物流变特性多样,咬合获取具挑战性。人类常使用预获取动作(如推、切、翻)使咬合获取更容易,受此启发,研究人员认为预获取动作也可提高机器人辅助咬合获取的成功率。当前模拟技术可模拟预获取动作动力学,但咬合获取模拟因需精确建模摩擦力而具挑战性,存在较大的 Sim2Real 差距。
先前食物操作的研究多集中于咬合获取和转移,但在处理不同特性食物及复杂餐盘场景方面存在不足。现有工作也探索了非获取动作,本文在此基础上通过纳入多种预获取动作(如文中提及的推、切、翻等动作)的物理信息评估来实现软质食物的咬合获取。
食物模拟技术分为基于网格和无网格方法,基于网格方法(如使用有限元法,如 DiSECt)计算密集且不适合模拟颗粒或流体状食物,无网格方法(如使用物质点法 MPM,如 FluidLab)在模拟流体状食物方面更灵活,本文基于 FluidLab 使用 MPM 模拟软质食物。
对于物体操作的动力学建模,数据驱动动力学模型在长时域预测中存在误差积累问题,物理模拟是一种可行替代方案,本文在基于物理的模拟器(MPM)中对软质食物进行动力学建模。在此基础上,提出了 REPeat 这一用于机器人辅助喂食中软质食物预获取的 Real2Sim2Real 框架,旨在提高软质食物咬合获取的成功率。
方法
REPeat利用Real2Sim2Real方法来选择预获取动作(图2)。首先,REPeat的动作空间包括预获取动作(推、切、翻)和咬合获取动作(串、舀、旋转),并对其进行了详细定义和参数化。它接收盘子上食物的RGB图像,并预测预获取或咬获取动作作为机器人要采取的输出。系统首先使用SPANet-soft,这是一个数据驱动的咬合获取成功率估计模块,以确定直接咬合获取是否足以用于特定的食物。如果预测直接咬合是有挑战性的,系统会切换到Real2Sim,创建一个模拟环境来复制盘子上的食物。然后,系统通过执行每个动作一次来探索各种预采集动作。在这些动作之后,它执行Sim2Real,为SPANet-soft渲染逼真的图像,以估计咬痕采集动作的成功率。在此之后,机器人执行预获取动作,导致咬痕获取成功率最显著的增加。
SPANet - soft 模块:用于软质食物动作预测,估计每个咬合获取动作的成功率。该模块以 RGB 图像为输入,预测输出为每个食物的咬合获取动作成功率,其结构包括动作空间预测、食物检测(使用 Grounded - SAM 替代 RetinaNet)、环境分类器(将目标食物周围环境编码为孤立或靠近壁两种情况)和咬口大小分类器(基于分割掩码估计食物体积判断是否为咬口大小),通过收集真实机器人咬合获取的经验成功率训练,使用光滑 L1 损失确保模型学习成功率分布。
Real2Sim 步骤:当 SPANet - soft 预测直接咬合获取可能失败时启动。先使用 DepthAnything 进行单目深度估计,利用 Grounded - SAM 生成的分割掩码获取食物深度,再通过变形模板网格实时创建高质量食物网格,具体是根据深度图像更新模板网格顶点位置。
Sim 步骤:使用 MLS - MPM 模拟预获取动作,将 Real2Sim 步骤中获得的食物网格作为输入,环境包括与食物交互的叉子和硅胶盘子。对食物使用三种本构模型近似,将叉子和盘子建模为刚性物体并模拟摩擦。同时,通过实现自适应粒子采样模块(为不同食物类型分配特定密度以模拟复杂食物变形和断裂)和按需渲染模块(优化渲染减少计算负载)增强 FluidLab 的功能。
Sim2Real 步骤:在模拟中获得每个预获取动作的预测最终餐盘配置后,使用 ControlNet 生成视觉逼真的图像,将其传递给 SPANet - soft 评估咬合获取成功率,从而选择最佳预获取动作。通过收集各类食物的 RGB 图像数据集训练 ControlNet,输入包括模拟深度数据和食物类别名称,网络结构和损失函数与原始 ControlNet 实现相同。
实验评估
实验设置如图四所示。
预获取动作包括推(Pushing)、翻(Flipping)、切(Cutting)。推(Pushing)对颗粒状食物(如土豆泥、米饭、通心粉和奶酪)效果显著,能巩固食物防止从叉子滑落,还可将食物移向餐盘壁或其他食物附近,从而提高舀取(Scooping)成功率。翻(Flipping)对于香蕉切片等食物,翻转可暴露平坦表面,这对成功串取(Skewering)至关重要,能防止食物在串取过程中滚动。切(Cutting)将易碎食物(如 Jell - O)切成咬口大小,有助于进食,同时帮助食物保持形状,减少在获取过程中断裂和掉落的可能性。结果显示,通过与基线(无预获取动作)对比,REPeat 方法在 10 种食物的咬合获取成功率上平均提高了 27%,对部分食物(如 Jell - O、土豆泥等)的改善具有统计学显著性。文中展示了一个包含 5 种食物的硬难度餐盘的执行示例(图 5),同时展示了一些典型的失败案例(图 7c)。
图 5 展示了在一个硬难度餐盘(包含 5 种食物)上 REPeat 系统执行预获取动作和咬合获取动作的过程示例。在执行完预获取动作后,执行咬合获取动作(如串取、舀取等),图中虽未详细展示动作执行瞬间,但通过整个过程的展示体现了 REPeat 系统如何通过预获取动作来提高咬合获取的成功率,最终成功获取食物(如串取到香蕉等)。
图 6 展示了用于评估系统的 10 种食物,包括 Jell - O、豆腐、土豆泥、牛油果、燕麦片、米饭、红丝绒蛋糕、香蕉、意大利面、通心粉和奶酪,这些食物涵盖了弹性、可塑性、粘度、质地和形状等影响咬合获取成功率的多种特性。
图 7(a)以柱状图形式对比了 REPeat 方法与基线在 10 种食物类别上的咬合获取成功率。可以直观看到每种食物在使用 REPeat 方法(蓝色柱)和基线方法(橙色柱)时的成功率差异。例如,在 Jell - O 上,REPeat 方法的成功率明显高于基线;在香蕉上,虽然两种方法成功率都较高,但 REPeat 仍有一定提升。平均而言,REPeat 方法使成功率提高了 27%,通过卡方显著性检验确定了在部分食物上的显著优势。图 7(b)以示意图形式说明了预获取动作(推、翻、切)如何提高咬合获取成功率,针对不同食物类型展示了动作前后的状态变化。图 7(c)展示了在使用 REPeat 系统过程中出现的一些未能成功完成咬合获取的情况示例。
展望
文章在结果展示后讨论了一些尚未探究的问题:REPeat 是对多种软质食物进行物理信息预获取动作的初步尝试,虽在不同机器人、多种食物组合评估中证明了预获取动作可提高软质食物咬合获取成功率,但存在局限性,如食物特性时变、食物感知(需精心构建提示)和食物模拟(计算密集、难以平衡保真度和速度)等问题。未来随着在线食物参数识别、视觉语言模型(VLM)感知和食物模拟技术的进步,有望将 REPeat 与咬合转移集成用于实际喂食,造福有严重行动障碍的软食需求者。
参考文献
- https://sites.google.com/site/tapomayukh/cv?authuser=0