大模型时代的具身智能系列专题(十五)

Shubhangi Sinha团队

Shubhangi Sinha是康奈尔大学计算机科学系助理教授。在加入康奈尔大学之前,Tapo 是华盛顿大学计算机科学与工程专业的 NIH Ruth L. Kirschstein NRSA 博士后研究员。他在佐治亚理工学院获得了机器人学博士学位。他之前还曾在迪士尼研究中心工作过。Tapo 的研究旨在使机器人能够协助行动不便的人进行日常生活活动。Tapo 感兴趣的基本研究问题是如何在非结构化的人类环境中利用机器人世界的物理和社交互动来智能高效地执行相关的日常生活活动。这涵盖了人机交互、触觉感知和机器人操纵等领域的研究。Tapo 拥有计算机科学和机械工程背景,是一位全栈机器人专家。他不仅热衷于开发解决这些领域基本问题的算法,而且坚信开发真正的机器人系统、在现实世界中部署它们并与真实用户一起评估它们。

主题相关作品

  • REPeat

REPeat

全球约 16% 人口存在残疾,其中许多人在日常生活基本活动(ADLs)中缺乏独立性,进食是 ADLs 中的关键活动,机器人辅助喂食系统有改善受助者生活质量和减轻护理人员负担的潜力。
此前机器人辅助喂食系统主要关注咬合获取(从盘子中捡起食物)和咬合转移(将食物移至受助者嘴边或口中)两个子问题,本文聚焦于咬合获取,尤其是针对吞咽困难者所需的软质食物。软质食物流变特性多样,咬合获取具挑战性。人类常使用预获取动作(如推、切、翻)使咬合获取更容易,受此启发,研究人员认为预获取动作也可提高机器人辅助咬合获取的成功率。当前模拟技术可模拟预获取动作动力学,但咬合获取模拟因需精确建模摩擦力而具挑战性,存在较大的 Sim2Real 差距。

先前食物操作的研究多集中于咬合获取和转移,但在处理不同特性食物及复杂餐盘场景方面存在不足。现有工作也探索了非获取动作,本文在此基础上通过纳入多种预获取动作(如文中提及的推、切、翻等动作)的物理信息评估来实现软质食物的咬合获取。

食物模拟技术分为基于网格和无网格方法,基于网格方法(如使用有限元法,如 DiSECt)计算密集且不适合模拟颗粒或流体状食物,无网格方法(如使用物质点法 MPM,如 FluidLab)在模拟流体状食物方面更灵活,本文基于 FluidLab 使用 MPM 模拟软质食物。

对于物体操作的动力学建模,数据驱动动力学模型在长时域预测中存在误差积累问题,物理模拟是一种可行替代方案,本文在基于物理的模拟器(MPM)中对软质食物进行动力学建模。在此基础上,提出了 REPeat 这一用于机器人辅助喂食中软质食物预获取的 Real2Sim2Real 框架,旨在提高软质食物咬合获取的成功率。

在这里插入图片描述

方法

REPeat利用Real2Sim2Real方法来选择预获取动作(图2)。首先,REPeat的动作空间包括预获取动作(推、切、翻)和咬合获取动作(串、舀、旋转),并对其进行了详细定义和参数化。它接收盘子上食物的RGB图像,并预测预获取或咬获取动作作为机器人要采取的输出。系统首先使用SPANet-soft,这是一个数据驱动的咬合获取成功率估计模块,以确定直接咬合获取是否足以用于特定的食物。如果预测直接咬合是有挑战性的,系统会切换到Real2Sim,创建一个模拟环境来复制盘子上的食物。然后,系统通过执行每个动作一次来探索各种预采集动作。在这些动作之后,它执行Sim2Real,为SPANet-soft渲染逼真的图像,以估计咬痕采集动作的成功率。在此之后,机器人执行预获取动作,导致咬痕获取成功率最显著的增加。

在这里插入图片描述

SPANet - soft 模块:用于软质食物动作预测,估计每个咬合获取动作的成功率。该模块以 RGB 图像为输入,预测输出为每个食物的咬合获取动作成功率,其结构包括动作空间预测、食物检测(使用 Grounded - SAM 替代 RetinaNet)、环境分类器(将目标食物周围环境编码为孤立或靠近壁两种情况)和咬口大小分类器(基于分割掩码估计食物体积判断是否为咬口大小),通过收集真实机器人咬合获取的经验成功率训练,使用光滑 L1 损失确保模型学习成功率分布。

Real2Sim 步骤:当 SPANet - soft 预测直接咬合获取可能失败时启动。先使用 DepthAnything 进行单目深度估计,利用 Grounded - SAM 生成的分割掩码获取食物深度,再通过变形模板网格实时创建高质量食物网格,具体是根据深度图像更新模板网格顶点位置。

在这里插入图片描述
Sim 步骤:使用 MLS - MPM 模拟预获取动作,将 Real2Sim 步骤中获得的食物网格作为输入,环境包括与食物交互的叉子和硅胶盘子。对食物使用三种本构模型近似,将叉子和盘子建模为刚性物体并模拟摩擦。同时,通过实现自适应粒子采样模块(为不同食物类型分配特定密度以模拟复杂食物变形和断裂)和按需渲染模块(优化渲染减少计算负载)增强 FluidLab 的功能。

Sim2Real 步骤:在模拟中获得每个预获取动作的预测最终餐盘配置后,使用 ControlNet 生成视觉逼真的图像,将其传递给 SPANet - soft 评估咬合获取成功率,从而选择最佳预获取动作。通过收集各类食物的 RGB 图像数据集训练 ControlNet,输入包括模拟深度数据和食物类别名称,网络结构和损失函数与原始 ControlNet 实现相同。

实验评估

实验设置如图四所示。
在这里插入图片描述
预获取动作包括推(Pushing)、翻(Flipping)、切(Cutting)。推(Pushing)对颗粒状食物(如土豆泥、米饭、通心粉和奶酪)效果显著,能巩固食物防止从叉子滑落,还可将食物移向餐盘壁或其他食物附近,从而提高舀取(Scooping)成功率。翻(Flipping)对于香蕉切片等食物,翻转可暴露平坦表面,这对成功串取(Skewering)至关重要,能防止食物在串取过程中滚动。切(Cutting)将易碎食物(如 Jell - O)切成咬口大小,有助于进食,同时帮助食物保持形状,减少在获取过程中断裂和掉落的可能性。结果显示,通过与基线(无预获取动作)对比,REPeat 方法在 10 种食物的咬合获取成功率上平均提高了 27%,对部分食物(如 Jell - O、土豆泥等)的改善具有统计学显著性。文中展示了一个包含 5 种食物的硬难度餐盘的执行示例(图 5),同时展示了一些典型的失败案例(图 7c)。

在这里插入图片描述
图 5 展示了在一个硬难度餐盘(包含 5 种食物)上 REPeat 系统执行预获取动作和咬合获取动作的过程示例。在执行完预获取动作后,执行咬合获取动作(如串取、舀取等),图中虽未详细展示动作执行瞬间,但通过整个过程的展示体现了 REPeat 系统如何通过预获取动作来提高咬合获取的成功率,最终成功获取食物(如串取到香蕉等)。
在这里插入图片描述
图 6 展示了用于评估系统的 10 种食物,包括 Jell - O、豆腐、土豆泥、牛油果、燕麦片、米饭、红丝绒蛋糕、香蕉、意大利面、通心粉和奶酪,这些食物涵盖了弹性、可塑性、粘度、质地和形状等影响咬合获取成功率的多种特性。
在这里插入图片描述

图 7(a)以柱状图形式对比了 REPeat 方法与基线在 10 种食物类别上的咬合获取成功率。可以直观看到每种食物在使用 REPeat 方法(蓝色柱)和基线方法(橙色柱)时的成功率差异。例如,在 Jell - O 上,REPeat 方法的成功率明显高于基线;在香蕉上,虽然两种方法成功率都较高,但 REPeat 仍有一定提升。平均而言,REPeat 方法使成功率提高了 27%,通过卡方显著性检验确定了在部分食物上的显著优势。图 7(b)以示意图形式说明了预获取动作(推、翻、切)如何提高咬合获取成功率,针对不同食物类型展示了动作前后的状态变化。图 7(c)展示了在使用 REPeat 系统过程中出现的一些未能成功完成咬合获取的情况示例。

展望

文章在结果展示后讨论了一些尚未探究的问题:REPeat 是对多种软质食物进行物理信息预获取动作的初步尝试,虽在不同机器人、多种食物组合评估中证明了预获取动作可提高软质食物咬合获取成功率,但存在局限性,如食物特性时变、食物感知(需精心构建提示)和食物模拟(计算密集、难以平衡保真度和速度)等问题。未来随着在线食物参数识别、视觉语言模型(VLM)感知和食物模拟技术的进步,有望将 REPeat 与咬合转移集成用于实际喂食,造福有严重行动障碍的软食需求者。

参考文献

  • https://sites.google.com/site/tapomayukh/cv?authuser=0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/922943.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【软件入门】Git快速入门

Git快速入门 文章目录 Git快速入门0.前言1.安装和配置2.新建版本库2.1.本地创建2.2.云端下载 3.版本管理3.1.添加和提交文件3.2.回退版本3.2.1.soft模式3.2.2.mixed模式3.2.3.hard模式3.2.4.使用场景 3.3.查看版本差异3.4.忽略文件 4.云端配置4.1.Github4.1.1.SSH配置4.1.2.关联…

鱼眼相机模型-MEI

参考文献: Single View Point Omnidirectional Camera Calibration from Planar Grids 1. 相机模型如下: // 相机坐标系下的点投影到畸变图像// 输入:相机坐标系点坐标cam 输出: 畸变图像素点坐标disPtvoid FisheyeCamAdapter::…

C++网络编程之多播

概述 在移动互联网时代,随着多媒体应用的日益普及,如何高效地将数据传输给多个接收者成为了网络通信领域的一个重要课题。多播(英文为Multicast)作为一种高效的网络通信方式,可以将数据同时发送到多个接收者&#xff0…

计算机毕业设计Python音乐推荐系统 机器学习 深度学习 音乐可视化 音乐爬虫 知识图谱 混合神经网络推荐算法 大数据毕设

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

直播技术-Android基础框架

目录 (一)直播间架构 (二)核心任务调度机制 (1)复制从滑动直播间加载流程 (2)核心任务调度机制-代码设计 (3)核心任务调度机制-接入指南 (三&#xff0…

『 Linux 』数据链路层 - MAC帧/以太网帧

文章目录 MAC帧/以太网帧局域网的通信原理 MAC帧/以太网帧 MAC帧也叫做以太网帧,通常情况下MAC帧也是一个更广义的语术,用来描述数据链路层,即OSI模型的第二层的一种数据帧格式,这种格式包括其他如WI-FI,令牌环,帧中继等数据链路层所使用的数据帧; 以太网帧是具体使用的一种MAC…

LightRAG开源了…结合本地ollama实现股票数据接口Akshare智能问答

LightRAG是由香港大学研究团队推出的一种检索增强生成(Retrieval-Augmented Generation, RAG)系统。该系统通过整合图结构索引和双层检索机制,显著提升了大型语言模型在信息检索中的准确性和效率。LightRAG 不仅能够捕捉实体间的复杂依赖关系…

LabVIEW引用类型转换问题

一、问题描述 在LabVIEW中,refnum(引用编号)用于引用各种资源,如文件、队列、控件等。这些引用是与具体类型相关的,通常情况下,LabVIEW会根据引用的类型自动进行处理。然而,当不同类型的引用需…

Redis五大基本类型——Set集合命令详解(命令用法详解+思维导图详解)

目录 一、Set集合类型介绍 二、常见命令 1、SADD 2、SMEMBERS 3、SISMEMBER 4、SCARD 5、SRANDMEMBER 6、SPOP 7、SMOVE 8、SREM ​编辑 9、集合间操作 (1)SINTER (2)SINTERSTORE (3)SUNION…

HTMLCSS:彩色灵动气泡效果

效果演示 这段代码是一个HTML文档&#xff0c;包含了内联的CSS样式&#xff0c;用于创建一个具有动画效果的网页背景&#xff0c;其中包含多个彩色浮动的气泡元素。 HTML <div class"container"><div class"bubble"><span></spa…

[工具分享] 根据Excel数据根据Word文档模板,批量创建生成Word文档并重命名,方便快速查找打印

前几天交楼的小姐姐要多份Word文档合同打印给客户&#xff0c;那么100份就需要修改100次 上面好多都是模板的制式文件&#xff0c;里面的部分数据都是要根据实际值来变动的&#xff0c; 那么有没有快速的方法来操作呢&#xff0c;还是只能一个个手动的改&#xff0c;又容易出…

《硬件架构的艺术》笔记(五):低功耗设计

介绍 能量以热量形式消耗&#xff0c;温度升高芯片失效率也会增加&#xff0c;增加散热片或风扇会增加整体重量和成本&#xff0c;在SoC级别对功耗进行控制就可以减少甚至可能消除掉这些开支&#xff0c;产品也更小更便宜更可靠。本章描述了减少动态功耗和静态功耗的各种技术。…

【Linux学习】【Ubuntu入门】2-3 make工具和makefile引入

1.使用命令新建三个.c文件vi main.c&#xff0c;vi input.c&#xff0c;vi caclcu.c&#xff0c;两个.h文件vi input.h&#xff0c;vi caclcu.h 2.vi Makefile&#xff1a;新建Makefile文件&#xff0c;输入一下内容 注意&#xff1a;命令列表中每条命令前用TAB键&#xff0c;不…

【初阶数据结构和算法】leetcode刷题之设计循环队列

文章目录 一、实现循环队列1.大致思路分析2.循环队列的结构定义和初始化结构定义初始化 3.循环队列的判空和判满判空和判满难点分析判空判满 4.循环队列的入队列和出队列入队列出队列 5.循环队列取队头和队尾元素取队头元素取队尾元素 6.循环队列的销毁7.最后题解源码 一、实现…

Otter 安装流程

优质博文&#xff1a;IT-BLOG-CN 一、背景 随着公司的发展&#xff0c;订单库的数据目前已达到千万级别&#xff0c;需要进行分表分库&#xff0c;就需要对数据进行迁移&#xff0c;我们使用了otter&#xff0c;这里简单整理下&#xff0c;otter 的安装过程&#xff0c;希望对…

#Java-常用API-BigInteger、BigDecima、正则表达式

1.BigInteger BigInteger可以表示非常大范围的整数&#xff0c;理论上来说无限大 a.构造方法 构造方法说明public BigInteger(int num, Random rnd)获取随机大整数,范围 : [0 ~ 2的num次方 - 1]public BigInteger(String val)获取指定的大整数public BigInteger(String val,…

C++设计模式-中介者模式

动机(Motivation) 多个对象相互关联的情况&#xff0c;对象之间常常会维持一种复杂的引用关系&#xff0c;如果遇到一些需求的更改&#xff0c;这种直接的引用关系将面临不断的变化。在这种情况下&#xff0c;可以使用一种”中介对象“来管理对象间的关联关系&#xff0c;避免…

cursor 使用经验分享

cursor 是一款基于 VSCode 的 AI 优先编辑器&#xff0c;如果你还没有体验过它&#xff0c;我强烈建议看完这篇&#xff0c;因为 cursor 真的在改变编程游戏的规则&#xff0c;在了解 cursor 前&#xff0c;可以先思考一下我们日常在编程环节都做哪些事情&#xff0c;我日常开发…

Linux系统编程之进程基础知识

概述 在Linux系统中&#xff0c;进程是指一个正在运行的程序实例。每个进程都有一个唯一的进程标识符&#xff0c;即PID&#xff0c;操作系统通过这个PID来唯一识别和管理各个进程。进程不仅仅是程序代码的运行实例&#xff0c;它还包含了程序运行时所需的各种资源&#xff0c;…

LabVIEW发动机热磨合试验台

在汽车发动机的研发和质量控制中&#xff0c;发动机热磨合试验是关键环节。它能够检验发动机在实际运行条件下的性能&#xff0c;及时发现异响、振动、漏油等潜在问题。通过搭建基于LabVIEW的高效测试平台&#xff0c;可以显著提高发动机的可靠性和使用寿命。下面介绍LabVIEW开…