破解透明物体抓取难题,地瓜机器人CASIA 推出几何和语义融合的单目抓取方案|ICRA 2025

概述

近日,全球机器人领域顶会ICRA 2025(IEEE机器人与自动化国际会议)公布论文录用结果,地瓜机器人主导研发的DOSOD开放词汇目标检测算法MODEST单目透明物体抓取算法成功入选。前者通过动态语义理解框架提升复杂场景识别准确率,后者结合几何建模与语义分析技术优化透明物体操作精度,两项技术成果均已在规模化商业场景中得到有效验证。此次投稿的两篇论文全部入选,不仅彰显了ICRA对机器人感知领域的高度重视,同时也印证了地瓜机器人团队在机器人视觉领域的领先优势。

P.S. 点击超链跳转了解DOSOD开放词汇目标检测算法,本期文章将围绕MODEST单目透明抓取算法进行重点介绍。

作为机器人执行各项任务中绕不开的操作对象,水杯、试管、窗户等透明物体在人类生活中无处不在。从精密制造、医疗实验室和家庭服务机器人等领域,透明物体的精确操作是提升自动化和智能化水平的关键。然而,透明物体复杂的折射和反射特性给机器人感知造成了很大困难。在大多数RGB图像中的透明物体往往缺乏清晰的纹理,而容易与背景混为一体。此外,商用深度相机也难以准确捕捉这些物体的深度信息,导致深度图缺失或噪声过多,从而限制了机器人在多个领域的广泛应用。

为了解决透明物体的抓取问题,地瓜机器人联合中科院自动化所(简称:CASIA)多模态人工智能系统全国重点实验室,推出了针对透明物体的单目深度估计和语义分割的多任务框架(简称:MODEST)。该框架借助创新性的语义和几何融合模块,结合独特的特征迭代更新策略,显著提升了深度估计和语义分割的效果,尤其在抓取成功率和系统泛化性方面取得了突破性进展。

MODEST算法框架作为通用抓取模型的前置模块,即插即用,灵活高效,且无需依赖额外传感器,仅靠单张RGB图像,便可实现透明物体的抓取,效果上甚至要优于其它双目和多视图的方法,可以广泛应用于智能工厂、实验室自动化、智慧家居等场景,降低设备成本并大幅提升机器人对透明物体的操作能力。

文章地址:https://arxiv.org/pdf/2502.14616

代码地址:https://github.com/D-Robotics-AI-Lab/MODEST

基本原理

当前透明物体的抓取核心在于深度信息的获取,目前无论是深度传感器还是多视角重建的方法都无法获取透明物体准确完整的深度信息。为了解决透明物体感知难题,传统方法大多依赖特殊传感设备或多视角图像,增加了时间和经济成本,并常常受限于应用场景。MODEST单目框架首次突破了传统传感器处理透明物体时的限制,降低了设备成本和使用复杂度,提供了更加高效、经济和便捷的透明物体感知方案。

read-normal-img

单目透明物体感知框架与其他方法之间的对比

MODEST主要聚焦于透明物体的深度估计,通过设计的语义和几何结合的多任务框架,获取物体准确的深度信息,之后结合基于点云的抓取网络实现透明物体的抓取。相当于在通用抓取网络前面增加一个针对透明物体的增强模块。

MODEST模型的整体架构如图所示,输入为单目RGB图像,输出为透明物体的分割结果和场景深度预测。网络主要由编码、重组、语义几何融合迭代解码四个模块组成。输入图像首先经过基于ViT的编码模块进行处理,随后重组为对应分割和深度两个分支的多尺度特征。在融合模块中对两组特征进行混合和增强,最后通过多次迭代逐步更新特征,并获得最终预测结果。

read-normal-img

基于语义几何融合和迭代策略的透明物体单目多任务框架

对于透明物体来说,语义分割任务可以为深度估计提供语义和上下文信息,而同样深度估计可以为分割提供边界、表面等几何信息。为了充分挖掘两个任务间的互补信息MODEST算法框架构建了基于注意力机制的语义几何融合模块,旨在同时提升两个任务的性能。

read-normal-img

义几何融合模块结构

当人类观察透明物体等不显著物体时,我们会倾向于先注意物体的整体轮廓,然后是局部细节。受人眼启发,MODEST框架提出了一种由粗到细的特征更新策略,进一步提升预测精度。

实验结果

为了测试MODEST全新算法框架的检测效果,我们选取了透明物体领域两个影响力广泛的公开仿真数据集Syn-TODD和真实数据集ClearPose,在其上与目前最先进的透明物体双目方法SimNet、多视图方法MVTran以及多任务方法InvPT和TaskPrompter进行对比实验。两个大规模数据集都拥有超过100k的良好标注图像数据,并且包含了严重遮挡等极端场景

公开数据集上的定性和定量对比实验

read-normal-img

仿真数据集Syn-TODD上的定性对比结果

read-normal-img

真实数据集ClearPose上的定性对比结果

通过在两个数据集上的定性对比结果可以看出,由于透明物体会错误地折射背景,并且在RGB图像中缺乏纹理,因此SimNet、MVTrans等方法无法获得令人满意的预测,从而导致深度图和分割掩膜的大面积缺失。然而,通过有效的融合和迭代,在某些即使人眼都难以分析和判断的场景,我们的方法依然能够产生完整和清晰的预测结果。

read-normal-img

仿真数据集Syn-TODD上的定量对比结果

read-normal-img

真实数据集ClearPose上的定量对比结果

从表格中的定量对比可以看出,MODEST算法框架在各项指标上都要大幅超过其他所有方法。值得注意的是,尽管只使用单张RGB图像作为输入,MODEST在深度估计和语义分割方面都要明显优于其他双目甚至多视图方法。并且在Syn-TODD数据集上,与排名第二的方法相比,MODEST算法框架在RMSE和REL两项指标有着超过45%的提升,语义分割的精度也均超过了90%。

真实平台抓取实验

我们将算法迁移到真实机器人平台,开展了透明物体抓取实验。平台主要由UR机械臂和深度相机构成,在借助MODEST方法进行透明物体精确感知的基础之上,采用GraspNet进行抓取位姿的生成。在多个透明物体上的实验结果表明,MODEST方法在真实平台上具有良好的鲁棒性泛化性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/983073.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用JMeter(组件详细介绍+使用方式及步骤)

JSON操作符 在我们使用请求时,经常会遇到JSON格式的请求体,所以在介绍组件之前我会将介绍部分操作符,在进行操作时是很重要的 Operator Description $ 表示根元素 当前元素 * 通配符,所有节点 .. 选择所有符合条件的节点 .name 子元素,name是子元素名称 [start:e…

AI编程工具-(六)

25030607 这两天依然是用通义灵码做数据分析建模,流程没有改进想法。阻塞感明显,需要更多的动脑了。 数据依然是之前的数据。时序数据B预测时序数据A。 准备工作1 问模型思路,但是我没想出新思路,所以没看出啥。 数据分析1 分…

deepseek使用记录18——艺术的追问

一 好的,基于前面学习结果,再写一篇有艺术美的文章 《美的起义》 凌晨四点的茶摊在电子支付二维码下苏醒,蒸腾的水汽中浮动着八百年前建盏的釉色。老板娘把栀子花插在共享单车车筐里,花瓣的弧度与北宋汝窑青瓷的冰裂纹暗合&…

【接口封装】——18、添加目录项列表响应

解释: 1、封装内容:列表显示 2、Qt::UserRole:设置不同的值,以此区分多级目录项 函数定义: void onTreeItemClicked(QTreeWidgetItem* item);void onTreeItemDoubleClicked(QTreeWidgetItem* item);void onTreeItemExp…

基于大数据挖掘与机器学习的家政行业整体素质提升因素分析

目录 ✨摘要 ✨一、绪论 ✨二、研究内容与方法 ✨三、数据处理 ✨四、客户对家政从业者的需求——基于词频分析和词云图 ✨五、家政从业者综合评估因子分析 ✨六、人员专业水平与预期工资的关系——回归分析 ✨七、基于机器学习的预测——BP 神经网络 ✨八、根据因素对…

利用 requestrepo 工具验证 XML外部实体注入漏洞

1. 前言 在数字化浪潮席卷的当下,网络安全的重要性愈发凸显。应用程序在便捷生活与工作的同时,也可能暗藏安全风险。XXE(XML外部实体)漏洞作为其中的典型代表,攻击者一旦利用它,便能窃取敏感信息、掌控服务…

从 Faith 与 Belief 的语义与语境辨析中解析其宗教哲学内涵

注:本文是对 《信仰与理性:信仰的认识论》 中 “Part 5. Faith as belieff” 的 “咬文嚼字”的语义辨析。 第二篇涉及 bible,不看 religion ,只看语义解析。 机翻,未校。 Main Difference – Faith vs Belief July…

TypeError: Cannot read properties of undefined (reading ‘xxx‘)

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

【无人机三维路径规划】基于CPO冠豪猪优化算法的无人机三维路径规划Maltab

代码获取基于CPO冠豪猪优化算法的无人机三维路径规划Maltab 基于CPO冠豪猪优化算法的无人机三维路径规划 一、CPO算法的基本原理与核心优势 冠豪猪优化算法(Crested Porcupine Optimizer, CPO)是一种新型元启发式算法,其灵感来源于冠豪猪的…

阿里推出全新推理模型(因果语言模型),仅1/20参数媲美DeepSeek R1

阿里Qwen 团队正式发布了他们最新的研究成果——QwQ-32B大语言模型!这款模型不仅名字萌萌哒(QwQ),实力更是不容小觑!😎 QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家可通过 Qwen C…

电脑总显示串口正在被占用处理方法

1.现象 在嵌入式开发过程中,有很多情况下要使用串口调试,其中485/422/232转usb串口是非常常见的做法。 根据协议,接口芯片不同,需要安装对应的驱动程序,比如ch340,cp2102,CDM212364等驱动。可…

记录片《遇见大连》

目录标题 遇见大连1、项目基本信息2、内容特色与创作理念 一、蓝色的浪漫星空摄影师“修船诗人”荧光海爱情 | “有一座城叫大连”风光摄影师银沙滩 | 潜水 | 赵大千:海洋生物科普乌蟒岛 | 海鸟野外攀岩 | 积极乐观赶海萨克斯熊洞街风电场 遇见大连 1、项目基本信息…

双足机器狗开发:Rider - Pi

双足机器狗开发:Rider - Pi https://github.com/YahboomTechnology/Rider-Pi-Robot 项目介绍 Rider - Pi是一款为开发者、教育工作者和机器人爱好者设计的桌面双轮腿式机器人,它基于树莓派CM4核心模块构建,具备多种先进功能和特点: 硬件特性 核心模块:采用树莓派CM4核…

BUUCTF——[GYCTF2020]FlaskApp1 SSTI模板注入/PIN学习

目录 一、网页功能探索 二、SSTI注入 三、方法一 四、方法二 使用PIN码 (1)服务器运行flask登录所需的用户名 (2)modename (3)flask库下app.py的绝对路径 (4)当前网络的mac地…

ESP32S3N16R8驱动ST7701S屏幕(vscode+PlatfoemIO)

1.开发板配置 本人开发板使用ESP32S3-wroom1-n16r8最小系统板 由于基于vscode与PlatformIO框架开发,无espidf框架,因此无法直接烧录程序,配置开发板参数如下: 在platformio.ini文件中,配置使用esp32-s3-devkitc-1开发…

掌握Kubernetes Network Policy,构建安全的容器网络

在 Kubernetes 集群中,默认情况下,所有 Pod 之间都是可以相互通信的,这在某些场景下可能会带来安全隐患。为了实现更精细的网络访问控制,Kubernetes 提供了 Network Policy 机制。Network Policy 允许我们定义一组规则&#xff0c…

清华北大推出的 DeepSeek 教程(附 PDF 下载链接)

清华和北大分别都有关于DeepSeek的分享文档,内容非常全面,从原理和具体的应用,大家可以认真看看。 北大 DeepSeek 系列 1:提示词工程和落地场景.pdf  北大 DeepSeek 系列 2:DeepSeek 与 AIGC 应用.pdf  清华 Deep…

【GoTeams】-4:为项目引入etcd

本文目录 1. 书接上回2. 引入etcddiscoverystruct{}{} resolverserver 3. 将服务注册到etcd中4. 梳理下etcd调用逻辑 1. 书接上回 本节是为项目引入etcd这个环节,然后我们来看看具体该怎么实现。 首先来谈谈为什么要引入服务发现? 动态服务注册与发现…

ReferenceError: assignment to undeclared variable xxx

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

如何在WPS中接入DeepSeek并使用OfficeAI助手(超细!成功版本)

目录 第一步:下载并安装OfficeAI助手 第二步:申请API Key 第三步:两种方式导入WPS 第一种:本地大模型Ollama 第二种APIKey接入 第四步:探索OfficeAI的创作功能 工作进展汇报 PPT大纲设计 第五步:我的使用体验(体验建议) …