UCSD和MIT的华人学者最新成果展示:沉浸式远程遥操作机器人

你是否曾想过,自己身处某地,可以控制几千公里以外的「机器人」本体?这个想法,最近被来自UCSD和MIT的华人学者们实现了。UCSD位于加利福尼亚州,MIT位于马萨诸塞州,这两地之差,约3000英里(4800公里)。不过,MIT的研究人员竟通过头戴Apple Vision,实现了远程操控UCSD实验室中的机器人,效果让人为之惊叹。
在这里插入图片描述

只见人类空手做出了手持易拉罐的动作,机器人在另一边也做出了同步的动作,然后依次将6罐芬达放置在了盒子里。完成之后,人类做了OK、以及🤟手势,机器人也跟着有模有样,做了出来。这一想法之所以能够实现,背后源于研究者提出了一个沉浸式的远程操作系统——Open-TeleVision。

论文地址:https://robot-tv.github.io/resources/television.pdf

Open-TeleVision创新之处在于,可以提供立体式感知环境,实现操作者动作到机器人的精确镜像,创造出一种沉浸式体验。正如论文作者所言,仿佛操作者的思维被传输到了机器人的身体中。值得一提的是,你不仅可以用头显,还可以用笔记本、iPad、甚至是手机,完成对机器人的远程操控。
在这里插入图片描述

那么,这项研究意义何在?现实生活中,机器人能够学习的数据非常少。远程操控的方法,可以用于收集机器人行示范中学些所需的真实机器人数据。研究人员正式希望通过Open-TeleVision这一方式,进一步帮助这一领域探索出更多的场景数据。

远程操控,让机器人替人类打工

可以畅想下,有了这样的技术,我们未来生活会有怎样的巨变?在实验室闷头苦干的人不一定非得是自己,你可以在家即可操控机器人,取样本、分析都能完成。
在这里插入图片描述

而且流水线上的工人们,可能要被这些机器人逐渐取代。看着将耳塞精准熟练地装进透明的盒子,足见其强大。
在这里插入图片描述

它们还可以胜任收银员的工作,一手拿着扫码器,一手拿着商品,逐一完成扫码任务。
在这里插入图片描述

建筑工地中,一些危险的活儿,也能交由它们做。拿着电锯在指定位置打孔,不得不说真的强。
在这里插入图片描述

你还可以让机器人作为你的化身,陪你做游戏。
在这里插入图片描述

友好互动,机器人做的也是毫无违和感。
在这里插入图片描述

下面这是一个超有爱的画面,只见机器人将Hellokitty挂件递给女生后,还做出了比心的动作。
在这里插入图片描述

再来看看更多,跨越更远区域的演示。

研究人员做装网球的动作,机器人将现实中物体装进桶中。
在这里插入图片描述

下面这个比较有意思,MIT研究人员控制一台机器人,向与另一台机器人传递镜子。
在这里插入图片描述

以上皆是远程操控完成任务的案例,不过研究者开发的系统,也能够让机器人本体,自主去完成一些精准的任务。

比如,分类不同易拉罐饮料。

在这里插入图片描述

叠毛巾等等。
在这里插入图片描述

看过这么多精彩演示,你一定想了解其背后的技术原理,不如一起来看看。

技术介绍

正如开头所述,研究人员开发了一种通用框架Open-TeleVision,可以应用到不同机器人、机械手臂上,用VR设备完成高精度远程操控。

通过捕捉人类操作者的手部姿势,作者执行重定向操作,来控制多指机器人手或平行夹持器。

另外,研究者依靠逆运动学将操作者的手根位置,转换为机器人手臂末端执行器的位置。
在这里插入图片描述

整体的系统概述如下图2所示。

研究人员基于Vuer开发了一个网络服务器。VR设备将操作者的手、头和手腕的姿态以SE(3)的形式流式传输到服务器,服务器负责处理人类到机器人的动作重定向。
在这里插入图片描述

图3展示了机器人的头部、手臂和手如何跟随人类操作者的动作。

反过来,机器人以每只眼睛480x640的分辨率流式传输立体视频,整个循环以60Hz的频率进行。
在这里插入图片描述

硬件配置

具体来说,研究人员对两种机器人进行了实验,如下图4所示。

它们分别是人形机器人Unitree H1,以及配备夹持器的Fourier GR-1,来执行双手操作的任务。
在这里插入图片描述

对于主动感知,研究人员专为H1设计了一个具有两个旋转自由度(偏航和俯仰)的云台,安装在躯干顶部。这个云台由3D打印部件组装而成,由DYNAMIXEL XL330-M288-T电机驱动。

对于GR-1,他们使用了厂商提供的3自由度颈部(偏航、滚动和俯仰)。两种机器人都使用ZED Mini立体相机提供立体RGB视频流。具体材料费用细节,下表列出了一些要点。
在这里插入图片描述

有了所具备的硬件,就要开启实验了。

实验结果

论文中,研究人员主要研究了两个问题:

  • Open-TeleVision系统的关键设计选择如何影响模仿学习结果的表现?
  • Open-TeleVision远程操作系统在收集数据方面的效率如何?

这里,研究人员选择ACT作为模仿学习的算法,并进行了两项关键修改。

一是,用更强大的视觉骨干网络DinoV2替换了ResNet。DinoV2是一个通过自监督学习预训练的视觉Transformer(ViT)。

二是,使用两个立体图像作为Transformer编码器的输入,而不是使4个独立排列的RGB相机的图像。

DinoV2骨干网络为每张图像生成16 × 22个token。状态token是从机器人当前的关节位置投影而来的。对于H1机器人,动作维度是28(每个手臂7个,每只手6个,主动颈部2个)。对于GR-1机器人,动作维度是19(每个手臂7个,每个夹持器1个,主动颈部3个)。具体实验中,作者选择了四个强调精确性、泛化能力,以及长期规划的任务,以展示Open-TeleVision的有效性,如下图5所示。
在这里插入图片描述

模仿学习

在易拉罐分类任务中,分别评估了拾取罐子的成功率和将其放置到指定位置的准确性。根据表1中H1的结果,Open-TeleVision在这两项评估指标上都具有最高的成功率。

在拾取子任务中,新模型始终优于其他两个基准模型。

在毛巾折叠任务中,研究者的模型和使用ResNet18的模型都达到了100%的折叠成功率。
在这里插入图片描述

泛化能力

此外,研究人员在随机化条件下评估了模型的泛化能力。

在使用H1进行的罐子分类任务中,评估了模型从一个4x4网格(每个网格单元为3厘米)中拾取罐子的成功率,如图6(左)所示。

详细结果在图6(右)中展示,这表明新策略能很好地泛化到数据集中覆盖的大面积区域,实现100%的成功率。
在这里插入图片描述

与此同时,TeleVision系统在相同批量大小下训练速度提高了2倍,并且在4090 GPU上可以在一个批中容纳4倍的数据。

在推理过程中,TeleVision系统也快了2倍,为逆运动学(IK)和重定向计算留出了足够的时间,以达到60Hz的部署控制频率。
在这里插入图片描述

针对用户研究,可以看出不同用户对机器人在任务分类中的偏好。
在这里插入图片描述

在图8中,展示了Open-TeleVision能够执行的更多远程操作任务,比如木板转孔、耳塞包装任务,液体试管。
在这里插入图片描述

如图9所示,Open-TeleVision系统还实现了远程操作。
在这里插入图片描述

总而言之,这项研究中提出了一个沉浸式远程操作系统Open-TeleVision,实现了精确的任务操作。

不过,作者也指出,系统仍缺乏其他形式的反馈,比如触觉。而且在第一人称视觉被遮挡和需要大量触觉任务中,触觉反馈通常是主要的反馈形式。一个能够重新标记专家数据的系统,对提高成功率可能非常有帮助,这也是当前系统所缺失的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/796726.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

线性回归(梯度下降)

首先说案例: 房子的价格和所占面积有着很大的关系,假如现在有一些关于房子面积和价格的数据,我要如何根据已经有的数据来判断未知的数据呢? 假如x(房屋面积),y(房屋价格) x[ 56 72 69 88 102 86 76 79 94 74] y[92, …

MySQL 锁分类

MySQL 锁分类 在 MySQL 中,为了保证并发性能和数据安全,有多种锁机制。我们常见的有表级锁和行级锁。让我们一起来学习 MySQL 中各种锁的知识。 表级锁 表级锁是对整张表进行锁定。 表数据锁 1. 读锁 允许多个会话同时读取同一张表的数据&#xff…

大模型时代的目标检测

https://zhuanlan.zhihu.com/p/663703934https://zhuanlan.zhihu.com/p/6637039341.open set/open word/ood 这个任务是指在实际应用上可以检测任何前景物体,但是有些不需要预测类别,只要检测出框就行。在很多场合也有应用场景,有点像类无关…

HyperSD - 会画草图就能玩AI绘画,AI一键手绘,实时同步 本地一键整合包下载

字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD,是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能,同时保持了模型大小的精简。 基于这个算法模型,一个很实用的功能出现了&am…

知识图谱入门笔记

自学参考: 视频:斯坦福CS520 | 知识图谱 最全知识图谱综述 详解知识图谱的构建全流程 知识图谱构建(概念,工具,实例调研) 一、基本概念 知识图谱(Knowledge graph):由结…

本地部署,MODNet 背景去除大模型

目录 摘要 引言 MODNet 架构 关键组件 技术原理 本地部署 运行结果 结论 GitHub - ZHKKKe/MODNet: A Trimap-Free Portrait Matting Solution in Real Time [AAAI 2022]A Trimap-Free Portrait Matting Solution in Real Time [AAAI 2022] - ZHKKKe/MODNethttps://gith…

【Linux】软件管理工具 yum

文章目录 概念搜索:yum list安装:yum install卸载:yum remove 概念 在Linux下安装软件,可以下载到程序的源代码,进行编译得到可执行程序,另外这些软件还有依赖其它工具的问题,还得下载编译这些依…

鸿蒙小练习

bean对象 export class BannerImage{id:numberurl:stringtargetUrl:stringproductId:numberconstructor(id: number, url: string, targetUrl: string, productId: number) {this.id idthis.url urlthis.targetUrl targetUrlthis.productId productId} }export class d…

嵌入式应用开发之模块驱动移植教程

前言:本篇主要面向小白的小伙伴,提供一些基础的模块移植教程,不涉及预处理指令类的移植教程。 #为什么要移植驱动 这个问题,可以来说是显而易见的,在标准库的开发过程中,如果重新写一个模块的驱动,从串行通…

Autosar Dcm配置-0x28服务ComControl-基于ETAS软件

文章目录 前言DcmDcmDsdDcmDspBswMBswMModeRequestPortBswMModeConditionBswMLogicalExpressionBswMActionBswMActionListBswMRule总结前言 0x28服务主要用来控制非诊断报文的通讯,一般在刷写预编程过程中,用来禁止APP的通信报文,可以减少总线负载率,提高刷写成功率。本文…

【Orange Pi AI Pro】开箱体验完,发现是真的强!!!

最近香橙派联合华为出了一款新的AI开发板——Orange Pi AI Pro,关键是搭载了昇腾AI处理器提供了8TOPS INT8的算力,作为一个嵌入式的CSDN博主,当然得体验一下这款新产品。 文章目录 1 开箱2 硬件介绍2.1 开发板硬件详情:2.2 顶层视…

分享浏览器被hao123网页劫持,去除劫持的方式

昨天看python相关的自动化工作代码时,发现谷歌浏览器被hao123劫持了,把那些程序删了也不管用 方法1:删除hao123注册表,这个方式不太好用,会找不到注册表 方法2:看浏览器快捷方式的属性页面,一…

keil5新建stm32工程的基本

1、建立工程文件夹,keil中新建工程,选择型号; 2、工程文件夹里建立自己所需要的文件夹等,复制固件库里面的文件到工程文件夹里; 3、将工程里建立对应的同名的分组,并将文件夹内的文件添加到工程分组中。 点…

MQTT——Mosquitto使用(Linux订阅者+Win发布者)

前提:WSL(Ubuntu22)作为订阅者,本机Win10作为发布者。 1、Linux安装Mosquitto 命令行安装。 sudo apt-get install mosquitto 以上默认只安装了mosquitto的服务,不带测试客户端工具mosquitto_sub和mosquitto_pub。如…

IC5000_IC5700 License激活步骤

文章目录 前言连接硬件License RequestLicense Progam 前言 用过的调试器除了Lauterbach之外,iSystem的应该是比较好用的,比Lauterbach也便宜一些。本文介绍IC5000的License激活说明,前提是正版采购了IC5000及对应的license 连接硬件 电源…

鸿蒙瀑布流和欢迎页(1)

1.瀑布流 https://gitee.com/openharmony/docs/blob/master/zh-cn/application-dev/reference/apis-arkui/arkui-ts/ts-container-waterflow.md他有官网文档,有个瀑布流的案例 自定义一类实现官方瀑布流接口 // WaterFlowDataSource.ets// 实现IDataSource接口的…

开源项目:机遇与挑战共存的创新之路

开源项目:机遇与挑战共存的创新之路 开源(Open Source,开放源码)被非盈利软件组织(美国的Open Source Initiative协会)注册为认证标记,并对其进行了正式的定义,用于描述那些源码可以…

安全防御---防火墙实验1

安全防御—防火墙实验1 一、实验拓扑与要求 要求: 1、DMZ区内的服务器,办公区仅能在办公时间内(9:00-18:00)可以访问,生产区的设备全天可以访问 2、生产区不允许访问互联网,办公区和游客区允许访问互联网 …

6-7 宠物领养开发及相关代码

6-7 宠物领养开发及相关代码(react区块链实战) 来到ant-design https://ant.design/index-cn https://ant.design/components/layout-cn/ 来到布局 选择一个简单的布局即可 会显示出所有的相关界面的代码 根据对应界面的代码在我们的react项目woniu-…

Vagrant配合VirtualBox搭建虚拟机

目录 前言一、软件下载及安装1.下载2.安装扩展: 二、创建一个虚拟机1.Vagrant官方镜像仓库 三、使用远程工具连接虚拟机1.修改相关配置文件 四、虚拟机克隆及使用1.通用配置2.简单搭建一个java环境3.克隆虚拟机1.重命名虚拟机(可选)2.打包指定…