大模型时代的具身智能系列专题(八)

standford Chelsea Finn团队

Chelsea Finn是Stanford计算机科学与电气工程系的助理教授。她的实验室IRIS通过大规模的机器人互动研究智能,并与SAIL(斯坦福人工智能实验室)和ML Group(机器学习团队)有合作关系。他还在谷歌的Google Brain团队工作。她对机器人和其他智能体通过学习和互动来发展广泛智能行为的能力感兴趣。他在UC Berkely完成了计算机科学博士学位,师从Sergey Levine,本科毕业于MIT。

主题相关作品

  • ALOHA
  • Mobile ALOHA

ALOHA提出了一个低成本的开源硬件系统ALOHA,并设计了ACT模仿学习算法。

ALOHA

精细操作任务,例如螺纹电缆连接或安装电池,对于机器人来说是非常困难的,因为它们需要精确、仔细协调接触力和闭环视觉反馈。这通常需要高端机器人、精确的传感器或仔细的校准,这可能昂贵且难以设置。提出了一个低成本的系统,该系统直接从真实的演示中执行端到端模仿学习,使用自定义远程操作接口收集。然而,模仿学习提出了其自身的挑战,特别是在高精度领域:策略中的错误会随着时间的推移而复合 compound,人类演示可能是非平稳的 non-stationary。为此开发了Action Chunking with Transformers (ACT) ,该算法学习动作序列的生成模型 a generative model。ACT 允许机器人在现实世界中学习 6 个困难的任务,例如打开半透明条味杯以及以 80-90% 成功率插入电池这些只有 10 分钟的演示的任务。
fig1
低成本硬件不可避免地不如高端平台精确,这使得传感和规划挑战更加明显,将学习纳入系统这个方向或许希望解决这一问题。能够通过从闭环视觉反馈中学习并积极补偿误差来执行精细的任务。使用端到端的策略,该策略将网络摄像头的RGB图像直接映射到动作。这种像素到动作的方式特别适合精细操作,因为精细操作通常涉及具有复杂物理特性的对象,因此学习操作策略比对整个环境建模要简单得多。策略的性能在很大程度上取决于训练数据的分布,在精细操作的情况下,高质量的人类演示可以通过允许系统从人类灵巧中学习来提供巨大的价值。因此,我们为数据收集构建了一个低成本但灵巧的远程操作系统,以及一种新颖的模仿学习算法,可以有效地从演示中学习。预测动作中的小错误会导致状态的巨大差异,加剧了模仿学习的“复合错误”问题:从动作分块中获得灵感,动作序列如何组合在一起作为一个块,并作为一个单元执行;预测下 k 个时间步的目标关节位置,而不是一次只预测一个步骤,这将任务的有效范围减少了 k 倍,减轻了复合错误。为了进一步提高策略的平滑度,提出了时间集成 temporal ensembling,它更频繁地查询策略,并在重叠的动作块之间进行平均。

ALOHA:双手遥控低成本开源硬件系统

低成本的开源硬件系统,具备以下五个特点:

  1. 低成本:整个系统应该在大多数机器人实验室的预算之内,可与单个工业手臂相媲美
  2. 通用性:它可以应用于广泛的与现实物体的精细操作任务
  3. 人性化:系统应该直观、可靠、易于使用
  4. 可修复:当设置不可避免地出现故障时,研究人员可以轻松修复设置
  5. 易于搭建:研究人员可以快速组装,材料来源容易

本方法没有将VR控制器或摄像头捕获的手部姿势映射到机器人的末端执行器姿势,即任务空间映射,而是使用来自同一家公司制造的小型机器人WidowX的直接关节空间映射,成本为3300美元。
fig3

  • 左侧为前、顶部和两个手腕摄像机的视角(总计4个摄像机),以及ALOHA双手工作空间的示意图。
    具体而言,这4个Logitech C922x网络摄像头,每个流输出480×640 RGB图像
    其中两个网络摄像头安装在跟随机器人手腕上,以提供夹具的近距离视角(allowing for a close-up view of the grippers)
    剩下的两个相机分别安装在前方和顶部位置,遥控操作和数据记录均以50Hz频率进行
  • 中间是“手柄和剪刀”机制和定制夹具的详细视图
  • 根据上面的原则1、4和5,建立了一个双手平行颚夹持器设置与两个ViperX 6-DoF机器人手臂,上图右侧列出了ViperX 6dof机器人的技术规格
    出于价格和维护方面的考虑,不使用灵巧手。使用的ViperX臂具有750克和1.5米跨度的工作有效载荷,精度为5-8毫米

且该机器人模块化,维修简单:在电机出现故障的情况下,低成本的Dynamixel电机可以轻松更换。这种机器人可以以5600美元左右的价格购买到现货。然而,OEM的手指不够通用,无法处理精细的操作任务。因此,设计了自己的3D打印“透明”手指,并将其贴合在夹持胶带(gripping tape)上

Action Chunking with Transformers (ACT)

数据采集:记录leader机器人的关节位置(即来自人类操作员的输入),并将其作为行动。 重要的是使用leader关节位置而不是跟随关节位置,因为施加的力的大小是通过低级PID控制器由它们之间的差异隐式定义的。 观察结果由跟随机器人的当前关节位置和来自4个摄像机的图像馈送组成。

训练ACT在给定当前观察结果的情况下预测未来行动的顺序。 这里的一个动作对应于下一个时间步中双臂的目标关节位置。ACT试图模仿操作员在给定当前观测值的情况下,在以下时间步长内会做什么。然后加载验证损失最小的策略。出现的主要挑战是复合错误,即先前操作的错误导致训练分布之外的状态。

Action Chunking and Temporal Ensemble

action chunking:一种神经科学概念,将单个动作分组并作为一个单元执行,使其存储和执行更加高效。

在我们的实现中,我们将块大小固定为k:每k个步骤,agent接收一个observation,生成下次k个actions,并按顺序执行这些actions。这意味着任务的有效范围减少了k倍。Chunking还可以帮助模拟人类演示中的非马尔可夫行为。单步策略将难以处理时间相关的混杂因素,例如演示中间的停顿,当混杂因素在一个块中时,动作块可以缓解这个问题

Temporal Ensemble:每k步突然加入一个新的环境观察,可能导致机器人运动不平稳。我们在每个时间步查询策略。这使得不同的动作块彼此重叠,并且在给定的时间步中,将有多个预测动作。使用指数加权方案 w i = e x p ( − m ∗ i ) w_i = exp(−m ∗ i) wi=exp(mi)对这些预测执行加权平均合并新观察的速度由 m 控制,其中较小的 m 表示更快的合并聚合同一时间步预测的动作不产生额外的训练成本,只产生额外的推理时间。
fig5

Modeling human data

给定相同的观察结果,人类可以使用不同的轨迹来解决任务。在精度不那么重要的地区,人类也将更加随机。因此,该策略对于专注于高精度很重要的区域非常重要。我们通过将动作分块策略训练为生成模型来解决这个问题。

具体来说,我们将策略训练为conditional variational autoencoder (CVAE) 以生成以当前观察为条件的动作序列。CVAE编码器只用于训练CVAE解码器(策略),在测试时被丢弃。具体来说,CVAE编码器在给定当前观测值和动作序列作为输入的情况下,预测风格变量z的分布的均值和方差,该分布被参数化为对角高斯分布。为了在实践中更快地训练,我们省略了图像观察,仅以本体感觉观察和动作序列为条件。CVAE解码器,即策略,以z和当前观测(图像+关节位置)为条件来预测动作序列。每次,我们设置z为先验分布的均值,即零,以确定解码。整个模型被训练成使用标准VAE目标最大化演示动作块的对数似然,该目标有两个项:重建损失和将编码器正则化为高斯先验的项。用一个超参数对第二项进行加权。
eq
直观地说,z值越高,传递的信息就越少。总的来说,我们发现CVAE目标对于从人类演示中学习精确的任务至关重要。

Implementing ACT

我们使用ResNet图像编码器、transformer编码器和transformer解码器来实现CVAE解码器。observation包括4张RGB图像,每张图像分辨率为480 × 640,两个机械臂关节位置(共7+7=14自由度)。策略在给定当前观察的情况下输出一个 k × 14 张量。
ResNet18主干对图像进行处理,将480 × 640 × 3RGB图像转换为15 × 20 × 512的特征图,沿空间维度展平以获得 300 × 512 的序列。为了保留空间信息,我们在特征序列中添加了二维正弦位置嵌入 。当前关节位置和“风格变量”z。它们分别通过线性层从其原始维度投影到 512。

fig4
alg1/2

实验

在 MuJoCo中构建了两个模拟的精细操作任务,6个现实任务。两个仿真任务是在双臂间传递物体 Cube Transfer ;一个是“Bimanual Insertion”,左臂和右臂需要分别拿起插座和插销,然后在半空中插入,使插销接触插座内的“引脚”。每种操作进行50次成功的演示,所有人类的演示本质上都是随机的。实验结果将ACT与四种先验模仿学习方法进行比较。

我们将先前方法的较差性能归因于数据中的复合错误和非马尔可夫行为:行为在事件结束时显著退化,机器人可以无限期地暂停某些状态。ACT通过动作分块来缓解这两个问题。在模拟任务中从脚本数据切换到人工数据时,所有方法的性能都有所下降:人工演示的随机性和多模式使模拟学习变得更加困难。
tab1/2
fig8

Mobile ALOHA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/678837.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java邮件发送的基本流程是什么?如何实现?

Java邮件发送的SMTP服务器如何配置?怎么配置发信? Java邮件发送是在Java应用程序中通过邮件协议(如SMTP)发送电子邮件的过程。它是许多企业级应用程序中常见的功能,用于向用户发送通知、确认邮件等。AokSend将介绍Jav…

浅谈配置元件之随机变量

浅谈配置元件之随机变量 1.概述 为了增强测试的真实性和多样性,JMeter 提供了多种配置元件来生成动态数据,其中“随机变量”(Random Variable) 就是一种常用的配置元件,用于生成随机数值、字符串等,以模拟不同用户请求中的变化参…

【Mac】Downie 4 for Mac(视频download工具)兼容14系统软件介绍及安装教程

前言 Downie 每周都会更新一个版本适配视频网站,如果遇到视频download不了的情况,请搜索最新版本https://mac.shuiche.cc/search/downie。 注意:Downie Mac特别版不能升级,在设置中找到更新一列,把自动更新和自动downl…

蓝牙网关和WiFi网关的对比

蓝牙网关和WiFi网关都是无线通信技术中的重要组件,它们各自具有不同的特点和应用场景。以下是蓝牙网关和WiFi网关的一些对比: 蓝牙网关 作用: - 蓝牙网关可以无线连接各种设备,如门锁、灯、电视等,并能与购物者、旅…

java海滨学院班级回忆录源码(springboot)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的海滨学院班级回忆录。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 海滨学院班级回忆录的…

Struts2 系列漏洞 - S2-001

一、前言 Struts2 是较早出现实现 MVC 思想的 java 框架。struts2 在 jsp 文件中使用 ognl 表达式来取出值栈中的数据。 struts 标签与 ognl 表达式的关系类似于 jstl 标签与 el 表达式的关系。[故在 jsp 文件中需引入 struts 标签库] # 二、概述 S2-001 漏洞由于在其解析 j…

Arduino ESP8266模块TFT液晶屏

ESP8266模块 模块实物图: 模块引脚定义: 工作模式选择: FlashBoot启动模式: GPIO15接GND UART固件下载模式: GPIO15接GND, GPIO0接GND 调试串口: URXD/UTXD 可用来下载固件和调试信息输出 模块使能&…

安装源码moveit遇到的问题

文章目录 问题1、 在操作 rosdep update 时报超时错误问题2、E: 仓库 “http://mirrors.ustc.edu.cn/ros/ubuntu focal Release” 没有 Release 文件问题3、卸载ompl问题4、安装moveit 问题1、 在操作 rosdep update 时报超时错误 出现 访问 https://raw.githubusercontent.com…

【官方文档解读】torch.jit.script 的使用,并附上官方文档中的示例代码

由 OpenMMLab 的部署教程 所述,对于模型中存在有控制条件的(如 if,for 等),需要用 torch.jit.script 而非采样默认的 torch.jit.trace 方法。本文则详细介绍了下官方文档中对 torch.jit.script 的解释和示例代码。 to…

SemiDrive X9H 平台 QT 静态编译

一、 前言 芯驰 X9H 芯片,搭载多个操作系统协同运行,系统实现了仪表、空调、中控、副驾多媒体的四屏驱动控制,在人车智能交互上可以通过显示屏、屏幕触摸控制、语音控制、物理按键控制、车身协议的完美融合,使汽车更智能。让车主…

“论软件系统建模方法”必过范文,突击2024软考高项论文

论文部分 摘要 2023年03月,我参与了某艺术品公司线上拍卖管理平台的研发。该项目的目标是建立一个互联网在线拍卖平台,用户可以通过手机或PC浏览器进入拍卖平台,对喜欢的拍品进行参拍出价。平台提供了在线支付、在线出价、保证金管理、拍品…

通信技术信号源硬件实验

定义 1.RZ码(归零码) RZ编码也成为归零码,归零码的特性就是在一个周期内,用二进制传输数据位,在数据位脉冲结束后,需要维持一段时间的低电平。 2.NRZ码(不归零编码) NRZ编码也成为…

AVL树的介绍与实现

前言 我们上一期介绍了二叉搜索树并做了实现,本期我们来继续学习另一个更优的树即AVL树! 本期内容介绍 什么是AVL树? AVL树的实现 AVL树的性能分析 在正式的介绍AVL树之前,我们先来回忆一下二叉搜索树的特点:左子树的…

nnUNet保姆级使用教程!从环境配置到训练与推理(新手必看)

文章目录 写在前面nnUNet是什么?一、配置虚拟环境二、安装nnUNet框架1.安装nnUNet这一步我遇到的两个问题: 2.安装隐藏层hiddenlayer(可选) 三、数据集准备nnUNet对于你要训练的数据是有严格要求的,这第一点就体现在我…

pushowl | 运用分销裂变模式实现业绩快速增长

一、公司简介 PushOwl公司是一家专注于为电子商务商店提供在线营销工具的印度初创企业。以下是对PushOwl公司的详细介绍: 基本信息: 所属公司:Creatorbox Softwares Private Limited 成立日期:2018年 所属地:印度 …

103.网络游戏逆向分析与漏洞攻防-ui界面的设计-加速功能的开关设计

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 如果看不懂、不知道现在做的什么,那就跟着做完看效果,代码看不懂是正常的,只要会抄就行,抄着抄着就能懂了 内容…

RDMA (1)

RDMA是什么 Remote Direct Memory Access(RDMA)是用来给有高速需求的应用释放网络消耗的。 RDMA在网络的两个应用之间进行低延迟,高吞吐的内存对内存的直接数据通信。 InfiniBand需要部署独立的协议。 RoCE(RDMA over Converged Ethernet),也是由InfiniBand Trade Associat…

【吊打面试官系列】Java高并发篇 - Java 线程数过多会造成什么异常?

大家好,我是锋哥。今天分享关于 【Java 线程数过多会造成什么异常?】面试题,希望对大家有帮助; Java 线程数过多会造成什么异常? 1、线程的生命周期开销非常高 1000道 互联网大厂Java工程师 精选面试题-Java资源分享…

postman教程-12-保存请求至Collections

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了Postman管理环境的方法,本小节我们讲解一下Postman保存请求至Collections集合的方法。 1、创建Collection 在保存Request请求之前,先创建一个Collection(集合)&#…

【网络编程开发】1.网络结构 2.IP地址与端口号 3.字节序

网络编程开发 两台计算机要互相传送文件需解决很多问题: 必须有一条传送数据的通路。发起方必须激活通路。要告诉网络如何识别接收方。发起方要清楚对方是否已开机,且与网络连接正常。发起方要清楚对方是否准备好接收和存储文件。若文件格式不兼容&…