具身智能新突破!Physical Intelligence推出机器人动作tokenizer,训练提速5倍

具身智能,是人工智能(AI)行业的下一个浪潮。如何有效训练 Transformers 模型来控制具身机器人,是当前亟需要解决的难题,尤其是对于更复杂、需要精确和高频控制的精巧技能,现有的视觉-语言-动作(VLA)模型几乎失效。尽管扩散或流匹配通常表现得更好,但扩散需要更长的训练时间。

那么,如何在保持灵巧性和精确性的同时,快速训练 Transformers 进行机器人控制呢?使用一个好的 tokenizer 对有效的大规模训练至关重要。

今天,具身智能初创公司 Physical Intelligence 推出了一种专门为动作设计的新 tokenizer——FAST。

据介绍,FAST 的灵感来自于 JPEG 图像的连续压缩方法,它能够处理标准分箱离散化无法应对的高频精巧任务,并达到与流匹配或扩散相似的灵巧程度,同时训练速度提高 5 倍。通过像处理语言一样用离散 token 表示动作,FAST 提高了从互联网规模预训练的迁移能力,并改善了语言指令跟随。通过自然语言命令的提示,他们首次在 DROID 数据集上训练出能够在全新环境中执行一系列操作任务的策略。

为了促进更强大机器人基础模型的研究,他们发布了一个在 100 万个真实机器人动作序列上训练过的 FAST tokenizer 的通用变体。

通过 FAST,他们开发了一种高效的机器人动作 tokenization 方法,从而能够无缝连接机器人技术与自回归 Transformer 训练管道。
在这里插入图片描述图|FAST 是一个动作 tokenizer,能够通过简单的下一个 token 预测,在高度精巧的任务上训练通用策略。

实验表明,这种自回归策略使人们能够使用简单的方法解决一些迄今为止最具挑战性的机器人任务,同时训练速度远快于现有模型。与此同时,FAST 展示了对当前通用策略训练管道进行小幅改动如何对训练效率和性能产生重大影响,这表明可能还有许多其他改动可以改善策略训练。

Physical Intelligence 团队表示,他们将发布在 100 万个真实机器人动作序列上训练过的 FAST tokenizer 版本。这样,任何人都可以使用 FAST 训练策略,只需三行代码,就可以把动作 token 化:
在这里插入图片描述
有关 tokenizer 的更多信息以及如何在自己的数据上训练 FAST tokenizer,详见 https://huggingface.co/KarlP/fast。

FAST:专为动作设计的 tokenizer

FAST 通过在训练前对原始动作块进行压缩,改进了简单的分箱方法。它可以显著提高在精巧机器人数据上进行策略训练和推理的效率。具体来说,该 tokenization 方法依赖于离散余弦变换(DCT),后者是一种常用于信号压缩的技术,比如 JPEG 或 MP3 编解码器。Physical Intelligence 团队将 DCT 与字节对编码(BPE)相结合,后者是一种常用于训练大语言模型(LLM)的压缩算法。两者结合后,原始动作块被压缩成少量密度的动作 token,通常每个块包含 30 到 60 个 token,比之前的动作 tokenization 方法压缩了 10 倍。

在这里插入图片描述图|FAST tokenizer 使用离散余弦变换(DCT)对动作序列进行压缩,生成了一个密集的压缩动作 token 序列。

此外,Physical Intelligence 团队还将 FAST 与 π0 模型结合,进行了测试。

测试结果显示,与之前局限于简单操作任务的离散化 VLA 模型不同,FAST 支持在高精巧任务上训练自回归 Transformer 策略,例如折叠衣物、清理桌子和打包购物袋。与此同时,FAST 训练的速度比之前的模型快多达 5 倍。下方视频展示了通过 FAST 策略可以解决的一些任务。

此外,他们利用 FAST 在最近发布的 DROID 数据集上训练出了第一个通用策略,其能够在新环境中将其泛化到各种指令。DROID 是一个包含各种机器人操纵任务的开源数据集,由来自世界各地的机器人研究人员历时两年收集而成。该数据集包含从大学建筑到真实家庭的各种场景和任务,但迄今为止,还没有一种方法能够在完整数据集上训练出通用策略,使其能够在新环境中零样本执行语言指令。

与加州大学伯克利分校、斯坦福大学和华盛顿大学合作进行的测试结果显示,该策略能够在所有测试的环境中直接执行简单的操作任务。如下方视频所示:

即使策略在某项任务上失败了,它通常也会做出直观的尝试来解决问题(见下方视频)。这为展现了一个未来的可能性——在未来,可以像使用语言模型一样,直接下载并使用通用机器人策略。

π0-FAST:第一个自回归通用策略

他们还使用 FAST tokenizer 训练了 π0-FAST,这是他们的第一个自回归通用策略。

π0-FAST 建立在 π0 模型基础上,并使用相同的模型骨干和训练数据集。π0-FAST 能够解决与标准基于扩散的 π0 模型相同的复杂和精巧任务,但由于使用了简单的自回归离散化方法,它的训练速度快了 5 倍。在对比实验中,标准离散化方法无法解决实验中的任何精巧任务。

在这里插入图片描述图|使用 FAST 进行训练非常高效。通用策略 π0-FAST 的训练速度比原始的 π0 模型快 5 倍,并取得了相似的性能。

当然,他们的模型也并非完美。他们表示,当前模型的一个显著缺点是推理速度较慢:π0-FAST 的自回归解码明显慢于 π0 中使用的流匹配解码方法。虽然加速自回归 VLA 的推理仍是一个有待解决的问题,但在其他领域(如语言建模)中,关于自回归 Transformer 模型快速推理的研究已有丰富的成果,这些研究可以为 VLA 的解决方案提供启示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/957653.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

通过idea创建的springmvc工程需要的配置

在创建的spring mvc工程中&#xff0c;使用idea开发之前需要配置文件包括porm.xml、web.xml、springmvc.xml 1、porm.xml 工程以来的spring库&#xff0c;主要包括spring-aop、spring-web、spring-webmvc&#xff0c;示例配置如下&#xff1a; <project xmlns"http:/…

【MySQL系列文章】Linux环境下安装部署MySQL

前言 本次安装部署主要针对Linux环境进行安装部署操作,系统位数64 getconf LONG_BIT 64MySQL版本&#xff1a;v5.7.38 一、下载MySQL MySQL下载地址&#xff1a;MySQL :: Download MySQL Community Server (Archived Versions) 二、上传MySQL压缩包到Linuxx环境&#xff0c…

【排查案例】无认证集群空白分区创建元凶排查记录

无认证集群空白分区创建元凶排查记录 前言正文SparkSQL Thrift审计通过edit查找操作抓包分析请求NodeManager日志追踪结论 后记 前言 今天分享一个最近在生产环境排查的空白分区的问题&#xff0c;先说业务感知&#xff0c;业务那边反馈本身这条业务链每个小时数据应该是3个分…

音频入门(一):音频基础知识与分类的基本流程

音频信号和图像信号在做分类时的基本流程类似&#xff0c;区别就在于预处理部分存在不同&#xff1b;本文简单介绍了下音频处理的方法&#xff0c;以及利用深度学习模型分类的基本流程。 目录 一、音频信号简介 1. 什么是音频信号 2. 音频信号长什么样 二、音频的深度学习分…

语义分割文献阅读-SegNet:一种用于图像分割的深度卷积编码器-解码器架构(1.13-1.19)

目录 摘要 Abstract 1 引言 2 SegNet架构 2.1 编码器网络 2.2 解码器网络 2.3 最大池化索引(Max-pooling Indices) 3 训练SegNet 3.1 加载预训练权重 3.2 构建MyDataset类 3.3 训练 4 测试 总结 摘要 本周阅读的论文题目是《SegNet&#xff1a;A Deep Convoluti…

深度学习核函数

一、核函数的基本概念 核函数在机器学习中具有重要应用价值&#xff0c;常用于支持向量机&#xff08;SVM&#xff09;等算法中。 核函数是面试中经常被考到的知识点&#xff0c;对于找工作和实际数据转换都有重要作用。 二、数据建模与核函数的作用 数据越多&#xff0c;可…

.Net Core微服务入门全纪录(四)——Ocelot-API网关(上)

系列文章目录 1、.Net Core微服务入门系列&#xff08;一&#xff09;——项目搭建 2、.Net Core微服务入门全纪录&#xff08;二&#xff09;——Consul-服务注册与发现&#xff08;上&#xff09; 3、.Net Core微服务入门全纪录&#xff08;三&#xff09;——Consul-服务注…

2024年智慧消防一体化安全管控年度回顾与2025年预测

随着科技的飞速发展&#xff0c;智慧营区一体化安全管控在2024年取得了显著进展&#xff0c;同时也为2025年的发展奠定了坚实基础。 2024年年度回顾 政策支持力度持续加大&#xff1a;国家对消防安全的重视程度不断提高&#xff0c;出台了一系列涵盖技术创新、市场应用、人才培…

抖音小程序一键获取手机号

前端代码组件 <button v-if"!isFromOrderList"class"get-phone-btn" open-type"getPhoneNumber"getphonenumber"onGetPhoneNumber">一键获取</button>// 获取手机号回调onGetPhoneNumber(e) {var that this tt.login({f…

【线性代数】列主元法求矩阵的逆

列主元方法是一种用于求解矩阵逆的数值方法&#xff0c;特别适用于在计算机上实现。其基本思想是通过高斯消元法将矩阵转换为上三角矩阵&#xff0c;然后通过回代求解矩阵的逆。以下是列主元方法求解矩阵 A A A 的逆的步骤&#xff1a; [精确算法] 列主元高斯消元法 步骤 1&am…

从零开始:Spring Boot核心概念与架构解析

引言 在当今的Java开发领域&#xff0c;Spring Boot已经成为构建企业级应用的首选框架之一。它以其简洁、高效、易于上手的特点&#xff0c;极大地简化了Spring应用的开发过程。本文将从Spring Boot的核心概念入手&#xff0c;深入解析其架构设计和运行原理&#xff0c;帮助读…

后端面试题分享第一弹(状态码、进程线程、TCPUDP)

后端面试题分享第一弹 1. 如何查看状态码&#xff0c;状态码含义 在Web开发和调试过程中&#xff0c;HTTP状态码是了解请求处理情况的重要工具。 查看状态码的步骤 打开开发者工具&#xff1a; 在大多数浏览器中&#xff0c;您可以通过按下 F12 键或右键单击页面并选择“检查…

7、数组知识点汇总

一、 数组基本概念 程序算法数据结构 算法&#xff1a;解决程序的流程步骤数据结构&#xff1a;将数据按照某种特定的结构来存储设计良好的数据结构会导致良好的算法。ArrayList、LinkedList 数组是最简单的数据结构。 1、数组&#xff1a; 数组&#xff1a;存放同一种类型…

计算机网络 (48)P2P应用

前言 计算机网络中的P2P&#xff08;Peer to Peer&#xff0c;点对点&#xff09;应用是一种去中心化的网络通信模式&#xff0c;它允许设备&#xff08;或节点&#xff09;直接连接并共享资源&#xff0c;而无需传统的客户端-服务器模型。 一、P2P技术原理 去中心化架构&#…

【技巧】优雅的使用 pnpm+Monorepo 单体仓库构建一个高效、灵活的多项目架构

单体仓库&#xff08;Monorepo&#xff09;搭建指南&#xff1a;从零开始 单体仓库&#xff08;Monorepo&#xff09;是一种将多个相关项目集中管理在一个仓库中的开发模式。它可以帮助开发者共享代码、统一配置&#xff0c;并简化依赖管理。本文将通过实际代码示例&#xff0…

包文件分析器 Webpack Bundle Analyzer

webpack-bundle-analyzer 是一个非常有用的工具&#xff0c;用于可视化和分析 Webpack 打包生成的文件。这使得开发者能够更好地理解应用的依赖关系、包的大小&#xff0c;以及优化打包的机会。以下是关于 webpack-bundle-analyzer 的详细介绍&#xff0c;包括它的安装、使用以…

重学SpringBoot3-WebClient配置与使用详解

更多SpringBoot3内容请关注我的专栏&#xff1a;《SpringBoot3》 期待您的点赞??收藏评论 重学SpringBoot3-WebClient配置与使用详解 1. 简介2. 环境准备 2.1 依赖配置 3. WebClient配置 3.1 基础配置3.2 高级配置3.3 retrieve()和exchange()区别 4. 使用示例 4.1 基本请求操…

持续升级《在线写python》小程序的功能,文章页增加一键复制功能,并自动去掉html标签

增加复制按钮后的界面是这样的 代码如下&#xff1a; <template><view><x-header></x-header><view class"" v-if"article_info"><view class"kuai bgf"><view class"ac fs26"><img sr…

今天也是记录小程序进展的一天(破晓时8)

嗨嗨嗨朋友们&#xff0c;今天又来记录一下小程序的进展啦&#xff01;真是太激动了&#xff0c;项目又迈出了重要的一步&#xff0c;231啦&#xff01;感觉每一步的努力都在积累&#xff0c;功能逐渐完善&#xff0c;离最终上线的目标越来越近了。大家一直支持着这个项目&…

启动虚拟机中客户机后导致电脑蓝屏的解决办法

不考虑重新安装虚拟机的解决办法有两种&#xff1a; vmx文件破损时使用 1&#xff09;删除CentOS 64-bit.vmx文件 2&#xff09;打开vmware-0.log文件&#xff0c;找到CONFIGURATION 和 USER DEFAULTS 并把这两个之间的内容拷贝出来 删除框出来的部分&#xff0c;复制框出来的…