ICLR 2025收录论文:为什么动作分块对于机器人灵活性至关重要?

随着机器人学习和人类演示数据的不断增加,行为克隆方法逐渐成为机器人领域的研究热点。行为克隆通过模仿人类专家的演示来学习控制策略,但是现有方法在处理人类演示的强时间依赖性和大风格变异性方面仍面临不少挑战。 为了解决这些问题,近日美国斯坦福大学计算机科学家和助理教授切尔西·芬(Chelsea Finn)带领的研究团队,提出了基于动作分块(Action Chunking)策略的一种双向解码(Bidirectional Decoding, BID)方法,能够在保持动作分块优点的同时,提高了机器人策略在复杂任务中的表现。
在这里插入图片描述

目前该论文已被ICLR 2025接收,论文第一作者为斯坦福大学博士后刘跃江,目前在斯坦福AI实验室从事模型的研究工作。 ▍动作分块策略的分析 动作分块策略通过预测未来多个时间步的动作序列,并在执行时采用部分或全部序列,从而减少有效控制范围。这种方法在实验室环境中显示出显著的优势,能够捕捉演示中的时间依赖性,如空闲暂停和潜在策略。然而,在实际应用中,特别是在随机环境中,动作分块可能导致反应能力下降,因为减少了对最新状态观测的访问。
为了理解动作分块如何影响学习到的策略与演示者之间的偏差,研究人员首先需要分析动作分块策略在训练和部署时的特性。在训练阶段,动作分块策略通过最小化模型预测动作分布与人类专家动作分布之间的散度来优化。然而,在部署时,策略的执行依赖于特定的动作范围(action horizon),这通常小于预测长度(prediction length)。
应用于具有动作分块的机器人策略的不同推理方法在这里插入图片描述

动作分块策略的有效性取决于上下文长度(context length)和动作范围的选择。较短的上下文长度可以减少过拟合,但可能无法充分捕捉演示中的时间依赖性。较长的动作范围虽然能改善一致性,但在随机环境中可能降低反应能力。因此,动作分块策略在实际应用中面临一致性和反应性的权衡。
为了量化动作分块策略的一致性和反应性权衡,研究人员引入了两个关键概念:期望观测优势(Expected Observation Advantage, α)和最大推理劣势(Maximum Inference Disadvantage, ϵ)。期望观测优势反映了由于观测到更多状态信息而带来的性能提升,而最大推理劣势则量化了由于未观测到状态信息而导致的推理误差。
通过理论分析,研究人员证明了在不同环境条件下(如确定性环境和随机环境),动作分块策略的性能表现存在差异。在确定性环境中,较长的动作范围能够显著改善性能,因为可以基于更多历史动作进行推理。然而,在随机环境中,较短的动作范围更为有利,因为能够更快速地响应最新状态变化。
▍双向解码方法的底层逻辑与具体实现
为了解决动作分块策略的一致性和反应性权衡问题,研究人员提出了双向解码(BID)方法。BID方法通过在每个时间步采样多个预测,并根据两个准则选择最优预测:向后一致性(backward coherence)和向前对比(forward contrast)。向后一致性鼓励选择与之前决策一致的样本,以保持时间一致性;向前对比则通过比较候选样本与更强和更弱策略的输出,选择具有高未来可能性的样本,以提高反应性。
在Franka Panda机器人上进行真实世界物体交付任务的人类演示在这里插入图片描述

在BID方法的实现中,研究人员首先从一个强策略和一个弱策略中分别采样N个动作序列,构建初始样本集A和A’。然后,研究人员计算每个样本的向后损失L_B,并选择K个具有最小向后损失的样本,分别构成正样本集A+和负样本集A-。接下来,团队计算每个候选样本的向前损失L_F,并从正样本集中选择具有最小总损失(向后损失+向前损失)的样本作为最终执行动作。
这种方法通过增加候选样本的数量,提高了在闭环操作中恢复时间一致性的可能性。同时,通过比较不同策略的输出,BID方法能够在保持时间一致性的同时,提高对环境变化的反应能力。
机器人的任务是拿起一个杯子 把它放在附近的碟子上在这里插入图片描述

值得一提的是BID方法的优势在于其模型无关性、计算效率和易于实现。它不需要对原始策略进行修改,而是通过样本选择来干预模型分布。此外,BID方法的所有步骤都可以并行计算,因此在现代GPU设备上具有较低的计算开销。
▍实验验证与分析
为了验证理论分析的正确性,研究人员首先在一维状态空间中进行诊断实验。实验结果验证了在不同噪声水平下,动作范围对策略性能的影响。在确定性环境中,较长的动作范围能够更准确地捕捉专家的空闲动作分布;而在随机环境中,较短的动作范围则表现出更好的性能。 在一维模拟中作用范围h对空闲动作的影响在这里插入图片描述

在仿真实验中,团队评估了BID方法在七个机器人操作任务上的表现。实验结果表明,BID方法在所有任务上均显著优于现有推理方法,如Vanilla、Warmstart和EMA。特别是在随机噪声较高的环境中,BID方法表现出更强的鲁棒性和更高的成功率。
扩散策略闭环操作的不同推理方法的比较在这里插入图片描述

此外团队还评估了BID方法的可扩展性和兼容性。实验结果显示,随着样本数量的增加,BID方法的性能持续提升,且没有饱和的迹象。值得注意的是,BID方法与现有推理方法(如EMA)相结合时,能够进一步提高性能增益。
BID受益于大样本量(左),并补充了现有的推理方法(右)。在这里插入图片描述

为了验证BID方法在实际应用中的有效性,研究团队在两个动态物体交互任务上进行了真实世界实验。实验结果表明,BID方法在处理动态目标时表现出更高的成功率和更强的适应性。特别是在动态抓取任务中,BID方法的成功率是现有方法的两倍以上。
▍结语与未来:
整体来看,BID方法与近期提出的回退视角(receding horizon)和时间集成(temporal ensembling)方法相比,具有明显优势。回退视角方法通过选择适中的动作范围来折中一致性和反应性,但在两者都存在明显的短板,时间集成方法通过平均多个决策来加强跨块依赖性,但在连续决策落入不同模式时可能引入不利影响。BID方法则通过专门的行为搜索更有效地解决跨块依赖性问题,并且与现有方法不互斥。
研究人员表示,尽管BID方法在提高动作分块策略性能方面表现出色,但依旧有不少改进的空间,例如在低成本机器人上的高频操作中可能仍然昂贵,未来团队研究方向会聚焦在探索批量大小受限的情况下生成高质量且多样的动作序列的算法。
开源地址:https://bid-robot.github.io/论文地址:https://arxiv.org/pdf/2408.17355

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/963132.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

视频脚本生成器(基于openai API和streamlit)

utils.py: # 所有和ai交互的代码放进utils.py里(utils 通常是 “utilities” 的缩写,意为 “实用工具” 或 “实用函数”)from langchain.prompts import ChatPromptTemplate from langchain_openai import ChatOpenAI from lan…

java每日精进1.31(SpringSecurity)

在所有的开发的系统中&#xff0c;都必须做认证(authentication)和授权(authorization)&#xff0c;以保证系统的安全性。 一、基础使用 1.依赖 <dependencies><!-- 实现对 Spring MVC 的自动化配置 --><dependency><groupId>org.springframework.bo…

【Spring】Spring启示录

目录 前言 一、示例程序 二、OCP开闭原则 三、依赖倒置原则DIP 四、控制反转IOC 总结 前言 在软件开发的世界里&#xff0c;随着项目的增长和需求的变化&#xff0c;如何保持代码的灵活性、可维护性和扩展性成为了每个开发者必须面对的问题。传统的面向过程或基于类的设计…

使用 MSYS2 qemu 尝鲜Arm64架构国产Linux系统

近期&#xff0c;我的师弟咨询我关于Arm64架构的国产CPU国产OS开发工具链问题。他们公司因为接手了一个国企的单子&#xff0c;需要在这类环境下开发程序。说实在的我也没有用过这个平台&#xff0c;但是基于常识&#xff0c;推测只要基于C和Qt&#xff0c;应该问题不大。 1. …

一、html笔记

(一)前端概述 1、定义 前端是Web应用程序的前台部分,运行在PC端、移动端等浏览器上,展现给用户浏览的网页。通过HTML、CSS、JavaScript等技术实现,是用户能够直接看到和操作的界面部分。上网就是下载html文档,浏览器是一个解释器,运行从服务器下载的html文件,解析html、…

9.2k star!PiliPala一个第三方B站客户端!

软件介绍 链接 PiliPala一个在Github上收获9.2k star的开源第三方bilibili客户端&#xff0c;支持安卓和ios端安装使用。应用界面简洁无广、除核心功能外无任何冗余功能和服务&#xff0c;让我们可以尽情的享受内容带给我们的快乐。 基础的功能如登录、点赞收藏、评论、关注、…

嵌入式C语言:大小端详解

目录 一、大小端的概念 1.1. 大端序&#xff08;Big-endian&#xff09; 1.2. 小端序&#xff08;Little-endian&#xff09; 二、大小端与硬件体系的关系 2.1. 大小端与处理器架构 2.2. 大小端与网络协议 2.3. 大小端对硬件设计的影响 三、判断系统的大小端方式 3.1.…

ZZNUOJ(C/C++)基础练习1031——1040(详解版)

1031 : 判断点在第几象限 题目描述 从键盘输入2个整数x、y值&#xff0c;表示平面上一个坐标点&#xff0c;判断该坐标点处于第几象限&#xff0c;并输出相应的结果。 输入 输入x&#xff0c;y值表示一个坐标点。坐标点不会处于x轴和y轴上&#xff0c;也不会在原点。 输出 输出…

8.[前端开发-CSS]Day08-图形-字体-字体图标-元素定位

一、额外知识补充 1 border图形 边框的形状 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport"…

Qt事件处理:理解处理器、过滤器与事件系统

1. 事件 事件 是一个描述应用程序中、发生的某些事情的对象。 在 Qt 中&#xff0c;所有事件都继承自 QEvent &#xff0c;并且每个事件都有特定的标识符&#xff0c;如&#xff1a;Qt::MouseButtonPress 代表鼠标按下事件。 每个事件对象包含该事件的所有相关信息&#xff…

大白话讲清楚embedding原理

Embedding&#xff08;嵌入&#xff09;是一种将高维数据&#xff08;如单词、句子、图像等&#xff09;映射到低维连续向量的技术&#xff0c;其核心目的是通过向量表示捕捉数据之间的语义或特征关系。以下从原理、方法和应用三个方面详细解释Embedding的工作原理。 一、Embe…

git笔记-简单入门

git笔记 git是一个分布式版本控制系统&#xff0c;它的优点有哪些呢&#xff1f;分为以下几个部分 与集中式的版本控制系统比起来&#xff0c;不用担心单点故障问题&#xff0c;只需要互相同步一下进度即可。支持离线编辑&#xff0c;每一个人都有一个完整的版本库。跨平台支持…

利用metaGPT多智能体框架实现智能体-1

1.metaGPT简介 MetaGPT 是一个基于大语言模型&#xff08;如 GPT-4&#xff09;的多智能体协作框架&#xff0c;旨在通过模拟人类团队的工作模式&#xff0c;让多个 AI 智能体分工合作&#xff0c;共同完成复杂的任务。它通过赋予不同智能体特定的角色&#xff08;如产品经理、…

当WebGIS遇到智慧文旅-以长沙市不绕路旅游攻略为例

目录 前言 一、旅游数据组织 1、旅游景点信息 2、路线时间推荐 二、WebGIS可视化实现 1、态势标绘实现 2、相关位置展示 三、成果展示 1、第一天旅游路线 2、第二天旅游路线 3、第三天旅游路线 4、交通、订票、住宿指南 四、总结 前言 随着信息技术的飞速发展&…

windows10 配置使用json server作为图片服务器

步骤1&#xff1a;在vs code中安装json server, npm i -g json-server 注意&#xff1a;需要安装对应版本的json server&#xff0c;不然可能会报错&#xff0c;比如&#xff1a; npm i -g json-server 0.16.3 步骤2&#xff1a;出现如下报错&#xff1a; json-server 不是…

洛谷 P1164 小A点菜 C语言

P1164 小A点菜 - 洛谷 | 计算机科学教育新生态 题目背景 uim 神犇拿到了 uoi 的 ra&#xff08;镭牌&#xff09;后&#xff0c;立刻拉着基友小 A 到了一家……餐馆&#xff0c;很低端的那种。 uim 指着墙上的价目表&#xff08;太低级了没有菜单&#xff09;&#xff0c;说&…

向上调整算法(详解)c++

算法流程&#xff1a; 与⽗结点的权值作⽐较&#xff0c;如果⽐它⼤&#xff0c;就与⽗亲交换&#xff1b; 交换完之后&#xff0c;重复 1 操作&#xff0c;直到⽐⽗亲⼩&#xff0c;或者换到根节点的位置 这里为什么插入85完后合法&#xff1f; 我们插入一个85&#xff0c;…

50. 正点原子官方系统镜像烧写实验

一、Windows下使用OTG烧写系统 1、在Windos使用NXP提供的mfgtool来向开发烧写系统。需要用先将开发板的USB_OTG接口连接到电脑上。 Mfgtool工具是向板子先下载一个Linux系统&#xff0c;然后通过这个系统来完成烧写工作。 切记&#xff01;使用OTG烧写的时候要先把SD卡拔出来&…

AI智能化模型助力太阳能光伏板自动巡检运维,基于YOLOv5全系列【n/s/m/l/x】参数模型开发构建无人机航拍场景下太阳能光伏板污损缺陷智能检测识别系统

随着全球科技和能源领域的飞速发展&#xff0c;清洁新能源&#xff0c;尤其是太阳能&#xff0c;正以前所未有的速度融入我们的日常生活。太阳能光伏板作为转换太阳能为电能的关键设备&#xff0c;其普及程度日益提高&#xff0c;从偏远乡村到繁华都市&#xff0c;无处不在地展…

深度学习 DAY3:NLP发展史

NLP发展史 NLP发展脉络简要梳理如下&#xff1a; (远古模型&#xff0c;上图没有但也可以算NLP&#xff09; 1940 - BOW&#xff08;无序统计模型&#xff09; 1950 - n-gram&#xff08;基于词序的模型&#xff09; (近代模型&#xff09; 2001 - Neural language models&am…