用大模型训练实体机器人,谷歌推出机器人代理模型

谷歌DeepMind的研究人员推出了一款,通过视觉语言模型进行场景理解,并使用大语言模型来发出指令控制实体机器人的模型——AutoRT

AutoRT可有效地推理自主权和安全性,并扩大实体机器人学习的数据收集规模。在实验中,AutoRT指导超过20个实体机器人执行指令,并通过远程操作和自主机器人策略收集了77,000个真实机器人操作的片段

这充分说明,AutoRT收集的机器人操作数据更加多样化,并且在大语言模型的帮助下AutoRT可以轻松实现与人类偏好相一致的机器人行为指令,该模型对于训练实体机器人帮助巨大。

论文地址:https://auto-rt.github.io/static/pdf/AutoRT.pdf

图片

大语言模型是AutoRT的核心组建之一,充当机器人的指挥“大脑”,根据用户的提示和环境条件为一个或多个机器人提供任务指令,主要包括环境探索、任务生成、自主行为和行为过滤四大模块。

环境探索

负责让机器人在环境中寻找适合操作的场景。该模块使用了视觉语言模型构建环境地图,识别并定位各个对象。

然后根据对象特征采样导航目标,引导机器人驶向潜在的操作场景。这使得AutoRT可以无需事先了解环境布局就进行部署。

图片

简单来说,就是让机器人自己在房间、办公室等环境进行自行操作和观察,到处看看有啥可以操作的东西。它会先把当前环境里的桌子、杯子这些物体定位好,明确具体的坐标,方便以后的动作指令操作。

任务指令生成

首先使用视觉语言模型描述当前场景和环境中的对象,然后将这些文字描述输入大语言模型,生成机器人可以执行的一系列操作任务指令。

任务生成考虑不同的数据收集策略,为它们各自生成适配的任务列表。此外,任务生成过程中还内嵌了“机器人约束”,定义了机器人需要遵守的基本规则、安全规则和具体约束,确保任务的安全性和合理性。

自主执行

在任务执行阶段,机器人根据生成的任务执行计划来执行具体的操作。机器人可以根据需要执行自主策略,如通过路径规划和运动控制来移动和操作物体。

图片

此外,机器人还可以通过与人类操作员进行通信来执行任务。在需要人类干预或指导的情况下,机器人可以向操作员发送请求或询问,并根据操作员的指示进行相应的操作。

自主执行的目标是使机器人能够在不同环境和任务下独立运行,并从中获取丰富的数据。

行为指令过滤

主要对任务生成的输出进行再次筛选,移除不安全或不合理的任务。该模块同样基于大语言模型,将生成的任务及可选的数据收集策略作为输入,同时输出每个任务指令所匹配的策略或拒绝理由。

图片

可以把这个模块看成是一个自我反思的过程,大语言模型对自己生成的内容进行纠错和修正,提升整体的安全性能。

通过以上4大模块的协同工作,AutoRT能够在真实世界的不同环境中快速收集大规模、多样化的机器人数据

相比于传统的数据收集方法,AutoRT利用先进的视觉感知和语言模型技术,使机器人能够在未知的情境下自主决策并执行任务,从而最大限度地提高数据收集的效率和安全性。

此外,AutoRT还支持与人类操作员的交互,使机器人能够在需要时获取人类的帮助和指导。

本文素材来源AutoRT论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/348056.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HTML-表格

表格 1.基本结构 一个完整的表格由:表格标题、表格头部、表格主体、表格脚注,四部分组成 表格涉及到的标签: table:表格 caption:标题 thead:表格头部 tbody:表格主体 tfoot:表格注…

redis持久化之RDBAOF压缩

前引 1、redis持久化的文件是什么 dump.rdb appendonly.aof 2、这两中文件有什么异同 save 秒 1 alaways everysec no 3、文件存放的位置 dir ./ 4、默认的存放位置:命令启动的地方 dir 自定义的路径 rdb 和aof 文件 存放在同一个路径下面 5、rdb文件默认备份的策略是什么&…

每日一题——LeetCode1331.数组序号转换

方法一 排序哈希Map 首先用一个数组保存排序完的原数组,然后用一个哈希表保存各元素的序号,最后将原属组的元素替换为序号后返回。 var arrayRankTransform function(arr) {let set new Set(arr)let sortArrArray.from(set).sort((a,b)>a-b)let ma…

自学C语言-6

第6章 选择结构程序设计 顺序结构程序设计最简单,但通常无法解决生活中的选择性问题。选择结构程序设计需要用到一些条件判断语句,可实现的程序功能更加复杂,程序的逻辑性与灵活性也更加强大。 本章致力于使读者掌握使用if语句进行条件判断的…

【docker】解决docker overlay2目录占用大量磁盘空间,导致验证码出不来,报错Can‘t create output stream!

问题: 验证码出现Cant create output stream!报错信息 排查: 所在服务器磁盘使用率已经到达100%,经排查,服务器目录/var/lib/docker/overlay2占用大量磁盘空间, 解决: 使用【docker system prune】命令删…

怎么移除WordPress后台工具栏“新建”菜单?如何添加“新建文章”菜单?

默认情况下,WordPress后台顶部管理工具栏有左侧有一个“新建”菜单,而且还有下拉菜单文章、媒体、链接、页面和用户等,不过我们平时用得最多的就是“新建文章”,虽然可以直接点击“新建”,或点击“新建 – 文章”&…

AI Toolkit软件安装教程(附软件下载地址)

软件简介: 软件【下载地址】获取方式见文末。注:推荐使用,更贴合此安装方法! AI Toolkit是一款卓越的人工智能软件,专为企业和个人提供一体化的解决方案,助力其工作流程高效运转。该软件套件融合了多种顶…

Python脚本之操作Redis Cluster【三】

本文为博主原创,未经授权,严禁转载及使用。 本文链接:https://blog.csdn.net/zyooooxie/article/details/135485606 之前写了2篇 操作redis集群的 https://blog.csdn.net/zyooooxie/article/details/123760358 、 https://blog.csdn.net/zyo…

2021 Google Chrome RCE漏洞分析

一、复现环境: Win10 Google Chrome 86.0.4240.75 二、利用复现: 关闭沙箱安全使用命令进行关闭 ,在正常情况下,浏览器沙箱提供了一个受限制的执行环境,以防止恶意代码对用户系统的损害。关闭沙箱可能会导致浏览器执…

查询排序(1)

Oracle从入门到总裁:https://blog.csdn.net/weixin_67859959/article/details/135209645 前面介绍了在 SQL 限定查询中 WHERE 子句的运行顺序优先于 SELECT 子句,WHERE 子句确定数据行,SELECT 子句确定数据列。 也分别讲述了在 WHERE 子句中常用的运算…

相机拍摄基础

相机拍摄 1.索尼A7M3摄影机挡位 AUTO自动档,光圈快门自动调整。 P档半自动档,只能调整感光度,光圈快门随之变化。 A档,光圈优先,只能调整光圈值,快门随之变化。适合拍摄风景、人像。 S档,快…

SpringBoot整合redisson实现分布式锁

SpringBoot整合redisson实现分布式锁 本文主要通过 SpringBoot 整合 redisson 来实现分布式锁&#xff0c;并结合 demo 测试结果。 1、pom依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0…

【Linux】 开始使用 gcc 吧!!!

Linux 1 认识gcc2 背景知识3 gcc 怎样完成 &#xff1f;3.1 预处理预处理^条件编译 3.2 编译3.3 汇编3.4 链接 4 函数库5 gcc 基本选项Thanks♪(&#xff65;ω&#xff65;)&#xff89;谢谢阅读下一篇文章见&#xff01;&#xff01;&#xff01; 1 认识gcc 我们在windows环…

【LIBS】交叉编译TCPDUMP

目录 1. 安装编译工具2. 设置环境变量3. 编译libpcap3.1 安装依赖3.2 交叉编译 4. 编译TCPDUMP4.1 克隆仓库与生成构建环境4.2 静态链接LIBPCAP4.3 动态链接LIBPCAP4.4 构建与安装 5. 查看交叉编译结果5.1 文件布局 1. 安装编译工具 sudo apt-get install -y autoconf automak…

SaaS系统如何助力企业数字化转型

随着科技的快速发展&#xff0c;数字化转型已经成为企业适应市场变化、提高竞争力的必要手段。在这个过程中&#xff0c;SaaS&#xff08;软件即服务&#xff09;系统以其独特的优势&#xff0c;正在成为越来越多企业的首选。乔拓云SaaS系统作为这一领域的佼佼者&#xff0c;更…

谷歌出品!读懂 QUIC 协议:更快、更高效的通信协议

QUIC结构 QUIC协议模型如下图所示&#xff0c;其放弃了TCP∕IP网络中使用五元组(源IP,源端口,目的IP,目的端口,协议标识符)来唯一标识一条连接的方式,而使用一个全局唯一的随机生成的ID(即Connection ID) 来标识一条连接。 由低向上分层讨论QUIC协议&#xff1a; •UDP层:在U…

1990-2019年城市维度区域创新创业指数面板数据/地级市创新创业指数面板数据

1990-2019年城市维度区域创新创业指数面板数据/地级市创新创业指数面板数据 1、时间&#xff1a;1990-2019年 2、范围&#xff1a;地级市&#xff08;290&#xff09; 3、指标&#xff1a;序号、年份、城市码、城市、总维度&#xff1a;总量指数得分、人均得分、单位面积得分…

应用协议漏洞

应用协议漏洞 一、rsync rsync是Linux下一款数据备份工具&#xff0c;支持通过rsync协议、ssh协议进行远程文件传输。其中rsync协议默认监听873端口 1.未授权访问 打开靶场 判断漏洞是否存在 rsync rsync://目标ip:端口读取文件 rsync rsync://47.99.49.128:873/src/tmp/下…

访问者模式-C#实现

该实例基于WPF实现&#xff0c;直接上代码&#xff0c;下面为三层架构的代码。 一 Model using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;namespace 设计模式练习.Model.访问者模式 {public class Com…

JRT的无源码发布

之前介绍过JRT最大的特点就是业务脚本化。老javaer就会说你业务代码都在发布环境放着&#xff0c;那怎么代码保密&#xff0c;在发布环境别人随便改了启不是不安全&#xff0c;或者一些代码我就是不想让人看源码呢。 其实JRT的业务脚本化只是特性&#xff0c;不是代表就必须要…