“机器人V2.0时代已来”-任务规划难题迎刃而解,世界因机器人改变而翻转!

01-VILA背景简介

2022年,Michael Ahn, Anthony Brohan等人提出“Do as i can, not as i say: Grounding language in robotic affordances”算法。本文指出虽然大型语言模型可以编码关于世界的丰富语义知识,而这些知识对旨在对用自然语言表达的高级、时间扩展指令采取行动的机器人非常有用,但是语言模型的一个显著弱点是缺乏上下文基础,这使得在给定的现实世界上下文中很难利用它们进行决策。例如,要求语言模型描述如何清洁泄漏可能会产生合理的叙述,但它可能不适用于需要在特定环境中执行此任务的特定代理,如机器人。作者建议通过预先训练的行为来提供这种基础,这些行为用于调节模型,以提出既可行又适合上下文的自然语言动作。机器人可以充当语言模型的“手和眼睛”,而语言模型提供有关任务的高级语义知识。

2023年,Wenlong Huang, Fei Xia等人提出“ Grounded decoding: Guiding text generation with grounded models for robot control”算法。大型语言模型(LLM)的最新进展表明,通过使用自回归模型进行预训练,可以学习和利用互联网规模的知识。不幸的是,将这种模型应用于具有具体代理的环境(如机器人)是具有挑战性的,因为它们缺乏物理世界的经验,无法解析非语言观察结果,并且不知道机器人可能需要的奖励或安全约束。另一方面,从交互数据中学习的基于语言的机器人策略可以提供必要的基础,使代理能够正确地位于现实世界中,但由于可用于训练它们的交互数据的广度有限,这种策略受到缺乏高级语义理解的限制。因此,如果我们想利用语言模型中的语义知识,同时仍将其置于具体环境中,就必须构建一个既可能根据语言模型,又可以根据环境的基础模型实现的动作序列。作者将其定义为一个类似于概率滤波的问题:解码一个在语言模型下具有高概率和在一组基础模型目标下具有高可能性的序列。

2023年Zhengyuan Yang等人提出“The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)”算法。本文分析了最新的模型GPT-4V来加深大家对LMM的理解。分析的重点是GPT-4V可以执行的有趣任务,包括测试样本,以探测GPT-4V功能的质量和通用性、其支持的输入和工作模式,以及提示模型的有效方法。在探索GPT-4V的方法中,作者策划和组织了一系列精心设计的定性样本,涵盖各种领域和任务。对这些样本的观察结果表明,GPT-4V在处理任意交织的多模式输入方面前所未有的能力及其能力的通用性使GPT-4V成为一个强大的多模式通才系统。此外,GPT-4V理解输入图像上绘制的视觉标记的独特能力可以产生新的人机交互方法,如视觉参考提示。
在这里插入图片描述

02-VILA算法简介

对于现实场景中的机械臂而言,学习并理解任务规划能力是一件比较复杂的任务。最近的进展表明,大型语言模型(LLM)拥有广泛的知识,可用于机器人任务,特别是在推理和规划任务中。然而,由于LLM缺乏世界基础和依赖外部可供性模型来感知环境信息而受到限制。作者认为,任务规划器应该是一个固有的、统一的多模式系统。
本文介绍了机器人视觉语言规划(ViLa),它是一种简单有效的远程机器人任务规划方法,它利用视觉语言模型(VLM)生成一系列可操作的步骤。ViLa将感知数据直接集成到其推理和规划过程中,从而能够深入理解视觉世界中的常识知识,包括空间布局和对象属性。它还支持灵活的多模式目标规范,并自然地包含视觉反馈。ViLa可以在现实世界和模拟环境中解决各种复杂的长期任务。真实模拟环境中进行大量评估结果表明,ViLa优于现有的基于LLM的规划者,突出了其在一系列开放世界操作任务中的有效性。

03-VILA算法流程

上图展示了VILA算法的整体流程,详细的步骤如下所述:

首先,将用户的指令和当前的视觉观察图像送入GPT-4V大模型中,作者利用VLM(GPT-4V)通过思维链推理来理解环境场景;
然后,利用GPT-4V生成一系列可操作的步骤,如图中的任务相关的目标与位置信息;
接着,这个计划的第一步由一个基本策略执行,在该策略的基础上生成接下来的任务规划策略,如图中的3~7所示;
最后,将已执行的步骤添加到完成的计划中,从而实现动态环境中的闭环规划方法,具体的操作步骤由机械臂来执行。
在这里插入图片描述

上图展示了VILA的执行说明(左)和SayCan的决策过程说明(右)。在“拿来空盘子”任务中,机器人必须首先针对蓝色盘子中的苹果和香蕉执行重新定位操作;然而,SayCan的第一步是直接拿起蓝色的盘子。在准备艺术课任务中,当剪刀应该放在桌子上时,SayCan错误地拿起剪刀并将其放在盒子里。

04-VILA算法应用场景
04.01-理解视觉世界中的常识

ViLa擅长了解空间布局或对象属性的复杂任务。这种常识性知识几乎渗透到机器人领域的每一项感兴趣的任务中,但以前基于LLM的规划者在这方面一直做不到。

04.02-理解各种视觉目标
ViLa支持灵活的多模式目标规范方法。它不仅能够利用语言指令,而且能够利用各种形式的目标图像,甚至能够融合语言和图像,来有效地定义目标。
04.03-理解视觉反馈

ViLa以直观自然的方式有效利用视觉反馈知识,在动态环境中实现稳健的闭环规划。

04.04-模拟仿真实验
在这里插入图片描述

上图展示了ViLa可以按照高级语言指令指定的某些所需配置重新排列表上的对象。

05-VILA算法性能评估

05.01-主观效果评估
在这里插入图片描述

上图展示了VILA在图像目标条件任务上的执行效果。在“排列寿司”任务中,VILA根据参考图像生成排列寿司的计划。在“挑选蔬菜”任务中,场景涉及一张桌子,桌子上有一个粉色盘子、一个黑色寿司盘子、一块披萨盘子和一个绿色小吃盘子。在这里,VILA从进球图像中的手指推断出蔬菜应该放在粉红色的盘子上。

在这里插入图片描述

上图展示了VILA在“查找装订器”任务上的执行效果。通过在每个步骤结合视觉反馈和重新规划,当VILA在顶部抽屉中没有找到缝合器时,它能够继续探索底部抽屉,从而成功地定位缝合器。

在这里插入图片描述

上图展示了VILA算法在基于RAVENS的模拟环境中的执行效果。作者设计了16个不同的任务,分为两类:方块和保龄球(左)和字母(右)。更详细的效果请看效果展示部分。

05.02-客观指标评估
在这里插入图片描述

上表展示了多个STA算法在需要丰富的常识性知识的评估任务上面的效果。tong通过观察与分析,我们可以发现:VILA在需要了解空间布局(上半部分)和对象属性(下半部分)的任务中表现出卓越的性能。

在这里插入图片描述

上图展示了VILA和基线算法的一些错误类型。通过利用基于视觉世界的常识性知识,VILA显著减少了理解错误的比例。

在这里插入图片描述

上表展示了开环VILA与闭环VILA在多个不同任务上面的执行效果。通过利用视觉反馈,闭环VILA的效果显著优于开环变体。

在这里插入图片描述

上表展示了多个STA算法在在见过和未见过的模拟环境中的平均成功率。

通过观察与分析,我们可以得出以下的初步结论:VILA在可见和不可见任务中始终优于其它基线方法。
06-VILA算法效果展示

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/246799.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

初探栈溢出(上)

0x01 HEVD介绍 HEVD全称为HackSys Ex treme Vulnerable Drive,是一个项目,故意设计包含多种漏洞的驱动程序,旨在帮助安全爱好者来提升他们在内核层面的漏洞利用能力。 说白了,是一个内核漏洞的靶场。 项目地址:htt…

做数据分析为何要学统计学(10)——什么是回归分析

​回归分析(regression analysis)是量化两种或两种以上因素/变量间相互依赖关系的统计分析方法。回归分析根据因素的数量,分为一元回归和多元回归分析;按因素之间依赖关系的复杂程度,可分为线性回归分析和非线性回归分析。我们通过…

没有数据线,在手机上查看电脑备忘录怎么操作

在工作中,电脑和手机是我最常用的工具。我经常需要在电脑上记录一些重要的工作事项,然后又需要在手机上查看这些记录,以便随时了解工作进展。但是,每次都需要通过数据线来传输数据,实在是太麻烦了。 有一次&#xff0…

探秘AI赋能的未来世界:CyberAI深度学习技术助力变革

CyberAI平台概述 随着AI技术的极速发展,AI能力正在助力产业加速场景化落地。CyberAI是数新网络面向开发者和企业的一站式AI数据科学平台,提供交互式和可视化建模服务,算法模型全生命周期管理。平台可帮助开发者快速开发AI应用,解…

全都没有问题(一)

字符指针与字符数组的区别与关系 EOF使用指北&#xff0c;南辕北辙&#xff01; #include <stdio.h> #include <stdlib.h> #include <string.h>typedef struct LNode{char name[20];struct LNode *next; }LNode,*LinkList;int main() {char str1[20];char* …

基于若依搭建微服务nacos版本(ruoyi-Cloud)

说明&#xff1a;本文介绍基于Ruoyi-Cloud前后端分离nacos版本的微服务从0到1的搭建过程&#xff0c;是基于官方文档的补充说明&#xff0c;需要结合Ruoyi-Cloud的官方文档 https://doc.ruoyi.vip/ruoyi-cloud/ 如果直接查看官方文档便可成功部署&#xff0c;推荐直接看官方文档…

JS实现日历表

有需要的可以用一下&#xff0c;这是一个简单的demo. HTML&#xff1a; <table><thead><tr><th colspan"2"><span class"left"></span></th><th colspan"3"><span class"time"&g…

typedef的使用

在C语言中&#xff0c;有一个关键字叫做typedef&#xff0c;有些人对此感到很疑惑。不熟悉此知识的同学都会对编程失去细心&#xff0c;直接劝退&#xff08;因为之前我就是这样&#xff09;。、 因为好不容易认识了C语言中所有的关键字&#xff08;就是类型吧&#xff0c;像啥…

c语言:指针与数组

目录 使用指针访问数组 使用第一个元素获取数组首地址 使用数组名获取数组首地址 使用指针访问数组等价于下标访问 使用指针访问数组 指针类型的加减运算可以使指针内保存的首地址移动。指针类型加n后。首地址向后移动 n * 步长 字节。 指针类型减n后。首地址向前移动 n *…

Notion开源平替知识库软件AFFiNE本地部署与公网访问远程协作

文章目录 前言1. 使用Docker安装AFFINE2. 安装cpolar内网穿透工具3. 配置AFFINE公网访问地址4. 实现公网远程访问AFFINE5. 结语 前言 本篇文章讲解Notion开源平替全能知识库工具AFFINE如何本地部署&#xff0c;并实现公网远程访问。AFFiNE 是一个全新的开源项目&#xff0c;旨…

LeetCode Hot100 148.排序链表

题目&#xff1a; 给你链表的头结点 head &#xff0c;请将其按 升序 排列并返回 排序后的链表 。 class Solution {public ListNode sortList(ListNode head) {return sortList(head, null);}private ListNode sortList(ListNode head, ListNode tail) {if (head null)retur…

Linux NAPI ------------- epoll边缘触发模式

Linux处理网络数据包的一般流程 分组到达内核的时间是不可预测的。所有现代的设备驱动程序都使用中断来通知内核有分组到达。 网络驱动程序对特定于设备的中断设置了一个处理例程&#xff0c;因此每当该中断被引发时&#xff08;即分组到达&#xff09;&#xff0c;内核都调用…

【Sprin Aop基于注解简单案例之所有通知以及实现 快速复习Aop】

通知类型包括&#xff1a; ● 前置通知&#xff1a;Before 目标方法执行之前的通知 ● 后置通知&#xff1a;AfterReturning 目标方法执行之后的通知 ● 环绕通知&#xff1a;Around 目标方法之前添加通知&#xff0c;同时目标方法执行之后添加通知。 ● 异常通知&#xff1a;A…

Linux16 ftp文件服务区、vsftpd文件系统服务安装、lftp客户端安装、NFS远程共享存储

目录 一、FTP基础ftp主动模式ftp被动模式 二、vsftpd配置共享目录编辑配置文件使用windows 访问 三、客户端安装 &#xff08;lftp&#xff09;匿名用户的一些操作&#xff08;lftp {ip}&#xff09;ftp配置本地用户登录配置本地用户ftp配置文件 lftp操作 NFS远程共享存储安装n…

MyBatisPlus基础入门笔记

MyBatisPlus基础入门笔记&#xff0c;源码可见下载链接 大家阅读时可善用目录功能&#xff0c;可以提高大家的阅读效率 下载地址&#xff1a;MyBatisPlus源码笔记 初识MyBatisPlus 入门案例 SpringBoot整合MyBatis&#xff08;复习&#xff09; 创建SpringBoot工程勾选使用的…

Spring Boot整合 Spring Security

Spring Boot整合 1、RBAC 权限模型 RBAC模型&#xff08;Role-Based Access Control&#xff1a;基于角色的访问控制&#xff09; 在RBAC模型里面&#xff0c;有3个基础组成部分&#xff0c;分别是&#xff1a;用户、角色和权限&#xff0c;它们之间的关系如下图所示 SELECT…

智慧工地源码:为施工企业提供专业落地的解决方案

智慧工地利用物联网、大数据、AI等核心技术&#xff0c;实时采集现场数据&#xff0c;自动分析&#xff0c;精准分析、智能决策、科学评价&#xff0c;形成一套数据驱动的新型管理模式。为施工企业提供生产提效、安全可控、成本节约的项目管理解决方案&#xff0c;提升项目部管…

每周一算法:树形动态规划

树形动态规划 树形动态规划一般用于处理求树上最优值的问题。大多数动态规划问题都是在一维二维这种规则的背景下的&#xff0c;可以解决的问题比较局限&#xff0c;而树作为一种特殊的图&#xff0c;可以描述比较复杂的关系&#xff0c;再加上树的递归定义&#xff0c;是一种…

linux系统的u盘/mmc/sd卡等的支持热插拔和自动挂载行为

1.了解mdev mdev是busybox自带的一个简化版的udev。udev是从Linux 2.6 内核系列开始的设备文件系统&#xff08;DevFS&#xff09;的替代品&#xff0c;是 Linux 内核的设备管理器。总的来说&#xff0c;它取代了 devfs 和 hotplug&#xff0c;负责管理 /dev 中的设备节点。同时…

openHarmony添加system_basic权限安装报错

openHarmony添加system_basic权限安装报错 12/14 13:49:57: Install Failed: [Info]App install path:D:\huawei\project\FCTTest\entry\build\default\outputs\default\entry-default-signed.hap, queuesize:0, msg:error: failed to install bundle. error: install failed …