视频中自监督学习:「我的世界」下指令理解与跟随

本文介绍了北京大学人工智能研究院梁一韬助理教授所带领的 CraftJarvis 团队在「我的世界」环境下探索通用智能体设计的新进展,题为“GROOT: Learning to Follow Instructions by Watching Gameplay Videos”。

GROOT.png
GROOT

该研究的核心目标是探索能否摆脱文本数据的标注以及与环境的在线交互,而是仅通过观看游戏视频的方式来教会智能体理解世界、遵循指令,进而在开放世界下解决无穷的任务。考虑到视频数据广泛分布于互联网,而高质量的“文本-视频”数据对则难以获得,因此团队创新地提出使用一段“参考视频”作为指令的描述形式,并设计一套简洁的架构和自监督训练方法来联合学习指令空间和指令跟随策略。通过在本文提出的 Minecraft SkillForge 基准上进行细致的评测,该方法超过了目前现有的基线方法,并拉近了与人类玩家之间的差距。这对于复杂环境下通用智能体的设计有重要意义。

本文的第一作者是由梁一韬助理教授指导的博士生蔡少斐,通讯作者为梁一韬。论文的作者还包括北京大学的张博为、王子豪,UCLA 的刘安吉以及北京通用人工智能研究院的马晓健研究员。

image.png

 

论文题目: GROOT: Learning to Follow Instructions by Watching Gameplay Videos

论文链接: https://arxiv.org/abs/2310.08235 

项目网站:GROOT: Learning to Follow Instructions by Watching Gameplay Videos

01. 研究背景

在开放世界下开发类人级别的具身智能体以解决开放式任务一直是人工智能领域长期以来追求的目标。随着 ChatGPT 的流行,近年来涌现了一批利用大语言模型(LLM)的规划推理能力来解决「我的世界」中复杂长期任务的尝试,如 DEPS、Voyager、GITM 等工作。然而,与理想的通用智能体相比,这些基于 LLM 的工作主要强调发掘语言模型的潜力而忽略了提升底层控制器(low-level controller)的重要性。事实上,底层控制器负责将 LLM 规划出来的 plan 映射到具体动作空间(键盘与鼠标操作),并与环境直接进行交互。因此,其掌握的技能库中技能的数量和质量决定了智能体能力上限。该团队的此项研究旨在构建具备指令理解能力的基础决策大模型。通过将技能库从有限推广至无限,实现了由封闭式指令向开放式指令理解的迈进。

02. 研究动机

2.1 自监督预训练范式促进大规模任务学习

自监督预训练范式已经相继在自然语言处理(NLP)和计算机视觉(CV)领域展现出了极强的泛化能力,大有统一深度学习的趋势。然而,在强化学习(RL)和决策控制领域的相关研究则相对滞后。本文作者认为预训练的学习范式对于构建决策大模型来说至关重要。考虑到任务的多样性,为每个任务单独定义一套奖励函数并让智能体在与环境交互的方式中学习是非常昂贵且不安全的。因此,利用网上的海量视频数据对智能体进行自监督预训练使其大规模“领悟”技能的道路则非常有前景。

2.2 “视频”做指令表达能力强,数据易收集

为了使预训练出来智能体能够理解人类的指令并执行相应的任务,必须对指令空间的形式进行定义。目前主流的指令形式主要包括「任务指示器」、「未来的结果」(又分为「未来的状态」、「预期的累计奖励」等)、「自然语言」。本文作者认为,尽管在这些指令形式下智能体容易使用“后见经验重放”之类的技巧学习,然而指令的表达能力却十分有限。以「未来的状态」举例,一张房屋的照片并不能告诉智能体房子是如何被建造出来的,因为其缺乏细致的过程性描述。此外,这种指令也存在很强的歧义性,例如一张站在房屋前的图片并不能让智能体区分是要构建这样一座房屋还是找到这样一座房屋。尽管对于过程描述足够细致的自然语言指令可以规避上述所说的问题,然而互联网上并不存在如此多高质量的“视频-文本”数据对可供训练。

观察到主流指令形式的局限性之后,研究团队旨在找到指令的表达能力与智能体学习的成本之间的平衡。作者发现视频形式的指令则可以同时兼顾这两个要求。一方面,一段“参考”视频可以描述完成任务所需的所有细节信息,具备极强的表达能力;另一方面,视频模态数据大规模分布在互联网上,因此训练数据十分易于收集。

03. 研究方法

image.png
GROOT 基于编码器-解码器的架构设计

遵循上述设计原则,研究团队采用了流行的编码器-解码器架构来实现整个模型,并命名为 GROOT。具体来说,研究团队采用了非因果 Transformer 来实现视频编码器,用于提取视频中蕴含的语义信息;采用了一个因果 Transformer 作为解码器(即策略)用于遵照指令的语义信息在环境中做出相应的行为。在训练过程中,输入到编码器的视频和送到解码器中状态序列是完全一致的,模型在 KL 散度的约束下使用行为克隆进行自我模仿。在推理过程中,将输入到编码器中的视频换成任意一段描述某个任务执行过程的参考视频,智能体便可与环境进行交互从而完成相应的任务。

04. 评测基准

「我的世界」 环境具备极高的自由度,为了全面评估 GROOT 在解决复杂多样化任务上的能力。研究团队提出了一组新的评测基准「Minecraft SkillForge」。该基准包含了 「我的世界」 环境中的 30 个基础任务,涵盖「资源收集」、「生存维持」、「物品制作」、「自由探索」、「工具使用」和「结构建造」6 大类别。以下展示了「结构建造」、「对敌战斗」和「资源收集」三大类任务。

image.png
结构建造
image.png
生存维持
image.png
资源收集
image.png
工具使用

 

image.png
物品制作
image.png
自由探索

「挖三填一」是 「我的世界」 中安全度过黑夜的有效方法,它描述了构建一个简易庇护所所需的步骤:垂直向下挖掘 3 个泥土,抬头将 1 个泥土放置在上方做成封闭空间。

「蜘蛛进行搏斗」指玩家需要在保证生存的情况下使用钻石剑击杀尽可能多的蜘蛛。

「收集水草」任务指的是玩家需要跳进海中,潜泳游到海底破坏水草方块。

该评测基准既包含一些常见的任务(如收集木头、羊毛、草),也包含一些十分罕见的任务(如挖三填一、建造雪傀儡、切割石块)。因此该基准可以充分反应模型的泛化能力,对未来 「我的世界」 下多任务智能体的研究也有较大的意义。

05. 实验结果

5.1 天梯系统与人工评测

由于任务的多样性,并不存在一种统一的指标来评估所有任务。因此,研究团队使用 Elo Rating 系统结合人工比较的方式评估了 GROOT 与现有基线在「Minecraft SkillForge」基准上的性能差异。如图所示,可以发现 GROOT (1829 分)显著超越了目前所有的基线方法(1679 分),进一步缩小了与人类玩家(2034 分)的差异。如中间图所示,在一些不常见的任务(如「架构建造」和「工具使用」)上,相比之前的最优方法 STEVE-1,GROOT 获得了很高的对战胜率(>83%)。

image.png
天梯系统与人工评测

5.2 程序性任务评测结果

右图展示了 GROOT 和基线方法在 9 种代表性任务上的成功率对比。GROOT 除了在所有任务上都取得领先优势之外,也是唯一一个在「装备附魔」、「挖三填一」、「建造雪傀儡」任务上取得非零成功率的智能体。

5.3 指令空间 t-SNE 可视化结果

image.png
指令空间 t-SNE 可视化

为了直观了解指令空间的学习情况,研究团队额外展示了训练前后指令空间在 7 种类别任务视频上的编码效果。可以发现,经过自监督训练之后,指令空间的表达能力得到了极大的提升。在没有任何语义标签辅助下,仅通过自监督预训练就可以较好地提取视频中存在的语义信息。

5.4 组合多个指令解决复杂长期任务

image.png
钻石挑战

「我的世界」 中存在很多任务需要串行执行多个指令才可以解决,其中最经典的就是「钻石挑战」。钻石稀疏地分布于 「我的世界」 地下 7-12 层的位置。为了方便展现 GROOT 在解决「钻石挑战」上的表现,作者通过给智能体一把铁镐简化了钻石挑战任务,即省略了制作铁镐的过程。现在智能体只需向下挖掘到指定层数,再水平挖掘(可能需要很久)挖到💎即可。作者初始化给智能体的指令是一段向下挖掘的视频,并实时检测智能体高度,当高度到达 12 时,将给智能体的指令切换为一段描述水平挖掘的视频。研究团队发现 GROOT 可以以 16% 的较高成功率挖到💎。而相较而言,以「未来的结果」作为指令形式的STEVE-1 则无法获得钻石。作者推测,这可能是由于「未来的结果」无法表达水平挖掘这一概念,因此容易掉到基岩层并卡住,从而导致任务失败。

06. 结论与展望

本文提出了一种通过观看游戏视频来学习遵循指令的预训练范式。作者认为视频指令是一个很好的目标空间形式,它不仅表达了开放式任务,还可以通过自我监督进行训练。基于此,研究团队在 「我的世界」 中构建了一个名为 GROOT 的编码器-解码器 Transformer 架构智能体。无需依赖任何标注数据,GROOT 表现出非凡的指令跟随能力并霸榜 Minecraft SkillForge 基准。此外,作者还展示了它在「钻石挑战」任务中作为下游控制器的潜力。研究团队相信这种架构和训练范式具有很强的应用前景,并希望将其应用于更复杂的开放世界环境。

07. 相关工作

CraftJarvis 团队长期关注于在开放世界下构建自主智能体。除了构建指令跟随智能体 GROOT 完成开放世界下的短期任务,团队还使用预训练的大语言模型作为 Planner 来增强智能体完成长期任务的能力。

7.1 DEPS

DEPS 是第一个使用大语言模型在开放世界 「我的世界」 上进行任务规划和任务执行的智能体。DEPS 基于大语言模型设计了一个包括“描述、解释、规划并选择”的流程,通过整合计划执行过程的描述并在规划阶段遇到失败时大语言模型提供的自我解释反馈,从而在初步 LLM 生成的计划失败时更好的修正错误并重新规划。此外,它还包括一个目标选择器,这是一个可学习的模块,根据预估完成步骤来对候选子目标进行排序,从而提高语言计划在开放世界下的可执行性。DEPS 可以在「我的世界」环境中零样本的实现长序列任务,例如在生存模式下从头开始获得钻石。

Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents 
arXiv: https://arxiv.org/pdf/2302.01560.pdf 

Code:https://github.com/CraftJarvis/MC-Planner 

该文章被收录于NeurIPS 2023,并在ICML 2023的TEACH Workshop上被评选为最佳论文。

image.png
DEPS

7.2 JARVIS-1

JARVIS-1 是一个开放世界智能体,基于预训练的多模态语言模型,能够感知多模态输入(视觉观察和人类指令),生成复杂计划,并在「我的世界」中执行具身控制。JARVIS-1 还配备了一个多模态记忆,它利用预训练知识和实际游戏生存经验来提高规划能力。JARVIS-1 是现有「我的世界」中最通用的智能体,能够使用与人类一致的控制和观察空间完成200多个不同任务,从短期任务(例如“砍树”)到长期任务(例如“获得一把钻石镐”)。在经典的长期任务“获得钻石镐”中,JARVIS-1 的成功率为当前最先进智能体的5倍,并能成功完成更长时间跨度和更具挑战性的任务。

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models 
arXiv: https://arxiv.org/pdf/2311.05997.pdf 

Project: JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models

image.png
Jarvis-1

08. 本文作者

蔡少斐,北京大学人工智能研究院博士生,CraftJarvis 研究团队成员之一,导师是梁一韬教授。他的研究兴趣主要包括决策大模型、语言大模型以及游戏智能。他已在 CVPR 、NeurIPS 等人工智能顶会上发表过多篇论文,并专注于开放世界下智能体决策控制研究。担任 ICML、NeurIPS 、 ICLR 等国际学术会议审稿人。

个人主页:https://phython96.github.io

王子豪,北京大学人工智能研究院博士生,CraftJarvis 研究团队成员之一,导师为梁一韬教授。曾获国家奖学金、北京市优秀毕业生等荣誉。主要研究方向为开放世界下多任务智能体的构建,尤其关心基于基础模型的智能体的泛化能力。近年来在CVPR、NeurIPS等人工智能顶会上发表多篇论文,曾获ICML研讨会最佳论文奖。担任ICML、NeurIPS、ICLR等多个国际机器学习会议审稿人。

个人主页: https://zhwang4ai.github.io

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/237138.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【LLM】大模型之RLHF和替代方法(DPO、RAILF、ReST等)

note SFT使用交叉熵损失函数,目标是调整参数使模型输出与标准答案一致,不能从整体把控output质量,RLHF(分为奖励模型训练、近端策略优化两个步骤)则是将output作为一个整体考虑,优化目标是使模型生成高质量…

SpringBoot集成系列--RabbitMQ

文章目录 一、代码1、添加依赖2、配置RabbitMQ连接3、RabbitMQ配置4、创建生产者5、创建消费者6、测试 二、遇到的问题1、Channel shutdown2、收不到信息3、安装RabbitMQ&#xff0c;无法访问控制台访问 一、代码 1、添加依赖 在pom.xml文件中添加RabbitMQ的相关依赖 <de…

python期末简答题及答案,python期末题库和答案

本篇文章给大家谈谈python期末简答题及答案&#xff0c;以及python期末题库和答案&#xff0c;希望对各位有所帮助&#xff0c;不要忘了收藏本站喔。 期末复习判断题 &#xff08; √ &#xff09;Python变量名区分大小写,所以student和Student不是同一个变量。&#xff08; &…

MySQL慢SQL优化思路

MySQL慢SQL优化思路 具体思路&#xff1a; 1、慢查询日志记录慢 SQL 2、explain 分析 SQL 的执行计划 3、profile 分析执行耗时 4、Optimizer Trace 分析详情 5、确定问题并采用相应的措施 1、查看慢日志 1.1 使用命令查询慢日志配置 mysql> show variables like s…

机器人制作开源方案 | 网球收纳机器人

作者&#xff1a;孙宇晗、刘子昊、单正扬、李悦、张紫琦 单位&#xff1a;山东大学&#xff08;威海&#xff09; 指导老师&#xff1a;庞豹 1. 场景调研 1.1 宏观背景 体育作为社会经济、政治、文化的重要组成部分,越来越受政府、社会、学校等各阶层的关注。近年来&#x…

数据结构与算法-Rust 版读书笔记-2线性数据结构-栈

数据结构与算法-Rust 版读书笔记-2线性数据结构-栈 一、线性数据结构概念 数组、栈、队列、双端队列、链表这类数据结构都是保存数据的容器&#xff0c;数据项之间的顺序由添加或删除时的顺序决定&#xff0c;数据项一旦被添加&#xff0c;其相对于前后元素就会一直保持位置不…

[ABAP] Selection Screen 按钮管理

1. 隐藏执行按钮 initialization.data btab type table of sy-ucomm.append ONLI to btab.call function RS_SET_SELSCREEN_STATUSexportingp_status sy-pfkeytablesp_exclude btab.2.添加按钮(Tool Bar) tables: sscrfields.selection-screen begin of line.selection-scre…

Leetcode704二分查找、折半查找(Java实现)

好久没有更新算法题&#xff0c;今天来写一道二分查找的题目。题目要求如下&#xff0c; 那么这道题的解题思路如下&#xff0c;我们寻找的过程是首先去访问数组的中间位置mid&#xff0c;如果nums[mid]大于了targe那么说明&#xff0c;我们要找的数在mid的左半边&#xff0c;…

外包干了3个月,技术退步明显。。。

&#x1f4e2;专注于分享软件测试干货内容&#xff0c;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;交流讨论&#xff1a;欢迎加入我们一起学习&#xff01;&#x1f4e2;资源分享&#xff1a;耗时200小时精选的「软件测试」资…

awt中文乱码-Intellij IDEA

乱码的根本原因在于秦始皇嘎太早了&#xff08;bushi 解决方法&#xff1a;肉眼可见的编码设置统一为GBK 1.打开设置找到文件编码 2.肉眼可见的编码统统改成GBK 有人该问了&#xff0c;为什么不改成utf-8&#xff0c;因为awt的编码由操作系统决定&#xff0c;我的是win家庭中…

Faster R-CNN

Faster R-CNN是作者Ross Girshick继Fast R-CNN后的又一力作。同样使用VGG16作推理速度在GPU上达到5fps(包括候选区域的生成)&#xff0c;准确率为网络的backbone&#xff0c;也有进一步的提升。在2015年的ILSVRC以及COCO竞赛中获得多个项目的第一名。 算法流程 右边这部分和Fa…

人体关键点检测3:Android实现人体关键点检测(人体姿势估计)含源码 可实时检测

目录 1. 前言 2.人体关键点检测方法 (1)Top-Down(自上而下)方法 (2)Bottom-Up(自下而上)方法&#xff1a; 3.人体关键点检测模型训练 4.人体关键点检测模型Android部署 &#xff08;1&#xff09; 将Pytorch模型转换ONNX模型 &#xff08;2&#xff09; 将ONNX模型转换…

(纯原创)基于JavaWeb的宠物领养商城(详细源码以及开发设计报告)

摘要 本宠物领养系统以MVC分层为原则&#xff0c;数据持久化使用Mybatis&#xff0c;数据库使用MySQL&#xff0c;这些技术目前相对比较成熟&#xff0c;方便系统的维护与扩展 商城系统包括了宠物领养、用户注册、用户登录、商品查询、商品添加到购物车、删除商品等几大功能…

云贝教育 | 分享课:12月12日周二晚Oracle分享课享来了

Oracle 19c OCM分享课分享主题: Introduction to Clusterware 讲师&#xff1a;郭一军 直播分享平台&#xff1a;云贝教育视频号 时间&#xff1a;12月12日 周二晚 19: 30

广东佛山开房屋租赁发票

我是20223年12月办理的&#xff0c;给大家做个参考。 一、准备材料 &#xff08;如果非房东本人办理&#xff0c;还需要房东签份授权书&#xff0c;多复印几份或者直接签多份&#xff0c;不然会被税务局收走&#xff09; 废话不多说&#xff0c;直接上图。 二、线上预约 附个…

H264帧内预测介绍

4x4 luma宏块的预测模式 4x4 luma宏块有9种预测模式 16x16 luma宏块的预测模式 16 x16 luma宏块有四种预测模式 帧内预测模式信令(Signalling intra prediction modes) 4x4 或者8x8 luma prediction 对4x4或者8x8 luma因为每一个宏块都要指明预测模式,且有9种预测模式可…

孩子还是有一颗网安梦——Bandit通关教程:Level0

&#x1f575;️‍♂️ 专栏《解密游戏-Bandit》 &#x1f310; 游戏官网&#xff1a; Bandit游戏 &#x1f3ae; 游戏简介&#xff1a; Bandit游戏专为网络安全初学者设计&#xff0c;通过一系列级别挑战玩家&#xff0c;从Level0开始&#xff0c;逐步学习基础命令行和安全概念…

java+springboot+ssm学生社团管理系统76c2e

本系统包括前台和后台两个部分。前台主要是展示社团列表、社团风采、社团活动、新闻列表等&#xff0c;前台登录后进入个人中心&#xff0c;在个人中心能申请加入社团、查看参加的社团活动等&#xff1b;后台为管理员与社团负责人使用&#xff0c;应用于对社团的管理及内容发布…

西工大网络空间安全学院计算机系统基础实验二(清楚实验框架及phase_1)

首先&#xff0c;将自己的实验包从Windows系统中使用scp命令传到Linux虚拟机中。而要想传到Linux虚拟机中&#xff0c;第一步就是要确定Linux虚拟机的IP地址&#xff0c;如 图1&#xff1a;确定Linux虚拟机的IP地址 所示。接着使用scp命令将实验包从Windows系统传送到Linux虚拟…

栈(深入理解栈是什么)

这里写目录标题 栈概念栈的初始化栈的溢出函数的栈帧函数的返回 栈 概念 英文&#xff1a;stack&#xff0c;也叫做堆栈。 特点&#xff1a;先进后出。 栈的两个基本操作&#xff0c;也就是入栈和出栈。都是通过SP指针来维护。C语言中的函数的局部变量&#xff0c;传递的实参…