让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


在探索人工智能边界时,我们时常惊叹于人类孩童的学习能力 —— 可以轻易地将他人的动作映射到自己的视角,进而模仿并创新。当我们追求更高阶的人工智能的时候,无非是希望赋予机器这种与生俱来的天赋。

由上海人工智能实验室,南京大学,中科院深圳先进技术研究院牵头,联合东京大学,复旦大学,浙江大学,中国科学技术大学等高校的学生和研究者,共同公布了跨视角技能学习数据集EgoExoLearn,为机器人赋予了通过观察他人学习新动作的能力。

图片

  • 论文链接:https://arxiv.org/abs/2403.16182

  • 代码与数据集链接:https://github.com/OpenGVLab/EgoExoLearn

EgoExoLearn 数据集独辟蹊径,采集了第一视角与第三视角的视频素材。第一视角视频捕捉了人们学习第三视角演示动作的全过程,这种视角的转换与融合,为机器模拟人类学习模式提供了宝贵的数据资源。

数据集的构建不仅涵盖了日常生活的琐碎场景,更延伸到了专业实验室的复杂操作。EgoExoLearn 精心收录了总计 120 小时的视角与示范视频,旨在让机器在多种环境下都能有效学习。

除视频外,研究者还记录了高质量的注视数据,并辅以详尽的多模态标注。这些数据与标注的结合,构建了一个全面模拟人类学习过程的平台,有助于解决机器在不同视角下对异步动作过程的建模难题。

为了全面评估 EgoExoLearn 数据集的价值,研究者提出了一系列基准测试,如跨视角关联、跨视角行动规划及跨视角参考技能评估等,并进行了深入的分析。展望未来,EgoExoLearn 将成为跨视角行动桥接的重要基石,为机器人无缝学习真实世界中的人类行为提供坚实支撑。

期待 EgoExoLearn 数据集能助力 AI 技术的进一步突破,推动机器人从单纯的模仿走向真正的智能,实现与人类社会的和谐共存与共同发展。

图片

研究背景

从孩童时期开始,人类就具备观察他人行为并将其映射到自己视角的能力,这种能力在进行高试错成本的实际操作(如危险化学实验)时尤为有益。随着人工智能系统的最新进展,下一代 AI 智能体将会在更通用的场景中执行任务。

然而,与人类不同,训练这些 AI 智能体通常需要在类似环境中拍摄的演示视频作为训练数据,这些视频的视角还必须与 AI 智能体一致(例如,第一视角)。尽管有很多工作尝试了在不同场景中收集此类数据,对于 AI 智能体来说,直接从不同地点和不同视角拍摄的演示视频中学习仍然至关重要。实现这一能力可以充分利用大规模公开教学视频数据的潜力,并且在人机合作场景中尤其是在新环境中有巨大作用。

目前朝这个目标努力的工作大致可以分为两个方向。一种是在模拟环境中学习模型,但这些模型在现实世界中的泛化仍然很困难。另一个方向是从现实世界中的人类活动中学习。然而,直接结合现有的多视角数据集的尝试通常会产生质量或规模较差的数据集。同时,目前这个方向的少数现有数据集只记录了在同一环境和时间同步方式下拍摄的自我中心和外部中心视角视频。在现实中,跟随演示时,通常需要桥接在不同地点和不同时间执行的一系列程序性动作。目前还没有可用于探索如何在现实的自我中心和外部中心视角中桥接异步程序性活动的数据集。

为了解决数据集缺乏问题,研究者提出了 EgoExoLearn,这是一个大规模数据集,包含演示视频和相应的第一视角跟做视频。其中摄像机佩戴者跟随演示视频中的动作,并在不同环境中执行相同任务。针对日常生活辅助和专业技能辅助这两个潜在应用,EgoExoLearn 包含了 747 个视频序列,总时长达 120 小时,涵盖场景包括日常食物制作和专业实验室实验。值得注意的是,EgoExoLearn 中的第一视角视频包含了显示人类执行任务时视觉注意力的眼动信号。这为更好地连接第一视角和第三视角中的行动提供了宝贵的线索。

更进一步,研究者分析了人类的跨视角理解能力,并相应地引入了新的任务和基准,希望这些可以对开发具有类似能力的下一代具身 AI 智能体起到重要帮助。当人类执行一个动作时,他 / 她可以将自我中心视角中正在进行的动作与演示中相应的动作联系起来并进行描述。通过演示视频中的知识,人类可以知道所需的动作步骤,并预测下一步应该是什么。此外,通过与演示的比较,人类还可以评估自己的技能水平。

基于上述分析,研究者设计了以下新任务:1) 跨视角关联,2) 跨视角动作理解,3) 跨视角参考技能评估,以及 4) 跨视角参考视频字幕。每个基准都经过精心定义、标注,并具体实现了相应模型。此外,研究者还首次探索了眼动在这些任务中的作用。研究者希望这个数据集能够为未来链接不同视角中的异步程序性动作的工作提供资源,从而激发设计擅长从现实世界人类演示中学习并将程序性动作映射到机器人中心视角的 AI 智能体。

数据集介绍

场景和任务

研究者考虑了程序性的目标导向任务,这些任务涵盖了从日常的食物制作到专业的实验室实验。这种选择基于它们所体现的两个未来体现性 AI 代理需要能够桥接自我 - 外部活动的潜在领域:日常生活辅助和专业支持。

具体来说,EgoExoLearn 包含了 5 种日常任务(例如烹饪)和 3 种专业实验室任务(例如固相肽合成)。研究者在 4 个不同的厨房和 3 个不同的实验室中录制了自我中心视角的视频。下表显示了每个任务的视频数量以及平均视频长度。

图片

数据收集流程

在每次收集开始之前,参与者需要完成一份问卷,收集基本的人口统计信息以及他们自我评估的执行指定任务的专长。然后在每次录制中,参与者将被要求从提供的列表中选择一个或几个外部中心视角的演示视频,并仔细学习详细的程序。一旦准备好了,他们将戴上 Pupil Invisible Glasses,完成眼动校准,并开始复制演示视频中执行的任务。虽然不鼓励,但参与者在录制过程中被允许重新观看演示视频。在每次录制之后,参与者被要求重新进行眼动校准,以确保眼动数据的准确性。对于 5 个日常任务,外部中心演示视频是手动从 YouTube 等在线视频平台策划的。对于实验室实验,外部中心演示视频是由资深实验室成员录制的教程。

数据集标注与统计

为了促进本文数据集在开发能够有效弥合自我和外部视角之间差距的算法方面,研究者提供了详细的多模态人类标注。粗略级别的语言标注、细致级别的语言标注、翻译与解析、技能水平标注。据了解,目前还没有与本文设置相同、可以直接比较的数据集。因此,研究者在下表中列举了本文数据集的各个方面,并与相关数据集进行了比较分析。EgoExoLearn 以其「视觉演示跟随」设置独特地丰富了该领域。除了这一独特设置之外,它还是第一个包括时间限定的语言字幕、标注的跨视角关联和多标签视频片段的自我中心数据集。同其他第一视角视频数据集的对比如下:

图片

新基准 Benchmarks

为了评估连接异步的第一视角 - 第三视角程序性动作的能力,研究者引入了 4 个新的基准 benchmark,如下图所示:

图片

1) 跨视角关联 (cross-view association),探究模型有没有将不同视角的相同动作联系起来的能力,分为 Ego2Exo 和 Exo2Ego 两个设定。在(ego2exo)的情况下,给定一个自我中心视频,模型需要从一组候选的外部中心样本中预测出执行相同动作的相应外部中心视频。这里考验了模型对单一视角动作的理解能力,还考验了模型在跨视角情境下的泛化能力和预测准确性。基线模型与结果如下:

图片

图片

2) 跨视角动作理解 (cross-view action understanding),细分为三个子任务:跨视角动作预测、跨视角动作规划和跨视角动作分割。此外,研究者还探索了注视点(gaze)在协助这些任务中的作用。下图是四种训练设定与基线模型性能:

图片

图片

3) 跨视角参考技能评估 (cross-view referenced skill assessment) 主要目标是评估第一视角操作者的技能水准。研究者引入了第三视角的专家操作视频作为参考,通过与参考视频的对比,技能评估可以变得更加准确。基线模型与结果如下图所示:

图片

图片

4) 跨视角参考视频描述 (cross-view referenced captioning)。使用另一个视角的视频作为参考,此项任务旨在提高模型利用跨视角参考而更好的进行视频描述的能力。模型设计和基线性能如下:

图片

图片

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/524066.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Unity学习笔记 - 第一个Hello World都算不上的项目

一、Unity安装 这里不细说安装了,首先需要Visual Studio,然后要安装Unity Hub,Unity Hub就像一个管理平台,安装完它之后,可以在它的界面上选择安装各个版本的编辑器。 开始您的创意项目并下载 Unity Hub | Unity通过 …

【Qt 学习笔记】Qt 中出现乱码的解释及讨论

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt 中出现乱码的解释及讨论 文章编号:Qt 学习笔记 / 06 文…

Nginx配置之localhost和反向代理

文章目录 第一步、查看安装位置和配置文件第二步、web服务器设置第三步、localhost 指令第四步、设置反向代理 清明假期,在家练习Nginx配置,在前期【 linux环境下安装配置nginx代理服务器】已经完成nginx环境搭建,本期主要实践web服务器&…

副业选择攻略:如何找到最适合自己的那一个?

大家好,我是木薯。今天有个新人伙伴来咨询客服:新手适不适合在水牛社上做副业?什么样的副业适合自己? 这种问题其实对我们来说已经见得太多太多了,归其原因是因为自己对副业没有一个清晰的自我认知,从而感觉…

阿里千问大模型 Qwen1.5 开源 32B 模型,将开源进行到底!!!

阿里开源的千问系列模型,一直受到业界好评,之前版本有0.5B、1.8B、7B、14B、72B,但一直缺少的30B级别开源模型,这也一直是一个遗憾。 怎么说呢?72B模型太大,很多人用不起来,无论是微调&#xf…

基于JAVA+SSM+微信小程序+MySql+前后端分离的图书捐赠管理系统设计与实现

一、项目背景介绍: 在当今社会,图书捐赠是一种普遍而有益的行为,旨在促进阅读、教育和知识传播。图书捐赠可以帮助改善教育资源不足的地区、学校和社区的阅读环境,提供更多的学习机会和知识获取途径。随着互联网和移动技术的发展&…

pytorch交叉熵

目录 1. Entropy2. 交叉熵3. 二分类4. 为什么分类问题使用交叉熵5. 代码示例 1. Entropy Entropy中文是熵的意思,它代表一种不确定性,不确定性越高惊喜度也就越高。 如上图,假设熵代表中奖概率,当熵为2 的中奖概率为1/4没什么惊…

sharding‐jdbc之分库分表(mysql主从同步的数据库安装和使用)

水平分表 创建基础工程.. 引入sharding‐jdbc的maven依赖包 注意需要数据库连接池等依赖 <dependency><groupId>org.apache.shardingsphere</groupId><artifactId>sharding-jdbc-spring-boot-starter</artifactId><version>4.0.0-RC1&l…

1.0-spring入门

文章目录 前言一、版本要求二、第一个spring程序1.引入pom2.代码部分2.1 spring bean2.2 springContext.xml2.3 测试2.4 执行结果 总结 前言 最近想要系统的学习下spring相关的框架,于是乎,来到了B站(真是个好地方),spring会专门开一个专栏出来,记录学习心得,与大家共勉。 Spri…

51-37 由浅入深理解 Stable Diffusion 3

2024年3月5日&#xff0c;Stability AI公开Stable Diffusion 3论文&#xff0c;Scaling Rectified Flow Transformers for High-Resolution Image Synthesis。公司像往常一样承诺后续将开源代码&#xff0c;开源之光&#xff01;&#xff01;&#xff01; 在LDW潜在扩散模型论文…

缓存击穿以及解决方案

1.定义 缓存击穿问题也叫热点Key问题&#xff0c;就是一个被高并发访问并且缓存重建业务较复杂的key突然失效了&#xff0c;无数的请求访问会在瞬间给数据库带来巨大的冲击。 问题描述&#xff1a;假设线程1在查询缓存之后&#xff0c;本来应该去查询数据库&#xff0c;然后把…

8、滑动窗口-无重复字符的最长子串

解析&#xff1a; 遍历 判断map是否包含当前字符&#xff0c;如果包含&#xff1a; 获取重复的index下标在哪里获取len长度重新设置L指针,其中L指针不回退&#xff0c;也就是如果这个重复值在L前面那就忽略&#xff0c;如果是在后面那就设置为index1。 代码如下&#xff1a; …

Java初始——IDEA-web的启动

Tomcat 文件夹作用 bin 启动 关闭的脚本文件 conf 配置 lib 依赖的jar包 logs 日志 temp 临时文件 webapps 存放的网站 Maven 1.在javaweb中&#xff0c;需要使用大量的jar包&#xff0c;手动导入 2.Maven 架构管理工具 核心&#xff1a;约定大于配置 必须按照规则 web idea-we…

Day16_IDEAJavaWeb项目下在WEB-INF添加jar包导致Tomcat无法启动的问题解决记录

0 起因 自己用的是Tomcat 9.0.69&#xff0c;老师用的是Tomcat 9.0.87。本以为都是9.0.x&#xff0c;差别不会很大&#xff0c;但是老师演示的时候他没导入mysql包查询数据库的servlet就不能运行&#xff0c;而我的却可以&#xff0c;于是问了GPT&#xff0c;得到以下答复。 …

【MATLAB源码-第180期】基于matlab的PTS,SLM,CPFilter三种降低OFDM系统的PAPR仿真。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 1. 限幅和滤波&#xff08;Clipping and Filtering&#xff09; 原理简介 限幅和滤波是一种基础且直观的方法&#xff0c;用于降低OFDM信号的PAPR。在限幅阶段&#xff0c;信号的幅度在达到设定阈值时会被削减&#xff0c;…

开发项目接单报价快速计算,报价量化程序

定制化开发&#xff0c;如何计算项目预算&#xff0c;是程序开发者头疼的一个问题。 项目费用谈得过低&#xff0c;就天天加班累死赚不到钱&#xff1b;谈得过高&#xff0c;会导致顾客流失&#xff0c;信誉受损。 项目费用量化可见是多么重要。 下面是一段量化的程序&#…

item_search-按关键字搜索淘宝商品:如何通过获取以下关键字、搜索类型、排序方式参数提升用户体验、优化营销策略、提高转化率

在淘宝购物的过程中&#xff0c;搜索功能无疑是用户与商品之间的重要桥梁。通过输入关键字&#xff0c;用户可以迅速找到所需的商品&#xff0c;而搜索结果的准确性和相关性则直接关系到用户的购物体验和满意度。因此&#xff0c;如何通过优化关键字、搜索类型和排序方式参数&a…

鸿蒙内核源码分析 (内存管理篇) | 虚拟内存全景图是怎样的

初始化整个内存 OsSysMemInitOsMainmain从 main() 跟踪可看内存部分初始化是在 OsSysMemInit() 中完成的。 UINT32 OsSysMemInit(VOID) {STATUS_T ret;OsKSpaceInit();//内核空间初始化ret OsKHeapInit(OS_KHEAP_BLOCK_SIZE);// 内核动态内存初始化 512K if (ret ! LOS_OK…

Centos7下docker删除容器与镜像

个人记录 查看容器 docker ps -a停止容器运行 docker stop jenkins卸载容器 docker rm jenkins查看镜像 docker images卸载镜像 docker rmi IMAGE ID查看容器与镜像是否卸载完毕 docker images docker ps -a

Vue基础知识:Vue路由——重定向,以及?(可选符)的使用

当网页打开时&#xff0c;url默认是/路径&#xff08;根路径&#xff09;&#xff0c;未匹配到组件时&#xff0c;会出现空白&#xff0c;为了解决这个问题 就要利用重定向 重定向&#xff1a;匹配path后&#xff0c;强制跳转path路径 重定向的语法&#xff1a; {path:匹配…