Meta开源最大多模态视频数据集—Ego-Exo4D

社交、科技巨头Meta联合15所大学的研究机构,经过两年多的努力发布了首个多模态视频训练数据集和基础套件Ego-Exo4D,用于训练和研究AI大模型。

据悉,该数据集收集了来自13个城市839名参与者的视频,总时长超过1400小时,包含舞蹈、足球、篮球、攀岩、音乐、烹饪、自行车维修等8大类,131个复杂场景动作。这使得AI模型更好地理解人类的行为,有助于开发出更强大的多模态大模型。

Ego-Exo4D也是目前最大的公开第一人称和第三人称视频训练集。Meta已经准备开源该数据集,最晚12月底开放下载。

Ego-Exo4D下载地址:https://ego-exo4d-data.org/

论文地址:https://ego-exo4d-data.org/paper/ego-exo4d.pdf

图片

与其他视觉数据集不同的是,Ego-Exo4D最大技术特点在于数据的多模态性。基于Aria智能眼镜平台,第一人称视频带有丰富的同步录制信息,包括七通道音频、眼动追踪状态、头部运动测量(IMU)、双目RGB-D摄像视频、周围三维环境点云等。

此外,数据集中所有视频都配有三种不同的语言描述,分别是领域专家对表现的评论、参与者自身对所做活动的叙述以及第三方对各个原子操作的文字描述。

第一人称和第三人称摄像机设置

Ego-Exo4D数据集使用了一款名叫Aria的眼镜。该眼镜可以拍摄第一人称视频,记录运动员自己的视角。

同时场外还有4-5个GoPro摄像机,拍摄第三人称视频,记录教练的视角。这些摄像机使用了定制的QR码进行时间同步,确保第一人称视频和第三人称视频能精确匹配上,然后进行比较。

Aria眼镜内置丰富的传感器,提供RGB、深度、音频、IMU、眼动等多模态数据。Ego-Exo4D充分利用这些硬件优势,为每段第一人称视频同步捕获了七通道音频、眼动追踪、IMU动作数据、两个RGB-D SLAM摄像头以及周围3D点云环境。这些数据可支持多种新颖的多模态视频理解研究。

图片

精准文本描述

Ego-Exo4D视频数据还匹配了三种不同形式的语言描述,均与视频时间轴对齐:第一是领域内资深专家对执行者表现的评价性解说,揭示非专业人士不易察觉的技巧和方法;

图片

第二是执行者对自己所做活动的第一人称叙述;第三是外部标注人员对每个行为操作的简要文字描述。这些丰富的语言资源可以大幅推动视频理解中的语言参照和示教相关应用。

四大类基准测试

为了验证数据集的有效性,研究人员在四类基准测试上进行第一人称视频理解和多模态识别测试,用于评估在复杂视角转换、细粒度操作检测、示范者评级等方面的表现。

1)跨视角对应和迁移基准测试

该基准测试任务利用第一、三人称视频,研究跨视角的目标匹配和新视角合成问题。考察点包括:在极端视角、严重遮挡下的稀疏对应问题;合成新视角图像时运用姿态、语义先验的有效性等。

2)细粒度操作识别基准测试

该任务需要区分复杂顺序活动中语义相近的细粒度操作,如识别折叠被褥还是整理被褥。训练阶段允许使用配对的第一、三人称视频,以学习视角不变的表示。测试阶段仅给第一人称视频,考察跨视角特征迁移的效果。

图片

3)示范者熟练度评估基准测试

这项基准测试要求对整个视频中的示范者进行整体熟练度评级,同时需要识别视频中局部段落的正确/错误执行。这可驱动人类行为质量分析以及教练系统的研究。

4)第一人称姿态估计基准测试

这项基准测试目标是从第一人称视频中恢复三维的手部和身体关键点,解决动态场景中严重遮挡、模糊、大姿态变化等难题。

图片

结果显示,Ego-Exo4D皆获得了不错的成绩。例如,在第一人称和第三人称视角之间的目标追踪和姿态预测任务上,方法可以达到38%的平均IoU;而在识别17种顺序活动中689种细粒度操作的任务上,方法可以获得58%的准确率。

研究人员表示,传统的训练数据多数都是重复和模拟,很难让AI从更深度的角度去理解人类的行为和动作。

Ego-Exo4D提供了一个前所未有的大规模第一人称和第三人称视角视频数据集。该数据集和基准测试填补了现有数据集的空白,可推动更强的多模态大模型研究。

未来,数据集、文本标注和基准代码将完全开源以供研究人员使用。‍

本文素材来源Ego-Exo4D论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/231183.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

keepalived+lvs 对nginx做负载均衡和高可用

LVS_Director KeepAlivedKeepAlived在该项目中的功能: 1. 管理IPVS的路由表(包括对RealServer做健康检查) 2. 实现调度器的HA http://www.keepalived.orgKeepalived所执行的外部脚本命令建议使用绝对路径实施步骤: 1. 主/备调度器…

在线人数(oj题)

题目不少于5个字,所以整了个括号凑字数 首先我想到的是用一个数组来记录每一秒的在线人数 但是即使是short类型(2字节),也会用到60 * 60 * 24 * 30 * 12 * 60 * 2 / 1024 / 1024 3,559.5703125 MB 而题目上限是256MB&#xff0…

Echarts饼图中显示百分比

开发中遇到一个需求,要在饼图上显示数据百分比,下图: 查了echarts 文档,并不能通过简单的配置来实现,原因如下:在单个serie的label中,只能设置一个label,位置可以选择在饼图内部inne…

SAP UI5 walkthrough step5 Controllers

在这个章节&#xff0c;我们要做的是&#xff0c;将之前的text文本展示为一个按钮&#xff0c;并将声明绑定在点击按钮事件。 因为改的是外观&#xff0c;所以我们修改的是view.XML webapp/view/App.view.xml <mvc:ViewcontrollerName"ui5.walkthrough.controller.A…

20231207_最新已测_Centos7.4安装nginx1.24.0_安装详细步骤---Linux工作笔记066

以前安装的太模糊了,干脆重新写一个: 1.首先下载对应的nginx-1.24.0.tar.gz安装文件 2.然后: 去执行命令 安装依赖 yum install -y gcc yum install -y pcre pcre-devel yum install -y zlib zlib-devel yum install -y openssl openssl-devel 3.然后:去解压 tar -zxvf ngi…

ai人工智能洗稿软件免费有哪些好用?【最新AI洗稿软件盘点】

在当今信息时代&#xff0c;内容创作已成为人们工作和生活中不可或缺的一部分。为了提高创作效率&#xff0c;越来越多的人转向人工智能洗稿软件。本文将专心分享一些优质的免费AI洗稿软件。 免费AI洗稿软件的崛起 免费AI洗稿软件的崛起为许多创作者带来了便利&#xff0c;使他…

市面上主流的测评补单方式有几种?以及优缺点

目前测评方式分为了三大类&#xff1a; 一、找服务商 有些服务商手上确实有大量的国外测评人员&#xff0c;但是服务商鱼龙混杂&#xff0c;账号质量也是良莠不齐的&#xff0c;真人测评很多也是通过脚本来留Review&#xff0c;这已经是测评圈中公开的秘密了。由于listing很容…

MeteoInfo-Java解析与绘图教程

MeteoInfo-Java解析与绘图教程(四) 上文我们说到,将地图叠加在色斑图上,但大部分都是卫星绘图,现在开始讲解micaps数据绘图,同样也是更多自定义 配置 首先我们解析micaps数据,将之前学到的东西拿过来绘图 MeteoDataInfo meteoDataInfo new MeteoDataInfo(); meteoDataInfo.o…

中间件系列 - Redis入门到实战(基础篇)

前言 1.学习视频&#xff1a; 黑马程序员Redis入门到实战教程&#xff0c;深度透析redis底层原理redis分布式锁企业解决方案黑马点评实战项目 2. 本内容仅用于个人学习笔记&#xff0c;如有侵扰&#xff0c;联系删除 3. 本章学习目标&#xff1a; 初始Redis 认识NoSQL认识Redi…

臻程密封科技(江苏)有限公司携橡胶密封产品亮相2024生物发酵展

臻程密封科技&#xff08;江苏&#xff09;有限公司盛装亮相2024第12届国际生物发酵产品与技术装备展&#xff08;济南&#xff09; 展位号&#xff1a;2号馆H56 臻程密封科技&#xff08;江苏&#xff09;有限公司专注于橡胶密封材料的研发&#xff0c;橡胶密封产品的生产、…

Java 21 的虚拟线程:高性能并发应用的福音

Java 21 最重要的特性之一就是虚拟线程 (JEP 444)。这些轻量级的线程降低了编写、维护和观察高吞吐量并行应用所需的努力。 在讨论新特性之前&#xff0c;让我们先看一下当前的状态&#xff0c;以便更好地理解它试图解决什么问题以及带来了哪些好处。 平台线程 在引入虚拟线…

浅谈5G基站节能及数字化管理解决方案的设计与应用-安科瑞 蒋静

截至2023年10月&#xff0c;我国5G基站总数达321.5万个&#xff0c;占全国通信基站总数的28.1%。然而&#xff0c;随着5G基站数量的快速增长&#xff0c;基站的能耗问题也逐渐日益凸显&#xff0c;基站的用电给运营商带来了巨大的电费开支压力&#xff0c;降低5G基站的能耗成为…

在springboot中引入参数校验

一、概要 一般我们判断前端传过来的参数&#xff0c;需要对某些值进行判断&#xff0c;是否满足条件。 而springboot相关的参数校验注解&#xff0c;可以解决我们这个问题。 二、快速开始 首先&#xff0c;我用的springboot版本是 3.1.5 引入参数校验相关依赖 <!--1…

【异常】浅析异常体系及为什么一定会执行finally块代码

异常体系&#xff1a; &#xff08;1&#xff09;所有异常&#xff08;Exception&#xff09;、错误&#xff08;Error&#xff09;都继承自异常中的基类&#xff1a;Throwable。而异常又可以分为检查异常&#xff08;Checked Exception&#xff09;、非检查异常&#xff08;Un…

深度学习记录--神经网络表示及其向量化

神经网络表示 如下图 就这个神经网络图来说&#xff0c;它有三层&#xff0c;分别是输入层(Input layer)&#xff0c;隐藏层(Hidden layer)&#xff0c;输出层(Output layer) 对于其他的神经网络&#xff0c;隐藏层可以有很多层 一般来说&#xff0c;不把输入层算作一个标准…

根据年份和第几周来获取,那一个周的周天日期

在工作中遇到这个问题&#xff0c;仓库有物料录入&#xff0c;告诉了年份和这个年的第几周&#xff0c;要求把时间转换为XXXX-XX-XX的格式。日期为那个周的最后一天&#xff08;周天&#xff09; 在Java中想要获取特定年份和周数的周天日期&#xff0c;可以使用LocalDate类 pu…

使用粗糙贴图制作粗纹皮革手提包3D模型

在线工具推荐&#xff1a; 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 当谈到游戏角色的3D模型风格时&#xff0c;有几种不同的风格&#xf…

Linux设备分类与设备号

文件分为&#xff1a; 1.文件内容&#xff1b;2.文件名&#xff1b;3.元信息&#xff08;时间戳&#xff0c;文件大小等&#xff09; 一、Linux内核对设备的分类 linux的文件种类&#xff1a; -&#xff1a;普通文件 d&#xff1a;目录文件 p&#xff1a;管道文件 s&#x…

YOLOv8独家原创改进:SPPF自研创新 | 可变形大核注意力(D-LKA Attention),大卷积核提升不同特征感受野的注意力机制

💡💡💡本文自研创新改进: 可变形大核注意力(D-LKA Attention)高效结合SPPF进行二次创新,大卷积核提升不同特征感受野的注意力机制。 收录 YOLOv8原创自研 https://blog.csdn.net/m0_63774211/category_12511737.html?spm=1001.2014.3001.5482 💡💡💡全网独…

课堂练习3.2:进程的创建

3-3 进程是操作系统中一个非常重要的概念。程序的运行是通过进程来完成的。在层次结构的操作系统中&#xff0c;进程不仅是系统分配资源的基本单位&#xff0c;而且是 CPU 调度的基本单位。进程管理是操作系统最重要的功能之一。通过本实训将会学习到&#xff1a;Linux 0.11 的…