Open X-Embodiment 超大规模开源真实机器人数据集分享

近期,Google旗下的前沿人工智能企业DeepMind汇集了来自 22 种不同机器人类型的数据,创建了 Open X-Embodiment 数据集并开源了出来。该数据集让他们研发的RT-2 机器人在制造和编程方式上有了重大飞跃。

有分析称,在上述数据集上训练的 RT-2-X 在现实世界机器人技能上的表现提高了 2 倍,而且通过学习新数据RT-2-X 掌握了很多新技能。英伟达高级人工智能科学家Jim Fan甚至公开表示,这个数据集可能是机器人的ImageNet时刻。

图片

谷歌开放了X-具身存储库(robotics-transformer-X.github.io)来存储Open X-Embodiment数据集。这是一个开源存储库,包括用于X-具身机器人学习研究的大规模数据以及预训练模型的检查点。

为助力具身机器人技术研究,提高数据准备效率,OpenDataLab(opendatalab.com)整理并上架了DeepMind公开的Open X-Embodiment数据集,欢迎大家下载与探索。

另外寻星计划正在火热进行中,上传原创数据集领好礼,点击参加→寻找最闪亮的 OpenDataLab 数据之星, We want you !

数据集概述

Open X-Embodiment子数据集信息列表:

https://docs.google.com/spreadsheets/d/1rPBD77tk60AEIGZrGSODwyyzs5FgCU9Uz3h-3_t2A9g/edit?pli=1#gid=0

关键词:

● 21个科研机构

● 22个机器人

● 60个已有数据集的融合

● 527个技能

● 160,266个任务

● 1,402,930条数据(共约3600G)

数据处理:

所有源数据集统一转化为RLDS格式。
对于源数据的不同格式和内容,做了以下处理:

1. 对于存在多视角的数据集,仅选择其中“canonical”的一个视角图像(猜测为比较接近top-down第一人称视角/Proprioception的那一个)。

2. 将图像resize到320×256(width×height)。

3. 将原有的动作(比如joint position)都转换为EE的动作,但是该动作量可能为相对值,也可能为绝对值。在模型输出action tokens∈ [0, 255]\in [0, 255]后根据不同的机器人做不同的de-normalization后再下达具体的控制指令。

数据集特征:

1. 60个数据集中涉及到的机器人有单臂、双臂和四足,Franka占多数。

2. 数据量上,xArm占最大头,主要是language table的数据集体量很大,有44万条;Kuka iiwa主要来自于QT-Opt的贡献;另外就是原来在Everday Robot(现在论文中称为Google Robot)上采集的RT1的数据。

3. 技能上主要还是集中在pick-place上,整体仍呈现长尾分布,尾部有许多如wiping、assembling等难度更高的技能。

4. 主要的场景和被操作物体集中在家庭、厨房场景和家具、食物、餐具等物品。[1]

图片

子数据集介绍

No.1 RoboVQA

● 发布方:不来梅大学

发布时间:2019

简介

RobotVQA 以场景RGB(D)图像作为输入并输出相应的场景图。RobotVQA 代表机器人视觉问答。作者展示了 RobotVQA 知识从虚拟世界到现实世界的可转移性以及对机器人控制程序的适用性。

● 下载地址

https://opendatalab.com/OpenDataLab/RoboVQA

● 论文地址

https://arxiv.org/pdf/1709.10489.pdf

No.2 RoboNet

● 发布方:卡内基梅隆大学·宾夕法尼亚大学·斯坦福大学

发布时间:2020

简介

一个用于共享机器人经验的开放数据库,它提供了来自 7 个不同机器人平台的 1500 万个视频帧的初始池,并研究了如何使用它来学习基于视觉的机器人操作的通用模型。

● 下载地址
https://opendatalab.com/OpenDataLab/RoboNet

● 论文地址

https://arxiv.org/pdf/1910.11215v2.pdf

No.3 BridgeData V2

● 发布方:Google·加州大学伯克利分校·斯坦福大学

发布时间:2023

简介

BridgeData V2 是一个庞大而多样化的机器人操作行为数据集,旨在 促进可扩展机器人学习的研究。数据集兼容开放词汇、多任务 以目标图像或自然语言指令为条件的学习方法。从数据中学到的技能 推广到新的对象和环境,以及跨机构。

● 下载地址

https://opendatalab.com/OpenDataLab/BridgeData_V2

● 论文地址

https://arxiv.org/pdf/2308.12952.pdf

No.4 Language Table

● 发布方:Google

发布时间:2022

简介

Language-Table 是一套人类收集的数据集,也是开放词汇视觉语言运动学习的多任务连续控制基准。

● 下载地址

https://opendatalab.com/OpenDataLab/Language_Table

● 论文地址

https://arxiv.org/pdf/2210.06407.pdf

No.5 BC-Z

● 发布方:卡内基梅隆大学·宾夕法尼亚大学·斯坦福大学

发布时间:2020

简介

作者收集了 100 个操作任务的大规模 VR 远程操作演示数据集,并训练卷积神经网络来模仿 RGB 像素观察的闭环动作。

● 下载地址

https://opendatalab.com/OpenDataLab/BC_Z

● 论文地址

https://arxiv.org/pdf/1910.11215v2.pdf

No.6 CMU Food Manipulation(Food Playing Dataset)

● 发布方:卡内基梅隆大学机器人研究所

发布时间:2021

简介

使用机械臂和一系列传感器(使用 ROS 进行同步)收集的多样化的数据集,其中包含 21 种具有不同切片和特性的独特食品。通过视觉嵌入网络,该网络利用本体感受、音频和视觉数据的组合,使用三元组损失公式对食物之间的相似性进行了编码。

● 下载地址

https://opendatalab.com/OpenDataLab/CMU_Food_Manipulation

● 论文地址

https://arxiv.org/pdf/2309.14320.pdf

No.7 TOTO Benchmark

● 发布方:纽约大学·Meta AI·卡内基梅隆大学

发布时间:2022

简介

在线训练离线测试 (TOTO) 是一个在线基准测试,提供:开源操作数据集,访问共享机器人进行评估。

● 下载地址

https://opendatalab.com/OpenDataLab/TOTO_Benchmark

● 论文地址

https://arxiv.org/pdf/2306.00942.pdf

No.8 QUT Dynamic Grasping

● 发布方:昆士兰科技大学

发布时间:2022

简介

该数据集包含 812 个成功的轨迹,这些轨迹与使用 Franka Panda 机器人机械臂自上而下的动态抓取移动物体有关。物体随机放置在XY运动平台上,该平台可以以不同的速度在任意轨迹中移动物体。该系统使用此处描述的 CoreXY 运动平台设计。设计中的所有部件都可以3D打印或轻松采购。

● 下载地址

https://opendatalab.com/OpenDataLab/QUT_Dynamic_Grasping

● 论文地址

https://arxiv.org/pdf/2309.02754.pdf

No.9 Task-Agnostic Real World Robot Play

● 发布方:弗赖堡大学·埃尔朗根-纽伦堡大学

发布时间:2023

简介

7-DoF 机械臂和平行钳口抓手执行各种无定向操作任务的情节,大约 1% 的数据使用自然语言嵌入进行注释。通过VR控制器使用远程操作收集情节,告诉用户在没有特定任务的情况下远程操作机器人。每个状态-动作对都编码在 Numpy npz 文件中,由静态和抓手相机、本体感受状态以及与该状态对应的机器人未来动作的 RGB-D 图像组成。

● 下载地址

https://opendatalab.com/OpenDataLab/Task_Agnostic_Real_World_Robot_Play

● 论文地址

http://tacorl.cs.uni-freiburg.de/paper/taco-rl.pdf

No.10 Roboturk

● 发布方:斯坦福大学

发布时间:2019

简介

RoboTurk 真实机器人数据集收集了有关三个不同现实世界任务的大型数据集:洗衣房布局、塔楼创建和对象搜索。所有三个数据集都是使用 RoboTurk 平台收集的,由众包工作人员远程收集。我们的数据集包含来自 54 个不同用户的 2144 个不同演示。我们提供用于训练的完整数据集和用于探索的数据集的较小子样本。

● 下载地址

https://opendatalab.com/OpenDataLab/Roboturk

● 论文地址

https://arxiv.org/pdf/1911.04052.pdf

因篇幅有限,更多机器人学习开源数据集,请访问OpenDataLab:

https://opendatalab.org.cn/

参考:[1]https://www.zhihu.com/question/624716226

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/144320.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式LINUX——环境搭建 windows、虚拟机、开发板 互ping

摘要: 本文包含,如果设置linux开发板和虚拟机、windows 互ping成功 以及设置过程中出现的虚拟机、开发板查询不到eth0 windows ping开发板出项丢包等问题的解决方式。 windows端设置 windows端插入USB转网卡 打开windows桌面下右下角的网络标识 打开“更改适配器选项”…

图片转excel的三种方案(电脑、手机)

图片怎么转换成excel文件呢?用金鸣表格文字识别是最便捷、最佳的解决方案。也许有些同学会问,那我用手工也可以解决呀,干吗要用软件?这么想就不对了,手工做不但要做表格线,还要手工打字,非常麻烦,而且容易出错,特别是对于数字多的图片,更是要命,现在有金鸣识别就不用那么麻烦…

LeetCode(14)加油站【数组/字符串】【中等】

目录 1.题目2.答案3.提交结果截图 链接: 134. 加油站 1.题目 在一条环路上有 n 个加油站,其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加…

主从复制和读写分离

MySQL 主从复制和读写分离: 主从复制:主MySQL上的数据,新增,修改库,表,表里的数据,都会同步到从MySQL上。 MySQL的主从复制的模式:(面试题) 1,异…

金镂智能——蔡银云 移动建筑的未来

蔡银云,一个有着军旅经历的创业者。在他的创业道路上,曾经历种种困难与挑战,却始终坚守着初心,并愈发深刻地理解到自己应当为社会奉献力量。从最初的追求利润,到后来的承担社会责任,蔡银云的故事中满篇充溢…

后端接口性能优化分析-1

👏作者简介:大家好,我是爱吃芝士的土豆倪,24届校招生Java选手,很高兴认识大家📕系列专栏:Spring源码、JUC源码🔥如果感觉博主的文章还不错的话,请👍三连支持&…

3DMAX建模基础教程:常用工具补充

在本篇3DMAX建模基础教程中,我们将为您介绍一些常用的工具及其功能。熟练掌握这些工具将大大提高您的建模效率。 1️⃣ 选择与变换工具 选择工具:帮助您选择对象,可以通过单击对象或按组选择。 变换工具:对选定的对象进行移动、…

XMind 2023 mac/win:引领思维导图革命,让思维更直观、更高效!

XMind是一款引领思维导图的革命性软件,以其强大的功能和高效的操作体验,赢得了全球用户的广泛喜爱。作为一款思维导图软件,XMind将复杂的思维过程和想法以直观、清晰的方式呈现出来,让用户能够更好地理解、组织和表达自己的思想。…

如何禁止谷歌浏览器Google Chrome自动更新?

Windows系统: 按下Win R键,打开“运行”对话框;在对话框输入“services.msc”,并按下Enter键或者“确定”按钮。 在服务列表中找到“Google 更新服务”。 右键单击该服务,选择“属性”,将“启动类型”更改…

SpringBoot从零到一项目实战落地博客系统(附源码!!!)

1.项目内容 1.1.页面展示 1.2.博客分类 1.3.面试辅导 1.4.私教带徒 1.5.文章编辑 1.6.后台管理 2.项目架构及技术描述 2.1.本项目用到的技术和框架 项目构建:Mavenweb框架:Springboot数据库ORM:Mybatis数据库连接池: HikariCP分…

软件测试行业趋势分析

1 绪论 本文先对互联网对时代和社会变革进行了论述,然后再由互联网时代对软件工业模式变革进行了介绍,最后引出附属于软件工业的测试行业在新形势下的需求变化,并对趋势进行了分析,并最终给出了相关的从业人员的职业发展建议。 …

【极客时间-系列教程】Vim 实用技巧必知必会-更多常用命令:应对稍复杂的编辑任务

文章目录 更多常用命令:应对稍复杂的编辑任务光标移动文本修改文本对象选择 更多常用命令:应对稍复杂的编辑任务 几个基本的命令已经了解了,可以操作简单的任务,但一些很复杂的命令,并没有了解到,只知道几…

Freeswitch实现坐席状态

1.呼叫中心的坐席状态 官网地址:mod_callcenter | FreeSWITCH Documentation 2.对应关系 登儒:login 》 Login(暂时没有这个明确,调用下面方法不过没有事件返回,可以用Onbreak代替) EslMessage eslMessag…

SNMP监控解决方案

简单网络管理协议(SNMP)是一种网络协议,可帮助在设备之间传输数据,从而管理和监控互联网协议网络中存在的设备。网络连接着一系列设备,随着技术趋势的发展,新设备被引入其中。 网络上的大多数设备都支持网…

AI创作系统ChatGPT源码+AI绘画系统+支持OpenAI DALL-E3文生图,可直接对话文生图

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。新增支…

java中常见的设计模式

最早概念是在建筑领域产生的,后来被引入到软件开发领域。 模式是解决一类问题的固定写法,一个模式用来解决一种问题,经过反复优化,最终得出来的。之前的程序员们,在工作中对某一类问题解决方式进行总结归纳&#xff0…

【java学习—十四】Class类(2)

文章目录 1. Class类2. Class类的常用方法3. 实例化Class类对象(四种方法) 1. Class类 在 Object 类中定义了以下的方法,此方法将被所有子类继承: public final Class getClass() 以上的方法返回值的类型是一个 Class 类&#xf…

负载均衡原理

负载均衡原理是什么? 负载均衡Load Balance)是高可用网络基础架构的关键组件,通常用于将工作负载分布到多个服务器来提高网站、应用、数据库或其他服务的性能和可靠性。负载均衡,其核心就是网络流量分发,分很多维度。 …

修炼k8s+flink+hdfs+dlink(七:flinkcdc)

一 :flinkcdc官网链接。 https://ververica.github.io/flink-cdc-connectors/release-2.1/content/about.html 二:在flink中添加jar包。 在flink lib目录下增加你所需要的包。 https://kdocs.cn/join/gv467qi?f101 邀请你加入共享群「工作使用重要工具…

RobotFramework常见问题如何解决 ?

附加-问题解决 1. 执行robot用例的时候提示WebDriverException: Message: invalid argument: cant kill an exited process 查看驱动的log是否是提示 如果是的话,参照第七步安装图形界面 2. jenkins启动后发现打不开jenkins页面的问题解决 打开jenkins页面提…