NOIR脑机接口机器人——让脑机接口通过少样本学习实现做家务的能力

一、概述

大脑与机器人接口(BRI)是人类艺术、科学和工程的集大成之作,其影响已经贯穿于无数科幻作品和创意艺术之中,如《黑客帝国》和《西部世界》等。然而,要真正实现BRI并创造出能够与人类完美协同运作的机器人系统,却是一项非常艰巨的任务,需要进行突破性的科学研究。
在这个系统中,机器与人类通信的能力是至关重要的一环。在人机协作和机器人学习的过程中,人类传达意图的方式多种多样,包括动作、按按钮、注视、面部表情、语言等等。然而,通过神经信号直接与机器人通信,则是最令人激动却也最具挑战性的前景。

通过这一接口,人们能够更直接地将自己的思想和意愿传达给机器人,为机器人赋予更为智能化和人性化的特质。这种通信方式的实现不仅需要对神经科学的深入理解,还需要先进的工程技术来解读和应用这些神经信号。在这一充满未知的领域,科学家和工程师们正共同努力,推动着人机交互技术的飞速发展。BRI的成功将为人类与机器人之间的互动带来翻天覆地的变革,成为科技发展史上的一座新的里程碑。

最近,斯坦福大学的吴佳俊和李飞飞团队提出了NOIR系统,用户通过非侵入式脑电图装置即可控制机器人执行日常任务。NOIR系统能够将你的脑电图信号解码为机器人的技能库。它目前已经能够完成一系列任务,包括烹饪寿喜烧、熨烫衣物、磨碎奶酪、玩井字游戏,甚至抚摸机器狗等。这个模块化的系统具备强大的学习能力,可以应对日常生活中复杂多变的任务。

NOIR,这是一个通用的智能脑-机器人界面系统,使人类能够通过脑信号命令机器人执行日常活动。通过这个界面,人类使用脑电图(EEG)向机器人传达他们感兴趣的对象和行动意图。NOIR系统在包括烹饪、清理、个人护理和娱乐在内的20项具有挑战性的日常家务活动中取得了成功。系统的有效性得到了机器人学习算法的协同集成的改善,使NOIR能够适应个体用户并预测其意图。NOIR改善了人类与机器人互动的方式,用直接的神经通信取代了传统的互动渠道。

脑机机器人实现做家务的能力

论文地址:https://openreview.net/pdf?id=eyykI3UIHa
项目网站:https://noir-corl.github.io/

二、NOIR 系统

NOIR有两个主要组成部分,一个是模块化管道,用于解码来自人脑信号的目标。这个管道的设计使其能够有效地处理并解释由脑电图(EEG)等脑信号源产生的信息。
另一个主要组成部分是机器人系统,它包括一个原始技能库。这个技能库赋予机器人执行各种任务的基本能力,例如烹饪、清理、个人护理等。这使得机器人能够在执行任务时展现出一定的智能和独立性。

一个关键的特征是机器人系统的学习能力,它具有预测人类预期目标的能力。通过对人类行为和偏好的学习,机器人能够更好地理解用户的意图,减少人类解码所需的工作量。这种学习和适应性使得NOIR系统能够更好地与个体用户互动,提高系统的实用性和用户体验。整合了这两个组成部分,NOIR展现了在神经信号操作的智能机器人领域的前沿技术和创新。
在这里插入图片描述

1. 基于脑电信号的人类意图解码

NOIR使用模块化管道来从脑电图(EEG)信号中解码人类预期目标:

(a) 操作哪个对象: 通过采用光刺激诱发电位(SSVEP)信号,使用典型相关分析(CCA)分类器来解码应操作的对象。

(b) 如何与对象互动: 通过运动意向(MI)信号,采用共享子空间(CSP)和二次判别分析(QDA)算法,解码与对象互动的方式。

© 在何处互动: 同样是通过运动意向(MI)信号,解码在何处与对象互动。

为了确认或拒绝解码结果,NOIR还使用了一个安全机制,该机制通过捕捉颌部咬紧引起的肌肉张力来执行。这种安全机制有助于验证从脑电信号中解码的结果,以确保对机器人的指令准确性和安全性。这种方法的整合使得NOIR系统能够更加全面地理解和响应用户的意图,提高了系统的可靠性和实用性。
在这里插入图片描述

2.具有参数化原始技能的机器人

人类意图可以映射到14个参数化的机器人技能,例如Pick(x, y, z)、Place(x, y, z)和Push(x, y, z, d)。人类可以发现这些技能的新颖用途,并将它们组合起来以完成复杂的任务。

  • Pick(x, y, z): 指示机器人在坐标(x, y, z)处拾取物体。
    在这里插入图片描述

  • Place(x, y, z): 指导机器人将物体放置到指定坐标(x, y, z)。
    在这里插入图片描述

  • Push(x, y, z, d): 引导机器人将物体从当前位置推到新位置,其中距离参数(d)决定推动的范围。
    在这里插入图片描述

这种参数化的技能集使得机器人能够更灵活地响应人类的意图,并通过结合不同技能来解决具有挑战性的任务。这种方法允许机器人适应不同的情境,因为通过调整参数,它们可以在不同的位置、方向和距离上执行相似的任务。

3. 使用机器人学习实现高效的 BRI

解码人类意图耗时且成本高昂。机器人以少量示例学习人类对象、技能和参数选择,因此当它们在类似环境中执行相同任务时,可减少人类的工作和时间。
NOIR 系统检索式少样本对象和技能选择模型如下所示。它为观察结果学习了潜在表示。对于新的观察结果,它在记忆中寻找最相关的经验,并选择相应的技能和对象。
在这里插入图片描述
单样本技能参数学习算法如图所示。它在训练图像中给定一个参考点的情况下,在测试图像中找到一个语义对应的点。特征可视化展示了 DINOv2 使用的 768 个令牌中的其中 3 个。
在这里插入图片描述
在任务执行期间,NOIR 系统记录了由图像和人类选择的“物品 - 技能”对构成的数据点。这些图像首先经过预训练的 R3M 模型编码,以提取对机器人操控任务有用的特征。接着,这些特征通过一些可训练的全连接层,使用带有三元组损失的对比学习进行训练,这样可以鼓励具有相同“物品 - 技能”标签的图像在隐藏空间中靠近彼此。

训练得到的图像嵌入和“物品 - 技能”标签会被存储到内存中。在测试期间,模型会检索隐藏空间中最近的数据点,并向人类建议与该数据点关联的“物品 - 技能”对。

单样本技能参数学习通常需要人类大量参与,因为它需要精确的运动意象(MI)来进行光标操作。为了减少人类的工作量,团队提出了一种学习算法,能够根据给定的“物品 - 技能”对来预测参数。假设用户已经成功定位了拿起杯子把手的精确关键点,那么未来是否还需要再次指定这个参数呢?最近的基础模型(例如 DINOv2)取得了很大进展,已经可以找到相应的语义关键点,从而无需再次指定参数。

相较于之前的工作,这里提出的新算法是单样本的,并且预测的是具体的 2D 点,而不是语义片段。如图 4 所示,给定一张训练图像(360 × 240)和参数选择 (x, y),模型可以预测出不同测试图像中对应的语义点。团队具体使用的是预训练的 DINOv2 模型来提取语义特征。

4. 实验结果

使用NOIR系统,3名人类参与者(2男1女)完成了20个长期任务(4-15项技能),这些任务是日常活动。其中16项活动(No.2 - No.17)是使用Franka进行的桌面操作任务,另外4项(No.18 - No.21)是使用Tiago进行的移动操作任务。这些任务包括8项餐饮准备任务,6项清洁任务,3项个人护理任务和3项娱乐任务。
在这里插入图片描述
实验视频(加快了8倍):

脑机接口机器人实现结果

5. 量化结果

平均而言,每项任务需要 1.8 次尝试才能成功,任务完成时间为 20.3 分钟。任务视角是执行的基本技能的平均数量。# 尝试表示直到第一次成功所需的平均尝试次数(1 表示第一次尝试成功)。时间表示成功试验中的任务完成时间。人类时间表示人类用户总共花费的时间百分比,这包括决策时间和解码时间。
在这里插入图片描述
在实验的不同阶段的解码准确率。解码时间和准确性,就像几乎所有的BRI(脑机接口)研究一样,是关键挑战。
在这里插入图片描述
通过机器人学习算法,对象和技能选择学习可以将解码时间减少60%,参数学习可以减少光标移动距离41%。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/147405.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端开发好用的vscode插件

1.TONGYI Lingma 通义灵码,是一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力,并针对阿里云 SDK/API 的使用场景调优&#xff0…

音频限幅器电路芯片D2761,工作电压范围宽,输出噪声低

D2761是为保护扬声器所设计的音频限幅器,其限幅值可通过外接电 阻来调节,适合在个人电脑、便携式音响等系统中作音频限幅用。 主要特点: ● 工作电压范围宽:2.7V ~ 13.0V ● 外接电阻调节限幅范围:0.2V …

UE4动作游戏实例RPG Action解析四:装备系统

导语: 以加血道具为例,详细分析拆解ActionRPG的装备系统,包含装备系统需求和数据结构设计,以及实现 一、装备系统需求: 装备槽: 已获取装备和未获取装备: 当已经装备一个道具时,再次捡到道具,会把道具放在装备库,不会放在装备槽中, 当没有装备道具时,会拾取道具…

Android图片压缩插件

今天才发现这个还有插件,平时都是传网站上压缩完了又下载下来覆盖原文件。现在有这个了,开发好高效😁!分享给大家,可能对你们有用哈哈😆。也可能你们早都知道了……

P6入门:项目初始化10-项目详情之设置Setting

前言 使用项目详细信息查看和编辑有关所选项目的详细信息,在项目创建完成后,初始化项目是一项非常重要的工作,涉及需要设置的内容包括项目名,ID,责任人,日历,预算,资金,分类码等等&…

java实现计数排序

图解 计数排序是一种线性时间复杂度的排序算法,它不基于比较排序,而是根据待排序序列中元素的值来进行排序。 具体的过程如下: 统计序列中每个元素出现的个数,得到一个计数数组count。其中,count[i]表示待排序序列中值…

专业的SRM系统全流程管理服务

一、什么是SRM系统 SRM系统,即供应商关系管理,是供应链管理中的重要组成部分,帮助企业与供应商建立、维护和改善业务关系,以实现双方共赢。本文将从供应商寻源到合同签订、订单履行、到付款及供应商评价等环节,阐述SR…

【开源】基于Vue.js的超市自助付款系统的设计和实现

目录 一、摘要1.1 项目介绍1.2 项目详细录屏 二、研究内容2.1 商品类型模块2.2 商品模块2.3 超市账单模块 三、界面展示3.1 登录注册模块3.2 超市商品类型模块3.3 超市商品模块3.4 商品购买模块3.5 超市账单模块 四、部分源码展示4.1 实体类定义4.2 控制器接口 五、配套文档展示…

.pcd文件格式

更详细的格式介绍可以查看我的这篇博客 『Open3D』安装与点云格式通识_open3d安装_NNNNNathan的博客-CSDN博客文章浏览阅读1.9k次。介绍了open3d的安装和当前适用与存储点云信息的文件格式,并详细介绍了pcd与ply两种格式。_open3d安装https://blog.csdn.net/qq_413…

【QT系列教程】之二创建项目和helloworld案例

文章目录 一、QT创建项目1.1、创建项目1.2、选择创建项目属性1.3、选择路径和项目名称1.4、选择构建项目类型1.5、布局方式1.6、翻译文件,根据自己需求选择1.7、选择套件1.8、项目管理,自行配置1.9、配置完成,系统自动更新配置 二、QT界面介绍…

Payshield 10K是什么意思?有什么作用?

PayShield 10K是一种支付安全产品,由数字货币和法币混合而成的数字货币产品。它的意思是保护商家在交易过程中可能遭受的损失。这种产品的主要作用是保护数字货币支付系统的安全,并确保商家在交易过程中获得他们应得的收益。 PayShield 10K具有以下特点和…

Bun 1.0 正式发布,爆火的前端运行时,速度遥遥领先!

目录 前言: 一、包子1.0 二、Bun 是一个一体化工具包 为什么包子存在 二、Bun 是一个 JavaScript 运行时 Node.js 兼容性 速度 TypeScript 和 JSX 支持 ESM 和 CommonJS 兼容性 网络 API 热重载 插件 Bun:全能的工具包 Bun 为什么会出现&…

AI创作系统ChatGPT网站源码+支持最新GPT-Turbo模型+支持DALL-E3文生图/AI绘画源码

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…

ssm047网上服装销售系统+jsp

ssm047网上服装销售系统jsp 交流学习: 更多项目: 全网最全的Java成品项目列表 https://docs.qq.com/doc/DUXdsVlhIdVlsemdX 演示 项目功能演示: ————————————————

用 Raspberry Pi 5 构建文件服务器(NAS)

系列文章目录 文章目录 系列文章目录前言一、软件设置二、存储器设置三、配置总结 前言 2023 年 11 月 13 日 本-埃弗拉德 这个 #MagPiMonday 周一,学习如何利用 Raspberry Pi 5 的新功能制作更好的 NAS。本教程是 MagPi 推出的 Raspberry Pi 5 特辑的一部分。 M.…

u系 kdump查看配置

V4 桌面: 如果能上外网配置网络源安装软件包: 会自动安装以下几个包(不能连接外网直接安装一下几个包即可): 查看kdump配置: Kdump-config show 可以看到USE_KDUMP1 ,生成的vmcore文件在/var…

Apache Airflow (七) :DAG调度周期设置

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹…

阶段七-Day02-SpringMVC

一、Restful请求格式 1. 介绍 Rest(Representational State Transfer:表现层状态转移)是一种软件架构风格,其核心是面向资源的一种设计。何为面向资源,意思是网络上的所有事物都可以抽象为资源,而每个资源都有唯一的资源标识&…

【rl-agents代码学习】02——DQN算法

文章目录 Highway-env Intersectionrl-agents之DQN*Implemented variants*:*References*:Query agent for actions sequence探索策略神经网络实现小结1 Record the experienceReplaybuffercompute_bellman_residualstep_optimizerupdate_target_network小结2 exploration_polic…

(.htaccess文件特性)[MRCTF2020]你传你呢 1

题目环境&#xff1a; 不难看出是一道文件上传漏洞 上传一句话木马文件burpsuite进行抓包<?php eval($_POST[shell]);?> 命名为PHP文件格式 Repeater进行重放 尝试了其它后缀进行绕过都没有成功 通过 application/x-php内容类型&#xff0c;可以看出被识别出是PHP文件&…