Science Robotics 封面论文:Google DeepMind 通过深度强化学习赋予双足机器人敏捷的足球技能

在这里插入图片描述

创造通用具身智能,即创造能够在物理世界中敏捷、灵巧和理解的智能体——就像动物或人类一样——是人工智能 (AI) 研究人员和机器人专家的长期目标之一。动物和人类不仅是自己身体的主人,能够流畅而轻松地执行和组合复杂的动作,而且还可以感知和理解他们的环境,并利用他们的身体来影响世界上的复杂结果。
近些年基于学习的方法加速了这方面研究,特别是,深度强化学习(深度RL)已被证明能够解决模拟角色和物理机器人的复杂运动控制问题。高质量的四足机器人已经广泛使用,但是,致力于控制人形机器人和两足动物的工作要少得多,这在稳定性、机器人安全性、自由度数量和合适硬件的可用性方面带来了额外的挑战。现有的以学习为基础的工作比较有限,侧重于学习和转移不同的基本技能,如走路、跑步、爬楼梯和跳跃。人形控制的最新技术使用基于目标模型的预测控制,从而限制了该方法的通用性。
Google DeepMind 发表的Science Robotic 工作重点是基于学习的人形机器人的全身控制,用于长期任务。特别是使用深度RL来训练低成本的现成机器人来踢多机器人足球,远远超出这种机器人直观期望的敏捷性和流畅性水平。像足球这样的运动展示了人类感觉运动智能的许多特征,这在机器人社区中得到了认可,特别是通过RoboCup计划。 他们考虑了完整足球问题的一个子集,并训练了一个智能体在模拟中玩简化的一对一(1v1)足球,并直接将学习到的策略部署到真实的机器人上(下图)。他们专注于本体感觉和动作捕捉观察中的感觉运动全身控制。
在这里插入图片描述

在第一阶段,他们训练了两种技能:一种是从地上站起来,另一种是在面对未经训练的对手时进球。在第二阶段,他们通过提炼技能并以自我游戏的形式使用多智能体训练来训练智能体完成完整的 1v1 足球任务,其中对手是从智能体本身的部分训练副本池中抽取的。因此,在第二阶段,智能体学会了结合以前学到的技能,将它们提炼成完整的足球任务,并预测和预测对手的行为。他们使用了一小组塑形奖励、领域随机化以及随机推送和扰动来改进探索并促进安全转移到真实机器人。
在这里插入图片描述

未来工作的一个令人兴奋的方向是培训由两个或更多代理组成的团队。在这种情况下,应用他们提出的方法来训练智能体是很简单的。在他们对 2v2 足球的初步实验中,看到智能体学会了分工,这是一种简单的协作形式:如果队友离球更近,那么智能体就不会接近球。然而,它也学到了更少的敏捷行为。从先前的仿真工作中获得的见解可用于提高此设置下的性能。
未来工作的另一个重要方向是仅从机载传感器中学习,而没有来自动作捕捉系统的外部状态信息。与可以直接访问球、球门和对手位置的基于状态的智能体相比,基于视觉的智能体需要从有限的高维以自我为中心的相机观察历史中推断信息,并随着时间的推移整合部分状态信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/538978.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

git从【本地分支】直接推送到【远程主分支】了怎么办?

前情 本地有两个分支,main主分支和articles分支,且articles分支并未推送到我的远程仓库中 惨剧过程 头天晚上写完代码后,怕晚上脑子不清楚搞错什么功能,中午检查了一遍代码,觉得功能做差不多了 然后准备提交推送远程…

吴恩达2022机器学习专项课程(一) 5.9 特征工程 5.10 多项式回归

问题预览/关键词 特征工程的重要性什么是特征工程?什么是多项式回归?特征缩放对多项式回归的重要性特征的选择 笔记 1.特征工程的重要性 选择或输入合适的特征,是让算法正常工作的关键步骤之一。 2.特征工程 根据应用场景,运…

设计模式代码实战-建造者模式

1、问题描述 小明家新开了一家自行车工厂,用于使用自行车配件(车架 frame 和车轮 tires )进行组装定制不同的自行车,包括山地车和公路车。 山地车使用的是Aluminum Frame(铝制车架)和 Knobby Tires&#x…

STM32 DCMI 的带宽与性能介绍

1. 引言 随着市场对更高图像质量的需求不断增加,成像技术持续发展,各种新兴技术(例如3D、计算、运动和红外线)的不断涌现。如今的成像应用对高质量、易用性、能耗效率、高集成度、快速上市和成本效益提出了全面要求。为了满足这些…

10BASE-T1S架构助力车载E/E领域,引领汽车产业迈向智能化新纪元!

汽车架构的发展 如今,汽车已不仅仅满足消费者的代步需求,而是向所谓的ACES(Autonomous, Connected, Electrification, Shared Source)方向发展,全自动驾驶和网联化将成为最终目标。由此带来的高算力和高数据吞吐量问题…

处理json文件,并将数据汇总至Excel表格

从scores.jason文件中读取学生信息,输出学生的学号,姓名,各科成绩,平均分, 各科标准差 效果: # # 从scores.jason文件中读取学生信息,输出学生的学号,姓名,各科成绩,平均分, 各科标准差 impor…

Qotom Q720G5英特尔赛扬处理器N4000高性价比无风扇迷你电脑5网口软路由防火墙

在数字时代,迷你电脑已经成为高效、灵活的解决方案,无论是个人用户还是企业用户,都能从中受益。Qotom Q720G5 无风扇迷你电脑就是这样一款强大的选择,它不仅可以作为软路由、防火墙和路由器,还有着更多的潜力等待发掘。…

uniapp uview里面的u-navbar结合u-sticky组件的使用

导航栏自定义加需要吸顶产生的问题 如上图直接使用并不能出现tab栏吸顶效果&#xff0c;那是由于u-sticky组件吸顶时与顶部的距离默认为0 那么做如下处理 <u-sticky :offset-top"navbarHeight()"><u-tabs :list"helpTabList" active-color"…

智算时代的基础设施如何实现可继承可演进?浪潮云海发布 InCloud OS V8 新一代架构平台

从 2023 年开始持续火爆的 AIGC 正在加速落地应用&#xff0c;为全行业带来生产生活效率的变革与升级。面对数字化转型与智能化转型&#xff0c;对于技术团队来说&#xff0c;既要根据业务与 AI 应用去部署以云为基础的 AI 算力&#xff0c;又要与已有数据和系统&#xff08;甚…

FMC160-两路14位400Msps AD,两路16位400Msps DA FMC子卡模块

FMC160-两路14位400Msps AD&#xff0c;两路16位400Msps DA FMC子卡模块 一、概述   该板卡可实现2路14bit 400Msps AD 和2路16bit 400Msps DA功能&#xff0c;遵循 VITA 57 标准&#xff0c;板卡可以直接与VME/VXS/AMC/VPX/PCI-E FPGA 载板连接使用&#xff0c;用于模拟信…

23种设计模式-Python,优缺点场景与示例代码

今天我将与大家探讨软件开发中至关重要的一些概念——设计模式。无论你是初学者还是经验丰富的开发者&#xff0c;理解这些模式都将对你的编程技能有巨大的提升。 首先什么是设计模式&#xff1f; 设计模式是解决软件设计问题中常见问题的典型解决方案。它们是被多次实践验证…

Unity笔记之Android打包、减小包体之类的问题

打包问题 问题1&#xff1a; 一般大部分问题就是JDK、SDK、NDK之类的问题。现在是其他的问题&#xff0c;之前遇到过&#xff0c;好久没玩android了都忘了。 这试了半天&#xff0c;结果是需要有密钥库。那就给他创建一个填一下就行了 &#xff08;在网上看了半天&#xff…

在vue3中实现pptx、word、excel预览

插件推荐 PPTXjs vue-office 代码 <script setup lang"ts" name"home"> import { computed, nextTick, ref, onMounted } from vue; //引入VueOfficeDocx组件 import VueOfficeDocx from vue-office/docx; //引入VueOfficeExcel组件 import VueOf…

goproxy 简单介绍 及一键安装脚本

goproxy 官网 https://goproxy.cn/ GoProxy 是一项用于 Go 模块的高性能代理服务&#xff0c;旨在为 Go 开发人员提供更快速、更可靠的模块下载体验。它提供以下主要功能&#xff1a; 全球分布式代理服务器: GoProxy 在全球多个地区部署了代理服务器&#xff0c;例如拉斯维加…

ERA拓展之旅:2024香港Web3峰会聚焦全球Web3发展

2024年香港Web3大型峰会是一次令人难忘的体验。这次峰会吸引了来自世界各地的Web3爱好者和从业者齐聚一堂&#xff0c;共同探讨着Web3的未来发展方向与机遇。在这个热情洋溢的氛围中&#xff0c;展现了对Web3的热情&#xff0c;分享彼此的见解和理念&#xff0c;探讨了未来的行…

从吉客云到MySQL通过接口配置打通数据

从吉客云到MySQL通过接口配置打通数据 数据源系统:吉客云 吉客云是基于“网店管家”十五年电商ERP行业和技术积累基础上顺应产业发展需求&#xff0c;重新定位、全新设计推出的换代产品&#xff0c;从业务数字化和组织数字化两个方向出发&#xff0c;以构建流程的闭环为依归&am…

C++设计模式:门面模式(十二)

1、概念与定义 “接口隔离”模式&#xff1a;在组建构建过程中&#xff0c;某些接口之间直接的依赖常常会带来很多问题、甚至根本无法实现。采用添加一层间接&#xff08;稳定&#xff09;接口&#xff0c;来隔离本来相互紧密关联的接口是一种常见的解决方案。 门面设计模式定…

MATLAB 浮点数 转化为 定点数

a fi(v,s,w,f) 一个 fi 对象&#xff0c;其值为 v&#xff0c;符号性为 s&#xff0c;字长为 w&#xff0c;小数长度为 f。 AD9361 a fi(0.707,1,12,11)

Spring Boot 学习(4)——开发环境升级与项目 jdk 升级

各种版本都比较老&#xff0c;用起来也是常出各样的问题&#xff0c;终于找到一个看来不错的新教程&#xff0c;是原先那个教程的升级。遂决定升级一下开发环境&#xff0c;在升级遇到一些问题&#xff0c;摸索将其解决&#xff0c;得些体会记录备查。 最终确定开发环境约束如下…

使用geneHapR进行基因单倍型分析(以vcf文件为例)

前记 在群体基因组学研究中&#xff0c;我们常常需要知道一些位点的变异情况&#xff0c;以便于根据对应的表型信息估算这些位点的效应&#xff0c;同时了解这些位点在不同亚群之间的变化情况。这个时候我们就需要进行单倍型分析(Haplotype Analysis)&#xff0c;单倍型分析是研…