Humanoid-Gym 开源人形机器人端到端强化学习训练框架!星动纪元联合清华大学、上海期智研究院发布!

系列文章目录


前言

Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer

GitHub Repository: GitHub - roboterax/humanoid-gym: Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer


一、介绍

Humanoid-Gym是一个基于Nvidia Isaac Gym的易于使用的强化学习(RL)框架,旨在训练仿人机器人的运动技能,强调从仿真到真实世界环境的零误差转移。Humanoid-Gym 还集成了一个从 Isaac Gym 到 Mujoco 的仿真到仿真框架,允许用户在不同的物理仿真中验证训练好的策略,以确保策略的鲁棒性和通用性。

RobotEra 的 XBot-S(身高 1.2 米的仿人机器人)和 XBot-L(身高 1.65 米的仿人机器人)在真实环境中对该代码库进行了验证,实现了模拟到现实的零距离传输。

用于评估的机器人硬件平台

二、仿真环境搭建

 

欢迎访问我们的 Humanoid-Gym!

Humanoid-Gym 是一个基于 Nvidia Isaac Gym 的易于使用的强化学习(RL)框架,旨在训练仿人机器人的运动技能,强调从仿真到真实环境的零误差转移。Humanoid-Gym 还集成了从 Isaac Gym 到 Mujoco 的仿真到仿真框架,允许用户在不同的物理仿真中验证训练好的策略,以确保策略的鲁棒性和通用性。

RobotEra 的 XBot-S(身高 1.2 米的仿人机器人)和 XBot-L(身高 1.65 米的仿人机器人)在真实环境中对该代码库进行了验证,实现了模拟到现实的零距离传输。

2.1 特点

1. 仿人机器人训练

该库为仿人机器人的训练提供全面的指导和脚本。Humanoid-Gym 具有针对仿人机器人的专门奖励,简化了模拟到真实转移的难度。在本资源库中,我们以 RobotEra 的 XBot-L 为主要示例。只需稍作调整,也可用于其他机器人。我们的资源包括设置、配置和执行。我们的目标是通过提供深入的训练和优化,让机器人为真实世界的运动做好充分准备。

全面的训练指南: 我们为训练过程的每个阶段提供详尽的演练。
逐步配置说明: 我们的指导清晰简洁,可确保高效的设置过程。
易于部署的执行脚本: 利用我们预先准备好的脚本,简化培训工作流程。

2. Sim2Sim 支持

sim2sim 管道,使您能够将训练有素的策略转移到高精度和精心设计的仿真环境中。获得机器人后,您就可以放心地在真实环境中部署经过 RL 训练的策略。

我们的仿真器设置,尤其是 Mujoco 的设置,都经过了精心调整,以接近真实世界的场景。这种细致的校准确保了仿真环境和真实世界环境中的性能密切吻合。这一改进使我们的仿真更可信,增强了我们对仿真适用于真实世界场景的信心。

3. 去噪世界模型学习(即将推出)

去噪世界模型学习(DWL)提出了一种先进的模拟到现实框架,将状态估计和系统识别融为一体。这种双方法确保机器人的学习和适应在现实世界中既实用又有效。

增强的仿真适应性: 优化机器人从仿真环境过渡到真实环境的技术。
改进的状态估计能力: 用于精确可靠的状态分析的先进工具。

2.2 安装

用 Python 3.8 生成一个新的 Python 虚拟环境,使用 

conda create -n myenv python=3.8

为获得最佳性能,我们建议使用 NVIDIA 驱动程序版本 525

sudo apt install nvidia-driver-525

。支持的最低驱动程序版本为 515。如果无法安装 525 版本,请确保系统至少有 515 版本,以维持基本功能。
使用 Cuda-11.7 安装 PyTorch 1.13:

conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.7 -c pytorch -c nvidia

使用

conda install numpy=1.23

安装 numpy-1.23。
安装 Isaac Gym:
从以下地址下载并安装 Isaac Gym Preview 4

Isaac Gym - Preview Release | NVIDIA Developer.

cd isaacgym/python && pip install -e .

 使用

cd examples && python 1080_balls_of_solitude.py

运行示例。
有关故障排除,请参阅 isaacgym/docs/index.html。
安装 Humanoid-Gym:
克隆此软件源。

cd humanoid_gym && pip install -e .

2.3 使用指南

示例

# Launching PPO Policy Training for 'v1' Across 8192 Environments
# This command initiates the PPO algorithm-based training for the humanoid task.
python scripts/train.py --task=humanoid_ppo --run_name v1 --headless --num_envs 8192

# Evaluating the Trained PPO Policy 'v1'
# This command loads the 'v1' policy for performance assessment in its environment. 
# Additionally, it automatically exports a JIT model, suitable for deployment purposes.
python scripts/play.py --task=humanoid_ppo --run_name v1

# Implementing Simulation-to-Simulation Model Transformation
# This command facilitates a sim-to-sim transformation using exported 'v1' policy.
python scripts/sim2sim.py --load_model /path/to/logs/XBot_ppo/exported/policies/policy_1.pt

# Run our trained policy
python scripts/sim2sim.py --load_model /path/to/logs/XBot_ppo/exported/policies/policy_example.pt

1. 默认任务

humanoid_ppo

目的: 基准、PPO 策略、多坐标系低级控制
观察空间: 可变 (47 X H) 维度,其中 H 为坐标系帧数

[O_{t-H}\ldots O_t]
权限信息: 73 维
humanoid_dwl (即将推出)

2. PPO 策略

训练命令: 如需训练 PPO 策略,请执行

python humanoid/scripts/train.py --task=humanoid_ppo --load_run log_file_path --name run_name

运行训练有素的保单: 要部署训练有素的 PPO 政策,请使用

python humanoid/scripts/play.py --task=humanoid_ppo --load_run log_file_path --name run_name

默认情况下,将加载实验文件夹中最后一次运行的最新模型。不过,也可以通过调整训练配置中的 load_run 和 checkpoint 来选择其他运行迭代/模型。

3. Sim-to-sim

基于 Mujoco 的 Sim2Sim 部署: 使用下面的命令利用 Mujoco 执行仿真到仿真 (sim2sim) 部署:

python scripts/sim2sim.py --load_model /path/to/export/model.pt

4. 参数

CPU 和 GPU 使用情况: 要在 CPU 上运行仿真,请同时设置 --sim_device=cpu 和 --rl_device=cpu。对于 GPU 操作,请相应指定 --sim_device=cuda:{0,1,2...} 和 --rl_device={0,1,2...}。请注意,CUDA_VISIBLE_DEVICES 并不适用,因此必须匹配 --sim_device 和 --rl_device 设置。
无头操作: 包括 --headless,用于无渲染操作。
渲染控制: 按 "v "键可在训练过程中切换渲染。
策略位置: 训练后的策略保存在 humanoid/logs/<experiment_name>/<date_time>_<run_name>/model_<iteration>.pt 中。

5. 命令行参数

关于 RL 训练,请参考人形机器人/utils/helpers.py#L161。关于模拟到模拟过程,请参阅 humanoid/scripts/sim2sim.py#L169。

2.4 代码结构

每个环境都取决于一个 env 文件 (legged_robot.py) 和一个配置文件 (legged_robot_config.py)。后者包含两个类: LeggedRobotCfg(包含所有环境参数)和 LeggedRobotCfgPPO(表示所有训练参数)。
env 和 config 类都使用继承。
cfg 中指定的非零奖励标度会为总奖励贡献一个相应名称的函数。
任务必须使用 task_registry.register(name,EnvClass,EnvConfig,TrainConfig)进行注册。注册可以在 envs/__init__.py 中进行,也可以在本资源库之外进行。

2.5 添加新环境

基本环境 legged_robot 构建了一个粗糙地形运动任务。相应的配置没有指定机器人资产(URDF/ MJCF),也没有奖励标度。

如果需要添加新环境,请在 envs/ 目录下新建一个文件夹,并将配置文件命名为 <your_env>_config.py。新配置应继承现有环境配置。
如果提议使用新机器人
在 resources/ 文件夹中插入相应的资产。
在 cfg 文件中,设置资产路径,定义体名、默认关节位置和 PD 增益。指定所需的 train_cfg 和环境名称(python 类)。
在 train_cfg 中,设置 experiment_name 和 run_name。
必要时,在 <your_env>.py 中创建环境。继承现有环境,覆盖所需的功能和/或添加自己的奖励功能。
在人形机器人/envs/__init__.py 中注册环境。
根据需要修改或调整 cfg 或 cfg_train 中的其他参数。要移除奖励,请将其比例设为零。避免修改其他环境的参数!

2.6 故障排除

请注意以下情况:

# error
ImportError: libpython3.8.so.1.0: cannot open shared object file: No such file or directory

# solution
# set the correct path
export LD_LIBRARY_PATH="~/miniconda3/envs/your_env/lib:$LD_LIBRARY_PATH" 

# OR
sudo apt install libpython3.8

# error
AttributeError: module 'distutils' has no attribute 'version'

# solution
# install pytorch 1.12.0
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

# error, results from libstdc++ version distributed with conda differing from the one used on your system to build Isaac Gym
ImportError: /home/roboterax/anaconda3/bin/../lib/libstdc++.so.6: version `GLIBCXX_3.4.20` not found (required by /home/roboterax/carbgym/python/isaacgym/_bindings/linux64/gym_36.so)

# solution
mkdir ${YOUR_CONDA_ENV}/lib/_unused
mv ${YOUR_CONDA_ENV}/lib/libstdc++* ${YOUR_CONDA_ENV}/lib/_unused

2.7 致谢

Humanoid-Gym 的实现依赖于机器人系统实验室(Robotic Systems Lab)创建的 legged_gym 和 rsl_rl 项目的资源。我们特别利用了他们研究中的 LeggedRobot 实现来增强我们的代码库。

2.8 引用

如果您使用本代码或其部分内容,请引用以下内容: 

@software{RobotEra2024Humanoid-Gym,
  author = {RobotEra},
  title = {{Humanoid-Gym: Reinforcement Learning for Humanoid Robot with Zero-Shot Sim2Real Transfer}},
  url = {https://github.com/roboterax/humanoid-gym},
  year = {2024}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/440945.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一键查看:大厂网站都用了啥技术栈,有图有真相。

本次我们采用Wappalyzer插件来看下国内大厂的网站都采用了什么技术架构&#xff0c;文章最后由Wappalyzer的安装方法。 今日头条网站 淘宝网站 哔哩哔哩 京东商城 花瓣网 CSDN 国务院 网易 58同城 腾讯网 如何安装Wappalyzer 用Edge浏览器即可

软考70-上午题-【面向对象技术2-UML】-UML中的图1

一、图的定义 图是一组元素的图形表示&#xff0c;大多数情况下把图画成顶点、弧的联通图。 顶点&#xff1a;代表事物&#xff1b; 弧&#xff1a;代表关系。 可以从不同的角度画图&#xff0c;UML提供了13种图&#xff1a;&#xff08;只看9种&#xff09; 类图&#xff…

内联函数|auto关键字|范围for的语法|指针空值

文章目录 一、内联函数1.1概念1.2特性 二、auto关键字2.2类型别名思考2.3auto简介2.4auto使用细则2.4 auto不能推导的场景 三、基于范围的for循环(C11)3.1 范围for的语法 四、指针空值nullptr(C11)4.1 C98中的指针空值 所属专栏:C初阶 一、内联函数 1.1概念 以inline修饰的函…

内部订单预算管理 在建工程项目结转流程以及用户操作步骤

业务流程概述: 所有的内部定单(项目)在月底时都必须将当月发生的费用按结算规则结转到在建工程卡片中。为保证结转的正确性,在系统中可以先查看项目费用的明细表后再由系统自动结转到在建工程卡片中。 对于已竣工的项目,还需要到系统中查看项目报表,根据报表将工程实际发生…

【人工智能入门必看的最全Python编程实战(2)】

4.4.2 复合语句&#xff1a; if语句&#xff0c;当条件成立时执行语句包。它经常包含elif、else子句。while语句&#xff0c;当条件为真时&#xff0c;重复执行语句包。for语句&#xff0c;遍历列表、字符串、字典、集合等迭代器&#xff0c;依次处理迭代器中的每个元素。matc…

设计模式——2_4 中介者(Mediator)

我寄愁心与明月&#xff0c;随风直到夜郎西 ——李白《闻王昌龄左迁龙标遥有此寄》 文章目录 定义图纸一个例子&#xff1a;怎么调度一组地铁站台和地铁开车指挥中心 碎碎念中介者和表单平台思想但是这种平台便利性是要付出代价的变化隔离原则 姑妄言之 定义 用一个中介者对象…

吴恩达机器学习-可选实验室:特征工程和多项式回归(Feature Engineering and Polynomial Regression)

文章目录 目标工具特征工程和多项式回归概述多项式特征选择功能备用视图扩展功能复杂的功能 恭喜! 目标 在本实验中&#xff0c;你将:探索特征工程和多项式回归&#xff0c;它们允许您使用线性回归的机制来拟合非常复杂&#xff0c;甚至非常非线性的函数。 工具 您将利用在以…

PageHelper 又给我上了一课!

多年不用PageHelper了&#xff0c;最近新入职的公司&#xff0c;采用了此工具集成的框架&#xff0c;作为一个独立紧急项目开发的基础。项目开发起来&#xff0c;还是手到擒来的&#xff0c;但是没想到&#xff0c;最终测试的时候&#xff0c;深深的给我上了一课。 # 我的项目发…

SpringCloud-SpringBoot读取Nacos上的配置文件

在 Spring Boot 应用程序中&#xff0c;可以使用 Spring Cloud Nacos 来实现从 Nacos 服务注册中心和配置中心读取配置信息。以下是如何在 Spring Boot 中读取 Nacos 上的配置文件的步骤&#xff1a; 1. 引入依赖 首先&#xff0c;在 Spring Boot 项目的 pom.xml 文件中添加 …

2007-2022年上市公司迪博内部控制评价缺陷数量数据

2007-2022年上市公司迪博内部控制评价缺陷数量数据 1、时间&#xff1a;2007-2022年 2、范围&#xff1a;上市公司 3、指标&#xff1a;证券代码、证券简称、辖区、证监会行业、申万行业、是否存在财报内控重大缺陷、财报内控重大缺陷数量、是否存在财报内控重要缺陷、财报内…

亚信安慧AntDB:“融合+实时”引领数据库创新

在当今多变的数据应用场景中&#xff0c;AntDB作为行业领先的超融合流式实时数仓&#xff0c;秉承着“融合实时”的研发理念&#xff0c;全面应对企业日益复杂的数据处理需求。通过SQL接口访问多种执行引擎&#xff0c;AntDB在实现交易、分析等多重能力的“超融合”方面取得了显…

智能指针基础知识【C++】【RAII思想 || unique_ptr || shared_ptrweak_ptr || 循环引用问题】

目录 一&#xff0c;为什么需要智能指针 二&#xff0c;内存泄露的基本认识 1. 内存泄露分类 2. 常见的内存检测工具 3&#xff0c;如何避免内存泄露 三&#xff0c;智能指针的使用与原理 1. RAII思想 2. 智能指针 &#xff08;1. unique_ptr &#xff08;2. shared_…

CSS补充(下),弹性布局(上)

高级选择器 1.兄弟选择器 2.同时满足 div.bg{background-color: red;}p.bg{background-color: green;}spam.bg{background-color: blue;}注&#xff1a;选择器中间没有空格&#xff0c;有明确标识的选择器写在后面 3.各种伪类的应用 3.1作为第几个子元素 选择器:nth-child…

达梦数据库——如何查看数据库大字段中的数据内容

今天get到一个小知识点 分享给大家&#xff0c;如何在数据库查看大字段中的数据内容。 以下为演示步骤&#xff0c;简单易懂&#xff0c;操练起来吧 首先创建一个含有CLOB、TEXT的大字段测试表 create table "SYSDBA"."CS"("COLUMN_1" CLOB,&qu…

Xilinx 7系列 FPGA硬件知识系列(九)——FPGA的配置

1.3 端口配置 每组配置模式都有一组特定的接口管脚&#xff0c;它们跨越7系列FPGA上的一个或多个I/O BANK。7系列器件支持3.3V、2.5V、1.8V或1.5V的I/O配置&#xff0c;包括&#xff1a; BANK 0 中的JTAG管脚、BANK0中的专用配置管脚 BANK14和BANK15中与特定配置模式相关的管…

Windows下Node.js安装保姆级教程

一、Node.js 下载 访问Node.js官网&#xff0c;点击下载Node.js 下载完成后即可在下载文件中查看安装包 二、安装 一&#xff09;点击安装包开始安装&#xff0c;进入Weclcome界面点击Next 二&#xff09;勾选同意协议&#xff0c;点击Next 三&#xff09;根据需要选择安装路…

a-calendar的日历如何汉化

ant design中的日历默认拿来用时英文的&#xff0c;如何汉化&#xff0c;如下操作&#xff0c;在日历组件外面包一个<a-config-provider></a-config-provider> &#xff0c;如下操作&#xff1a; <template><a-config-provider :locale"zhCN"&…

合并有序数组

合并有序数组 题目描述&#xff1a;解法思路&#xff1a;解法代码&#xff1a;运行结果&#xff1a; 题目描述&#xff1a; 输入两个升序排列行的序列&#xff0c;将两个序列合并为一个有序序列并输出。 输入包含三行&#xff0c;第一包含两个正整数n, m&#xff0c;用空格分隔…

【Web安全】htaccess攻击

.htaccess攻击 文章目录 .htaccess攻击1. .htaccess文件2. 常见用法2.1. 自定义出错界面2.2. 强制文件执行方式2.3. PCRE绕过正则匹配2.4. php_value修改php设定2.5. php_value文件包含2.6. 把htaccess当作php 1. .htaccess文件 .htaccess是Apache网络服务器一个配置文件&#…

JavaWeb——014SpringBoot原理(配置优先级、Bean管理、SpringBoot原理)

SpingBoot原理 目录 SpingBoot原理1. 配置优先级2. Bean管理2.1 获取Bean2.2 Bean作用域2.3 第三方Bean 3. SpringBoot原理3.1 起步依赖3.2 自动配置3.2.1 概述3.2.2 常见方案3.2.2.1 概述3.2.2.2 方案一3.2.2.3 方案二 3.2.3 原理分析3.2.3.1 源码跟踪3.2.3.2 Conditional 3.2…