多智能体强化学习--MAPPO(pytorch代码详解)

标题

  • 代码详解
    • Actor和Critic网络的设置

代码详解

代码链接(点击跳转)
在这里插入图片描述

Actor和Critic网络的设置

  • 基本设置:3个智能体、每个智能体观测空间18维。
  • Actor网络:实例化一个actor对象,input-size是18
  • Critic网络:实例化一个Critic对象,input-size是18x3=54
  • 在choose_action调用actor网络的时候,传入的直接是三个智能体的参数,tensor_size=[3,18];也就是说,智能体之间是共用一套参数的,也就是参数共享;(三个18维向量之间是相互独立的,改变其中一个向量的值,经过神经网络后,只有他自己的输出值改变了,而其他两个向量仍然是原来的大小);
  • 在训练时,可以认为只有一个Critic网络,因此这叫做集中式训练;
  • 值得注意的是,Critic网络的实际输入的向量的值是[3,54]!!而这三个向量是一模一样的。
  • 关于reward,代码给出的实例是所有智能体共享同一奖励函数,因此将策略梯度算法扩展到多智能体场景下的最简单的方式就是每个智能体共用同一个全局 critic 函数。(但好像值分解的方法更合理一点)

2.box类

  • box类对应于多维连续空间
  • Box空间可以定义多维空间,每一个维度可以用一个最低值和最大值来约束
  • 定义一个多维的Box空间需要知道每一个维度的最小最大值,当然也要知道维数。
    在这里插入图片描述
    作者在文献附录中有谈到说如果智能体是同种类的就采用相同的网络参数,对于每个智能体内部也可以采用各自的actor和critic网络,但是作者为了符号的便利性,直接就用的一个网络参数来表示)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/362929.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

第 10 章:在C++中使用协程进行系统编程

最后一章专门介绍了一项对系统编程非常有用的功能,但这在C标准中相对较新。协程对象迅速找到了应用,成为了一等公民的状态机对象。它们的强大之处在于隐藏了协程帧后面的逻辑。请注意,这是一个高级主题,且C的协程接口既不简单也不…

C++(9) 虚函数

文章目录 虚函数1. 虚函数1.1 虚函数案例11.2 虚函数案例21.2 纯虚函数1.3 纯虚函数语法要求总环1.4 纯虚函数应用1.4.1 生活案例1.4.2 虚函数引用代码 虚函数 1. 虚函数 1.1 虚函数案例1 #include <iostream>using namespace std;class Animal { public:// Animal 类…

神经网络与深度学习Pytorch版 Softmax回归 笔记

Softmax回归 目录 Softmax回归 1. 独热编码 2. Softmax回归的网络架构是一个单层的全连接神经网络。 3. Softmax回归模型概述及其在多分类问题中的应用 4. Softmax运算在多分类问题中的应用及其数学原理 5. 小批量样本分类的矢量计算表达式 6. 交叉熵损失函数 7. 模型预…

VMware虚拟机安装统信uos桌面专业版操作系统系统

统信uos桌面版版本对比:https://www.uniontech.com/next/product/desktop-contrast专业版只要是面向政企等单位,这里只是用虚拟机安装测试基本功能使用,对于我们个人要长期使用的话可以使用家庭版或者社区版 1镜像下载 1.1打开官网 镜像在统信生态社区下载统信生态社区官网:…

【pytest系列】- assert断言的使用

&#x1f525; 交流讨论&#xff1a;欢迎加入我们一起学习&#xff01; &#x1f525; 资源分享&#xff1a;耗时200小时精选的「软件测试」资料包 &#x1f525; 教程推荐&#xff1a;火遍全网的《软件测试》教程 &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1…

Vue打包后,页面样式出现混乱,刷新即可恢复正常

错误效果 本地上的样式完全正常&#xff0c;打包后的页面第一次进入出现样式错误的现象&#xff0c;刷新一次就恢复正常了 正确效果 找到问题 异常情况是右上方我圈出来的部分&#xff0c; .spContent .conTitle{} 是这个Live Video的样式类&#xff0c; 但是页面中也使用了…

Vue之状态管理的简单使用(事件总线(Event Bus),Vuex和若依前端示例)

文章目录 Vue之状态管理的简单使用&#xff08;事件总线&#xff08;Event Bus&#xff09;&#xff0c;Vuex和若依前端示例&#xff09;Vue之事件总线&#xff08;Event Bus&#xff09;的简单使用Vuex进行状态管理的简单使用若依前端代码store状态管理&#xff1a; Vue之状态…

机械师K7 87键盘拆解螺丝位置

拆键盘不需要拔掉所有键盘帽,只需要拔掉螺丝位置所在的两侧键帽就可以. 红色①-⑮是螺丝所在位置,一般在两个键帽中间下面位置就是螺丝. 拆开以后电池仓尺寸:4CM*9CM , 适合的电池型号:504080型 50:电池厚度50mm 40:电池宽度40mm 80:电池长度80mm 插头是:1.25红黑头 TB都可以买…

VR全景技术如何运用在文旅展示,VR全景技术对景区有哪些好处

引言&#xff1a; 随着科技的不断进步和社会的不断发展&#xff0c;VR全景技术越来越受到人们的关注。在文化旅游行业中&#xff0c;VR全景技术的应用为景区提供了全新的展示方式和体验内容&#xff0c;极大地丰富了游客的文化旅游体验。那么VR全景技术能给文旅展示带来哪些好…

Windows 10 系统重装太简单了,U盘、PE已经成为历史

虽时至今日&#xff0c;Windows 系统的越来越现代化&#xff0c;连安装方式越简单很多。使用微软官方的安装程序&#xff0c;几乎可以像安装软件一样安装系统。本文将推荐几种小淙比较喜欢的 Windows 10 系统重装方式&#xff0c;大家可以按照教程说明操作。 注意&#xff1a;…

Hive中left join 中的where 和 on的区别

目录 一、知识点 二、测试验证 三、引申 一、知识点 left join中关于where和on条件的知识点&#xff1a; 多表left join 是会生成一张临时表。on后面&#xff1a; 一般是对left join 的右表进行条件过滤&#xff0c;会返回左表中的所有行&#xff0c;而右表中没有匹配上的数…

Unity中开发程序打包发布

添加ESC脚本 使用Unity打包发布的过程中&#xff0c;考虑到打开的程序会处于全屏界面&#xff0c;而此时我们又会有退出全屏的需求&#xff0c;因此需要添加ESC脚本&#xff0c;当我们单击ESC脚本的过程中&#xff0c;退出全屏模式。 在Assets/Scenes下&#xff0c;创建esc.cs…

正弦波拟合

正弦波拟合是一种常见的数学方法&#xff0c;用于确定最佳匹配给定数据集的正弦波形。这可以用于各种应用&#xff0c;如信号处理、周期性数据分析等。以下举例展示如何进行正弦波拟合。 步骤与方法 收集数据&#xff1a;首先&#xff0c;你需要收集或生成一组数据&#xff0…

陪诊小程序系统专业开发:从需求分析到用户体验

随着社会老龄化程度的加深&#xff0c;以及人们对医疗服务需求的增加&#xff0c;陪诊服务逐渐成为一种重要的社会服务。为了满足这种需求&#xff0c;陪诊小程序系统应运而生。本文将探讨陪诊小程序系统的专业开发&#xff0c;包括需求分析、系统设计、技术实现和用户体验等方…

《区块链简易速速上手小册》第8章:区块链的技术挑战(2024 最新版)

文章目录 8.1 可扩展性问题8.1.1 基础知识8.1.2 主要案例&#xff1a;比特币的可扩展性挑战8.1.3 拓展案例 1&#xff1a;以太坊的可扩展性改进8.1.4 拓展案例 2&#xff1a;侧链和分层解决方案 8.2 安全性与隐私8.2.1 基础知识8.2.2 主要案例&#xff1a;比特币交易的安全性8.…

若依框架快速入门

首先看若依文档 一般情况下&#xff0c; ruoyi-system是储存后台代码的&#xff0c; ruoyi-ui是储存前端代码的 1.拉取代码 2.若依的结构 3.运行SQL脚本 sql文件夹中是有两个sql脚本的&#xff0c;这两个脚本都是若依开源项目的必须脚本&#xff0c;需要运行在你自己 的数…

Django中的模板

目录 一:基本概念 二&#xff1a;模板继承 在Django中&#xff0c;模板是用于呈现动态内容的HTML文件。它们允许你将动态数据与静态模板结合起来&#xff0c;生成最终的HTML页面。 Django模板使用特定的语法和标签来插入动态内容。你可以在模板中使用变量、过滤器和标签来控…

XVC768AE102 3BHB007211R0102

XVC768AE102 3BHB007211R0102 XVC768AE102 3BHB007211R0102 基于CAN总线接口和模块控制器实现组合机床电控通信系统的设计 "... 并联组合机床电控的数据采集模块和CAN总线组成。 本文研究的 ... 。 监控主机通过CAN总线从各模块获取现场控制数据&#xff0c;监控整个系…

头戴式耳机什么牌子性价比高?公认高性价比的头戴式耳机推荐

头戴式耳机作为现代音乐与声音体验的必备品&#xff0c;一直以来都备受消费者的关注&#xff0c;那么&#xff0c;在众多的品牌中&#xff0c;哪些头戴式耳机的性价比最高呢&#xff1f;本文将为你揭晓这个秘密&#xff0c;推荐一些公认的高性价比头戴式耳机&#xff0c;让你在…

C/C++实现无序入参的命令解析工具

C/C实现无序入参的命令解析工具 1 实现思路2 主要功能3 效果展示3.1 直接运行代码图3.2help命令执行效果图3.3命令行执行命令解析效果图 4 代码实现5 代码下载 1 实现思路 基本介绍&#xff1a; 思路来源于atlas,atc(模型转换工具)&#xff0c;该工具对命令支持众多&#xff0…