强化学习-MAPPO算法解析与实践-Multi Agent Proximal Policy Optimization

一 算法简介

        mappo 是一种将ppo算法扩展到多智能体情况的算法,在讨论过这种算法的论文中,比较有名和权威的是Nips2021上发表的《The Surprising Effectiveness of PPO in Cooperative》。比较遗憾的是,可能作者出于自己不是最早提出mappo算法的人的原因,论文中并没有将mappo算法的具体实现作详细介绍(而最早提出mappo的论文又没有附上代码),我们只能根据其提供的代码和论文中粗略的描述来进行学习。

1. 网络结构

        和单智能体ppo算法一样,mappo算法中每个智能体都有各自的actor 网络和 critic网络(如果所有智能体的状态空间和动作空间也相同,即同构,也可以所有智能体共享一套actor和critic网络)。与单智能体ppo不同的是,mappo的critic网络可以接收有关全局状态的信息,这个全局状态可以是由所有智能体的观察拼接而成,也可以是环境直接提供。

2.损失函数

        和单智能体ppo算法一样,损失函数由acrot loss和critic loss组成

        actor loss 为 最小化负的代理在当前策略下的预期累积奖励 -E[ \frac{\pi(a|S_t;\theta) }{\pi(a|S_t;\theta_k)} A_t]

        critic loss 为 回报和状态价值函数的均方差  [(G_t-V(s,w))]^{2}

3.采样和更新方式

关于采样和更新,论文中没有介绍细节,本段从代码中总结。

3.1采样

        如智能体间不共享参数,即每个智能体有各自的actor和critic网络,则给每个智能体建立一个replaybuffer,将该智能体交互中获得的 st,at,r,st+1 存入对应的replaybuffer中。另在replaybuffer中增加mask 组,记录每一时刻智能体是否存活,以便后续死亡的智能体后续数据不用于更新网络。一般情况下不同智能体间不共享奖励。

        每个智能体决策时,可以不把其他智能体的动作加入观察,可以正常收敛。

                                                  图一:env_runner.py中采样过程

3.2更新

         如智能体间不共享参数,则针对每一个智能体分别从replaybuffer中抽样,训练其网络,其更新函数与ppo更新函数整体一致,出了增加了GAE、value normlization等trick

                                                图二:base_runner.py中采样过程 

4.必要的trick

4.1 GAE和Value Normalization

        论文中虽未对网络做出具体介绍,但是使用的trick给了很多笔墨。GAE和Value Normalization就是其中之二,也是最通用的两个trick。GAE是对价值函数的一种平衡方法,价值函数V的评估方法中,一步TD的方差小,偏差大,而蒙特卡洛法的偏差小,方差大,为了结合两种算法,GAE(generalized advantage estimator)是对优势函数A的估计,它用从TD(0) 到TD(n)的加权和表示V,进而估计优势函数A,TD(0) 到TD(n)权重之和是一, n代表改慕结束的步数。【有点像离线 λ 回报算法思想】

        Value Normalization是在训练时对critic网络输出的V值归一化,即减去均值除以方差,作者认为这样使得训练更加稳定。但是在计算GAE时又对归一化的V反归一化恢复了原值。

                                                图三:MAPPO论文中关于Value Normalization 

                                                图四:GAE公式来自CSDN@星之所望  

4.2其他trick

        论文中还包括其他trick,通用性和重要度不如4.1,不再详细展开分别为:

        建议1:When available, include both local, agent-specific features and global features in the value function input. Also check that these features do not unnecessarily increase the input dimension.

        建议2:Use at most 10 training epochs on difficult environments and 15 training epochs on easy environments. Additionally, avoid splitting data into mini-batches

        建议3:For the best PPO performance, maintain a clipping ratio ϵ under 0.2; within this range, tune ϵ as a trade-off between training stability and fast convergence

        建议4:Utilize a large batch size to achieve best task performance with MAPPO. Then, tune the batch size to optimize for sample-efficiency.

二 算法实践

1.环境介绍

        使用ma_gym 环境中的combat环境进行实践,该环境可从github下载

        ma-gym 库中的 Combat 环境。Combat 是一个在二维的格子世界上进行的两个队伍的对战模拟游戏,每个智能体的动作集合为:向四周移动格,攻击指定敌方智能体(因而动作空间随敌方智能体增多增多,动作空间维数=4+n+1,4代表上下左右移动,n代表攻击敌方n号智能体),或者不采取任何行动。起初每个智能体有 3 点生命值,如果智能体在敌人的攻击范围内被攻击到了,则会扣 1 生命值,生命值掉为 0 则死亡,最后存活的队伍获胜。每个智能体的攻击有一轮的冷却时间。

        本次实验旨在验证多智能体ppo,所以设置双方智能体为4.

2.实验代码

        mappo训练代码选用github上 light-mappo 项目代码这是一个轻量化的mappo算法

        下载代码后将ma_env放进项目根目录下,修改env_core.py代码如下

import time

import numpy as np

from ma_gym.envs.combat.combat import Combat
class EnvCore(object):
    """
    # 环境中的智能体
    """

    def __init__(self):
        self.agent_num = 4  # 设置智能体(小飞机)的个数,这里设置为两个 # set the number of agents(aircrafts), here set to two
        team_size = self.agent_num
        grid_size = (15, 15)
        self.env = Combat(grid_shape=grid_size, n_agents=team_size, n_opponents=team_size)
        self.obs_dim = 150  # 设置智能体的观测维度 # set the observation dimension of agents
        self.action_dim = self.env.action_space[0].n  # 设置智能体的动作维度,这里假定为一个五个维度的 # set the action dimension of agents, here set to a five-dimensional

    def reset(self):


        s = self.env.reset()
    
        sub_agent_obs = []
        for i in range(self.agent_num):
            sub_obs = np.array(s[i])#np.random.random(size=(14,))
            sub_agent_obs.append(sub_obs)
        return sub_agent_obs

    def step(self, actions):
      
        self.env.render("human")
        time.sleep(0.4)
        sub_agent_obs = []
        sub_agent_reward = []
        sub_agent_done = []
        sub_agent_info = []
        action_index = [int(np.where(act==1)[0][0]) for act in actions]
        next_s, r, done, info = self.env.step(action_index)
        for i in range(self.agent_num):
            # r[agent_i] + 100 if info['win'] else r[agent_i] - 0.1
            sub_agent_obs.append(np.array(next_s[i]))
            sub_agent_reward.append([r[i] + 100 if info['win'] else r[i] - 0.1])
            sub_agent_done.append(done[i])
            sub_agent_info.append(info)

        return [sub_agent_obs, sub_agent_reward, sub_agent_done, sub_agent_info]

3.实验设置

        保持其他参数一致,分别设置四个智能体工艺同一套网络参数和4套网络参数进行实验。 旨在观察同一套参数控制同构智能体和不同参数控制同构智能体有什么不同。

4.实验结果

不同网络参数下智能体收敛曲线:

 

 

 

采用相同 网络参属下智能体收敛情况

 

由上图比较得,其他条件相同下,采用同一模型的多智能体和采用不同模型的多智能体都能正常收敛, 采用同一模型的多智能体收敛速度和程度略高于采用不同模型的智能体

5.效果demo

MAPPO 算法训练多智能体联合对抗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/578968.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Avalonia UI跨平台WPF

Avalonia是一个强大的框架,使开发人员能够使用.NET创建跨平台应用程序。 它使用自己的渲染引擎绘制UI控件,确保在Windows、macOS、Linux、Android、iOS和WebAssembly等不同平台上具有一致的外观和行为。 官网链接: 官网链接 文档链接&#…

mstsc 远程桌面由于以下原因之一无法连接到远程计算机

问题 想使用win自带的局域网远程工具mstsc远程连接电脑。如何连接:只需要两台电脑在同一个局域网内,然后使用被远程电脑的ip地址、Microsoft用户名和密码。 但是连接的时候会跳出来如下提示: 远程桌面由于以下原因之一无法连接到远程计算机…

【每日刷题】Day23

【每日刷题】Day23 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 138. 随机链表的复制 - 力扣(LeetCode) 2. 链表的回文结构_牛客题霸_牛客网 …

C++11新特性:lambda表达式

目录 1.lambda表达式 1.1 C98中的一个例子 1.2 lambda表达式 1.3 lamzbda表达式语法 1. lambda表达式各部分说明 2. 捕获列表说明 1.4 函数对象与lambda表达式 1.lambda表达式 1.1 C98中的一个例子 在C98中,如果想要对一个数据集合中的元素进行排序&#xff0…

spring的常用注解

目录 1.前言 2.web url映射 2.1RequestMapping 2.2PostMapping 2.3GetMapping 3.参数接受和接口响应 3.1RequestParam 3.2RequstBoby 3.3ResponseBoby 3.4RestController 4.bean的存储 4.1Controller 4.2Service 4.3Repository 4.4Compontent 4.5Configuration …

判断n以内的素数个数的五种方法+时间对比

目录 方法一:暴力法 复杂度 方法二:跨度为6的倍数的优化 复杂度 方法三:埃氏筛法 复杂度 方法四:埃氏筛法的改良 复杂度 方法五:线性筛 复杂度 性能对比测试 练习 方法一:暴力法 就是写一个函…

Nacos 集群 On K8s 实践服务注册发现、服务动态配置

一、K8s 部署 Nacos 集群 安装规划 组件replicas类型mysql1StatefulSetnacos3StatefulSet 使用 k8s 版本为:v1.18.0 。 本次使用 OpenEBS 来作为存储引擎,OpenEBS 是一个开源的、可扩展的存储平台,它提供了一种简单的方式来创建和管理持久…

JavaEE——Spring Boot入门

目录 📚 JavaEE——Spring Boot入门 🔧 1. 新建Spring Boot项目 🛠 2. 添加pom依赖 📝 3. 添加application.yml文件 📂 4. 创建Dao层 🔧 5. 创建Service层 🖥️ 6. 创建Controller层及HT…

easyExcel快速入门

目录 🧂1.简单介绍 🌭2.快速入门 🥓1.导入依赖 🍿2.导出到excel 🎏3.读入数据 🎉4.下载 1.简单介绍 传统操作Excel大多都是利用Apach POl进行操作的,但是POI框架并不完善,使用过程非常繁琐且有较多…

redisson分布式锁的单机版应用

package com.redis;/*** author linn* date 2024年04月23日 15:31*/ import org.redisson.Redisson; import org.redisson.api.RedissonClient; import org.redisson.config.Config; import org.springframework.context.annotation.Bean; import org.springframework.context.…

多端文件互传软件-LocalSend

一、前言 日常学习或者是工作需求,需要手机和电脑互传文件。用到频率低的话,使用即时通讯软件也就够了。 像我日常使用的多端互传文件软件是LocalSend。 二、 LocalSend LocalSend是一款基于局域网的文件传输工具。 LocalSend是一种用于在本地网络中…

super与this

目录 原型链与继承继承中的原型链 classsuper与this 我们可能会对一个问题感到好奇:为什么在派生类中,我们需要在调用this之前调用super。我们通常将其视为一种规范,却很少深入探究这个规范的真正意义。许多人认为super不过是ES6之前继承方式…

SpringBoot 3.2.5 引入Swagger(OpenApi)

SpringBoot 3.2.5 引入Swagger(OpenApi) pom文件配置文件启动类Controller 层ApiFox题外话 springdoc-openapi 和 swagger 都可以用,用其中一个就行,不用两个都引入。 这里简单记录以下springdoc-openapi。 springdoc-openapi(J…

每日算法之两两交换链表中的节点

题目描述 给你一个链表,两两交换其中相邻的节点,并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题(即,只能进行节点交换)。 示例 1: 输入:head [1,2,3,4] 输出&…

sheng的学习笔记-AI-支持向量机(SVM)

目录:sheng的学习笔记-AI目录-CSDN博客 目录 什么是向量机 SVM算法原理 SVM基本模型 SVM对偶问题 什么是对偶问题: 为什么使用对偶问题 拉格朗日定理 拉格朗日乘子法 对偶问题算法 非线性SVM算法原理 核函数 常用核函数 软间隔与正则化 软…

RabbitMQ-死信队列

面试题:你们是如何保证消息不丢失的? 1、什么是死信 在 RabbitMQ 中充当主角的就是消息,在不同场景下,消息会有不同地表现。 死信就是消息在特定场景下的一种表现形式,这些场景包括: 1. 消息被拒绝访问&…

教你一分钟快速部署 Llama3 中文大模型

之前百度创始人李彦宏先生曾经说过“开源大模型会越来越落后,闭源模型会持续领先”,但国货表示真的不服,紧接着被扎克伯格同学就给了当头一棒,向他展示了什么叫做顶级开源大模型。那变听我娓娓道来。 美国当地时间4月18日&#x…

使用NGINX做局域网内 浏览器直接访问链接 拓展外网链接访问本地

达成目的功能: 在本地服务的一个文件路径下,局域网内用ip和路径名访问到对应的地址;如 10.5.9.0/v1 即可访问到 某个固定本地地址目录 V1下,名为index.html的文件。前言 NGINX 是一个非常流行的开源 Web 服务器和反向代理服务器…

5分钟梳理银行测试,文末附带实战项目,0经验入行so easy

很多银行招聘都要求有相关从业经验,这对于想跨入这个岗位的0经验从业同学可真犯了难 “你都不让我上岗,我哪来的工作经验呢?” 为了解决这个问题,小编整理了本篇文章,从3个方面介绍银行项目是如何进行测试的 银行的…

思维+线性dp,CF573 B. Bear and Blocks

目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 Problem - 573B - Codeforces 二、解题报告 1、思路分析 本题给的图还是很直…