Data-driven ADP schemes for non-zero-sum games of unknown DT nonlinear systems

Data-driven adaptive dynamic programming schemes for non-zero-sum games of unknown discrete-time nonlinear systems,2018, He Jiang, Huaguang Zhang∗, Kun Zhang, Xiaohong Cui

博弈论、最优控制和强化学习解决离散时间 multi-player 非零和博弈问题。非零和博弈问题的解是耦合黎卡提方程和HJ方程的结果,需要精确数学模型,难以解析求解。实际中系统动力学不能精确获得甚至不可用,传统基于模型方法不可用。针对完全未知的multi-player系统提出data-based ADP算法。利用Nash equilibrium和平稳性条件构造离散时间multi-player非零和博弈,利用策略迭代算法近似最优解。在线ADP算法结合NN identification,仅需要系统数据而不是真实系统模型。提出基于数据驱动的action-dependent HDP(ADHDP或QLearning)方法,克服identification learning过程中的近似误差。
输入输出系统数据可被测量和利用,数据驱动方法1:直接使用系统数据设计最优控制器;2:通过神经网络重构数据驱动系统结构近似实际系统。本文采用ADP算法和数据驱动技术处理model-freeDT非零和博弈问题,纳什平衡点和平稳性条件推导和构建DT非零和博弈问题,提出PI方法,学习和近似迭代的最优解。比较identification-based和data-driven两种ADP算法。

DT N-player system
在这里插入图片描述
性能指标函数
在这里插入图片描述
Definition1给出可容许控制策略
Assumption1给出N-player system可控,至少存在一组可容许控制策略,可出可容许状态反馈控制策略,值函数表达式和最优值函数。
Definition2给出纳什平衡定义,满足不等式时,一组控制策略被认为是N-player game的纳什平衡点
在这里插入图片描述
Lemma1给出对N-player system值函数,基于最优的平稳性条件,最优控制策略为
在这里插入图片描述
最优值函数满足耦合方程
在这里插入图片描述
Theorem1给出在Assumption1下,最优值函数满足耦合方程,最优控制策略为以上形式
在这里插入图片描述
证明,最优值函数为李雅普诺夫函数,系统渐进稳定;
给出算法流程
在这里插入图片描述
对以上迭代步骤,需要f(x)和g(x),完全未知系统,model-based是无效的,需采用神经网络identification

神经网络近似multi-player system
在这里插入图片描述
NN-based identification
在这里插入图片描述
最小化性能指标并调整权重
在这里插入图片描述
神经网络近似误差有界,存在正常数
在这里插入图片描述
Theorem2根据identification scheme 验证未知multi-player system并更新identifierNN 权重,满足Assumption2,NN 权重近似误差是有界的,且identification error是渐进稳定的。
在这里插入图片描述
神经网络近似评价网络
在这里插入图片描述
值函数近似,定义NN approximation error η i ( k ) \eta_i(k) ηi(k)
在这里插入图片描述
k表示当前时刻,系统第k步数据,测量x(k)。对完全未知的multi-player systems f(x)和g(x)难以获得未来x(k+1)的系统数据。则需要identifier NN获得 x ^ ( k + 1 ) \hat{x}(k+1) x^(k+1)
定义残差向量
在这里插入图片描述
评价网络权重调整
在这里插入图片描述
同理动作网络
在这里插入图片描述
误差定义
在这里插入图片描述
动作网络权重更新
在这里插入图片描述
根据测量系统数据,神经网络重构系统动力学,但不可避免带来NN approximation errors

action-dependent HDP(Qlearning) 的NN 学习方法
评价网络描述为
在这里插入图片描述
其评价网络输入 z c i ( k ) z_{ci}(k) zci(k)由x(k), u i ( k ) u_i(k) ui(k) u ( − i ) ( k ) u_{(-i)}(k) u(i)(k)组成。
误差定义为
在这里插入图片描述
最小化误差性能指标
在这里插入图片描述
同理梯度下降法更新权重
在这里插入图片描述
动作网络
在这里插入图片描述
误差定义为
在这里插入图片描述
基于梯度下降权重更新
在这里插入图片描述
基于NN的ADHDP算法,未涉及f(x)和g(x),仅使用当前时刻k和历史时刻k-1的数据
在这里插入图片描述

扩展到跟踪控制问题中,跟踪误差动力学为
在这里插入图片描述
增广系统
在这里插入图片描述
以增广系统的值函数为
在这里插入图片描述
可推得最优控制策略和最优值函数
在这里插入图片描述
对值函数引入折扣因子,因为参考系统状态轨迹通常不趋于零。无折扣因子可能使得跟踪控制策略非零,值函数将无界。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/495859.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Qt】QDialog对话框

目录 一、概念 二、对话框的分类 2.1 模态对话框 2.2 非模态对话框 2.3 混合属性对话框 三、消息对话框QMessageBox 四、颜色对话框QColorDialog 五、文件对话框QFileDialog 六、字体对话框QFontDialog 七、输入对话框QInputDialog 一、概念 对话框是GUI程序中不可或…

Django 评论楼创建

Django 评论楼创建 【零】最终效果预览 【一】介绍 (1)情况说明 在Django模型层中有这么个字段 parent models.ForeignKey(toself, on_deletemodels.CASCADE, verbose_name"父评论ID", nullTrue, blankTrue)这个字段是一对多的外键字段 其…

Redis入门到实战-第十九弹

Redis实战热身Count-min-sketch篇 完整命令参考官网 官网地址 声明: 由于操作系统, 版本更新等原因, 文章所列内容不一定100%复现, 还要以官方信息为准 https://redis.io/Redis概述 Redis是一个开源的(采用BSD许可证),用作数据库、缓存、…

验证码demo(简单实现)

前言 我们注意到我们登录网站的时候经常会用到网络验证码,今天我们就简单实现一个验证码的前后端交互问题,做一个小demo 准备 我们这里并不需要依靠原生的java来实现,而是只需要引入一个maven依赖,使用现成的封装好的即可,这是我使用的是hutool工具包 网址:Hutool🍬…

MySQL 8:GROUP BY 问题解决 —— 怎么关闭ONLY_FULL_GROUP_BY (详细教程)

在使用 GROUP BY 时,我们可能会遇到以下报错: Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregated column …… 这是因为我们在select语句中所查询的列并不被group by后面接的列所包含。 对于GROUP BY聚合操作&#xf…

油缸位置传感器871D-DW2NP524-N4

概述 油缸位置传感器是一种使用电感原理来检测物体接近的开关装置。它通过感应物体的电磁场来判断物体的位置,并将信号转化为电信号输出。当物体靠近或远离电感式接近开关时,物体的电磁场会改变,从而使接近开关产生不同的信号输出。电感式接…

Go —— defer

defer defer 语句用于延迟函数的调用,常用于关闭文件描述符、释放锁等资源释放场景。但 defer 关键字只能作用于函数或函数调用。 defer func(){ // 函数fmt.Print("Hello,World!") }()defer fmt.Print("Hello,World!&…

如何在CentOS安装可视化Docker容器管理工具Portainer并无公网IP远程管理

文章目录 前言1. 部署Portainer2. 本地访问Portainer3. Linux 安装cpolar4. 配置Portainer 公网访问地址5. 公网远程访问Portainer6. 固定Portainer公网地址 前言 Portainer 是一个轻量级的容器管理工具,可以通过 Web 界面对 Docker 容器进行管理和监控。它提供了可…

智慧公厕,为智慧城市建设注入了新的活力

随着智慧城市的快速发展,公共厕所不再是简单的功能设施,而是成为了提升城市形象、改善民生服务的重要一环。智慧公厕作为新形态的公共厕所,通过精准监测公厕内部的人体活动状态、人体存在状态、空气质量情况、环境变化情况、设施设备运行状态…

Occupancy 后处理

文章目录 bev坐标与自车坐标转换如何创建旋转矩阵 (R_veh) 偏航3D Voxel -> 2D Grid 在进行占据空间(occupancy)后处理时,需要将不同感知模块的输出进行综合融合,以实现更精确的空间占据和环境感知。以下是针对您提到的几个方面…

Java代码基础算法练习-求一个三位数的各位数字之和-2024.03.27

任务描述&#xff1a; 输入一个正整数n&#xff08;取值范围&#xff1a;100<n<1000&#xff09;&#xff0c;然后输出每位数字之和 任务要求&#xff1a; 代码示例&#xff1a; package M0317_0331;import java.util.Scanner;public class m240327 {public static voi…

LangChain入门:2.OpenAPI调用ChatGPT模型

引言 在本文中&#xff0c;我们将带您深入探索如何通过OpenAPI与ChatGPT模型进行高效交互&#xff0c;实现智能文本问答功能。通过LangChain库的实践&#xff0c;您将学习构建一个能够与用户进行自然语言对话的系统的关键步骤。 准备步骤 在动手编码之前&#xff0c;请确保您…

Linux之进程控制进程终止进程等待进程的程序替换替换函数实现简易shell

文章目录 一、进程创建1.1 fork的使用 二、进程终止2.1 终止是在做什么&#xff1f;2.2 终止的3种情况&&退出码的理解2.3 进程常见退出方法 三、进程等待3.1 为什么要进行进程等待&#xff1f;3.2 取子进程退出信息status3.3 宏WIFEXITED和WEXITSTATUS&#xff08;获取…

从零开始的软件开发实战:互联网医院APP搭建详解

今天&#xff0c;笔者将以“从零开始的软件开发实战&#xff1a;互联网医院APP搭建详解”为主题&#xff0c;深入探讨互联网医院APP的开发过程和关键技术。 第一步&#xff1a;需求分析和规划 互联网医院APP的主要功能包括在线挂号、医生预约、医疗咨询、健康档案管理等。我们…

2024河北煤炭装备展览会|河北采煤装备展会|河北煤博会

2024中国&#xff08;石家庄&#xff09;国际煤炭装备及矿山设备博览会 时间&#xff1a;2024年7月4-6日 地点&#xff1a;石家庄国际会展中心.正定在快速发展的科技时代&#xff0c;能源行业始终是国家发展的重要支柱。作为传统的能源巨头&#xff0c;煤炭产业在面临转型升…

jdk8中的Arrays.sort

jdk8中Arrays.sort 这里可以看到根据传入数组类型的不同&#xff0c;排序的算法是由区别的。 拆分解析 我们在平时引用的时候&#xff0c;一般只会传入一个数组&#xff0c;但是真正调用的时候&#xff0c;参数会进行补全。 public static void sort(int[] a) {DualPivotQui…

获奖喜讯 | 思迈特软件蝉联双奖,品牌及产品实力再获认可

近期&#xff0c;思迈特软件又传来获奖捷报&#xff0c;凭借出色的产品力及品牌实力&#xff0c;思迈特软件Smartbi一站式大数据分析平台荣登2023ToB头条影响力价值榜“创新力产品TOP50”榜单&#xff0c;又获广东省云计算应用协会“2023年度大数据创新企业奖”。 荣登“ToB行业…

贪心算法--最大数

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 本题链接https://leetcode.cn/problems/largest-number/description/ class Solution { public:bool static compare(int a, int b){return (to_string(a) to_string(b)) > (to_string(b) to_string(a));}bool operato…

爱思助手验机不靠谱?

1.骗子只能骗的一种人就是有点懂 因为完全不懂的不会感兴趣 骗不到 太懂的人 基本属于猴精的人 你骗不到 2. 3.基本做的是翻新机 维修过的 4。转载 爱思助手验机不靠谱&#xff1f;“报告全绿”已成奸商的阴谋 - 知乎

Windows无法安装torch==1.4.0

在conda中&#xff0c;每创建一个虚拟环境&#xff0c;就要重新配置其中的pytorch 这次我创建的虚拟环境需要torch1.4.0的版本。 torch网址&#xff1a;https://pytorch.org/get-started/previous-versions/ 解决办法 按以下代码进行安装&#xff1a; pip install torch0.4.0…