李宏毅深度强化学习导论——演员-评论员

引言

本文主要介绍演员-评论员(Actor-Critic)算法。

Critic

在这里插入图片描述

给定Actor θ \theta θ,Critic评估当观测到 s s s(或进一步地采取行动 a a a)的好坏。

价值函数(Value function),记为 V θ ( s ) V^\theta(s) Vθ(s),就是一种Critic。

在这里插入图片描述
它的输入是现在的游戏画面,这里的上标 θ \theta θ表示它观察的对象是 θ \theta θ这个actor,输出是一个标量。这个标量表示当看到游戏画面 s s s,actor θ \theta θ接下来期望可以得到了折扣累积奖励: G 1 ′ = r 1 + γ r 2 + γ 2 r 3 + ⋯ G^\prime_1 = r_1 + \gamma r_2 + \gamma^2 r_3 + \cdots G1=r1+γr2+γ2r3+

比如上图两个游戏画面中,左边有很多外星人,右边则相对少很多,因此左边估计的(价值)标量就会比右边大,当然前提是这个Actor足够厉害,不然没一会就挂了价值估计也会很低。

价值函数依赖于我们观察的Actor,同样的游戏画面不同的Actor应该要得到不同的价值。

那么如何估计价值函数?
我们可以训练一个Critic来估计价值函数,有两种常用的训练方法。

MC

第一种是基于Monte-Carlo(蒙特卡洛,MC)的方法。
它的原理是,让Actor θ \theta θ去和环境进行很多轮互动,然后就有很多的数据。在这里插入图片描述
经过多轮游戏,我们知道看到状态 s a s_a sa,在这轮游戏结束折扣累积奖励会使 G a ′ G_a^\prime Ga;看到状态 s b s_b sb,在这轮游戏结束折扣累积奖励会使 G b ′ G_b^\prime Gb

其实核心是计算期望,比如有很多轮游戏都看到了 s a s_a sa,然后计算它们的均值当成看到 s a s_a sa会后会得到的折扣累积奖励就好了。

那么我们让Critic看到 s a s_a sa s b s_b sb的输出分别与 G a ′ G_a^\prime Ga G b ′ G_b^\prime Gb越接近越好。

TD

另一种是时序差分(Temporal-difference,TD)方法。MC需要需要玩完整场游戏才能得到关于累积奖励的数据,而TD方法则不同。

只要有 s t , a t , r t , s t + 1 s_t,a_t,r_t,s_{t+1} st,at,rt,st+1的数据就好了,分别是当前状态、当前采取的行动、所获得的奖励、采取行动后跳到的下一个状态。

我们先来看 V θ ( s t ) V^\theta(s_t) Vθ(st) V θ ( s t + 1 ) V^\theta(s_{t+1}) Vθ(st+1)之间的关系:
V θ ( s t ) = r t + γ r t + 1 + γ 2 r t + 2 ⋯ V θ ( s t ) = r t + 1 + γ r t + 2 + γ 2 r t + 3 ⋯ (1) \begin{aligned} V^\theta(s_t) &= r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} \cdots \\ V^\theta(s_t) &= r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} \cdots \\ \end{aligned} \tag 1 Vθ(st)Vθ(st)=rt+γrt+1+γ2rt+2=rt+1+γrt+2+γ2rt+3(1)

联立两个等式我们可以看出:
V θ ( s t ) = r t + γ V θ ( s t + 1 ) (2) V^\theta(s_t) = r_t + \gamma V^\theta(s_{t+1}) \tag 2 Vθ(st)=rt+γVθ(st+1)(2)

假设我们现在有这样的数据: s t , a t , r t , s t + 1 s_t,a_t,r_t,s_{t+1} st,at,rt,st+1

在这里插入图片描述
那么分别把 s t , s t + 1 s_t,s_{t+1} st,st+1代入价值函数中,分别得到 V θ ( s t ) V^\theta(s_t) Vθ(st) V θ ( s t + 1 ) V^\theta(s_{t+1}) Vθ(st+1),根据等式(2)前者减去 γ \gamma γ乘后者的值应该和 r t r_t rt尽量接近。

MC v.s. TD

假设Critic观察到下面8个episode的数据:
在这里插入图片描述
用MC和TD来观察,算出来的价值函数有可能不一样。

那么 V θ ( s b ) V^\theta(s_b) Vθ(sb)表示看到 s b s_b sb后actor θ \theta θ期望获得的折扣累积回报: 6 8 = 3 4 \frac{6}{8}=\frac{3}{4} 86=43,因为8次游戏里面有6次得到1分。

V θ ( s a ) V^\theta(s_a) Vθ(sa)怎么计算,根据MC方法有: 0 1 = 0 \frac{0}{1}=0 10=0
根据TD方法(等式(2))有: V θ ( s a ) = r + V θ ( s b ) ⇒ 3 4 = 0 + V θ ( s b ) V^\theta(s_a) =r + V^\theta(s_b) \Rightarrow \frac{3}{4} = 0 + V^\theta(s_b) Vθ(sa)=r+Vθ(sb)43=0+Vθ(sb), 所以 V θ ( s b ) = 3 4 V^\theta(s_b)=\frac{3}{4} Vθ(sb)=43

可以看到这两种方法算出来的结果不一样,但从它们的角度来说,都是对的。

下面我们看Critic如何被用在训练Actor上。我们上篇文章说可以通过下图的方式来训练Actor:
在这里插入图片描述

但我们留下来一个问题,即这个偏置 b b b的取值是多少?
这里有一个合理的取值,就是 V θ ( s ) V^\theta(s) Vθ(s)
即我们根据同样的训练数据可以训练一个Critic,它可以衡量一个状态的期望累积奖励。所以:

在这里插入图片描述
我们来理解下 V θ ( s t ) V^\theta(s_t) Vθ(st)代表什么意思。现在有 A t = G t ′ − V θ ( s t ) A_t = G_t^\prime - V^\theta(s_t) At=GtVθ(st)

在这里插入图片描述
我们知道,根据概念是看到 s t s_t st后会得到的累积奖励期望值。但是要注意的是,看到 s t s_t st后,你的Actor不一定会执行 a t a_t at,因为在训练时Actor也要有随机性。
这样我们可以得到不同的累积奖励 G G G,平均起来就得到了 V θ ( s t ) V^\theta(s_t) Vθ(st)

那么这里定义 G t ′ G_t^\prime Gt为在 s t s_t st下执行 a t a_t at最后得到的累积奖励。
如果 A t > 0 A_t > 0 At>0代表 G t ′ > V θ ( s t ) G_t^\prime > V^\theta(s_t) Gt>Vθ(st),表明动作 a t a_t at比(随机执行动作的)平均要好;否则如果 A t < 0 A_t < 0 At<0代表比平均要差。

但是仔细思考可能会发现哪里有点不对,这里 G t ′ G_t^\prime Gt是一个样本的结果,而 V θ ( s t ) V^\theta(s_t) Vθ(st)是一个均值。

如果是拿均值减均值就得到了我们要了解的最后一个版本:
在这里插入图片描述
上一个版本我们是用 G t ′ − V θ ( s t ) G_t^\prime - V^\theta(s_t) GtVθ(st)来估计 A t A_t At
现在变成了用均值,具体地,在 s t s_t st后执行动作 a t a_t at得到奖励 r t r_t rt,跳到状态 s t + 1 s_{t+1} st+1,然后在 s t + 1 s_{t+1} st+1处拿多个episode的均值计算出 V θ ( s t + 1 ) V^\theta(s_{t+1}) Vθ(st+1),或者说我们可以直接将 s t + 1 s_{t+1} st+1输入给我们的Critic就可以得到这个 V θ ( s t + 1 ) V^\theta(s_{t+1}) Vθ(st+1)。最后再加上 r t r_t rt就可以得到在 s t s_t st采取 a t a_t at后跳到 s t + 1 s_{t+1} st+1后会得到的期望累积奖励。

然后我们把 G t ′ G_t^\prime Gt换成 r t + V θ ( s t + 1 ) r_t + V^\theta(s_{t+1}) rt+Vθ(st+1)得到
A t = r t + V θ ( s t + 1 ) − V θ ( s t ) A_t = r_t + V^\theta(s_{t+1}) - V^\theta(s_{t}) At=rt+Vθ(st+1)Vθ(st)

这就是Advantage Actor-Critic(A2C)方法。

从算法描述我们可以看出Actor和Critic可以通过两个神经网络来模拟。在这里插入图片描述
Actor看到游戏画面,输出要采取的动作分布;Critic看到游戏画面,输出这个Actor会得到的折扣累积奖励期望,是一个标量。

它们的输入是一样的,所以前几层的参数是可以共享的,比如输入是游戏画面时,那么前几层就是CNN网络。所以实际操作时我们可以设计成上图这样。绿色的网络代表CNN,用于游戏画面特征提取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/488619.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯刷题(十四)

1.小平方 代码 n int(input()) count0 def f(x)->bool: # 判断条件return True if x**2%n<n/2 else False for i in range(1,n): # 遍历[1,n-1]&#xff0c;符合题意计数加一if f(i):count1 print(count)2.3的倍数 代码 a int(input()) b int(input()) c int(input…

【python】flask各种版本的项目,终端命令运行方式的实现

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

Java:ArrayList与顺序表

一、线性表 线性表是n个具有相同特征的数据元素的有限序列&#xff0c;它是一种在实际中广泛使用的数据结构&#xff0c;常见的线性表有&#xff1a;顺序表、链表、栈、队列...... 如图&#xff1a;顺序表与链表的区别看了标题的伙伴就应该知道&#xff0c;我们这次要讲解的主…

【浏览器渲染-输入Url到页面渲染全流程】

概述 在面试题中有一道经典面试题就是浏览器输入url之后发送了什么&#xff0c;看了下网上的大多数文章都感觉不太全&#xff0c;所以这里梳理了比较全的流程&#xff0c;如果有误&#xff0c;欢迎评论指正。本文大致是从以下内容概览入手&#xff0c;有需要的可以跳转到感兴趣…

初识C++(三)构造函数和析构函数

目录 一、构造函数&#xff1a; 1.构造函数的概念&#xff1a; 2.构造函数的特性&#xff1a; 3.构造函数的形式&#xff1a; 4.为什么要引出构造函数这一概念 5.默认构造函数包括&#xff1a; 6.对默认生成的构造函数不处理内置类型的成员这事的解决办法&#xff1a; …

docker可视化界面 - portainer安装

目录 一、官方安装说明 二、安装portainer 2.1拉取镜像 2.2运行portainer容器 2.3登录和使用portainer 一、官方安装说明&#xff1a; Install PortainerChoose to install Portainer Business Edition or Portainer Community Edition.https://www.portainer.io/install…

stm32待机模式被意外唤醒之原因分析

1. 故障现象 客户在项目中使用 STM32G0B1, 由产品内置电池供电. 客户在程序中有使用到 standby 模式, 通过 WKUP2(PC13), WKUP6 引脚唤醒. 除此之外并没有其它唤醒源. 代码中有使用到 RTC,但只是用来记录日期和时间, 并没有参与 standby 的唤醒. 有两种故障现象 : 第一种 : …

Typora结合PicGo + Github搭建个人图床

目录 一 、GitHub仓库设置 1、新建仓库 2、创建Token 并复制保存 二、PicGo客户端配置 1、下载 & 安装 2、配置图床 三、Typora配置 一 、GitHub仓库设置 1、新建仓库 点击主页右上角的 号创建 New repository 填写仓库信息 2、创建Token 并复制保存 点击右上角…

【Unity人机交互】人工智能之爬虫开章

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 秩沅 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a;Uni…

如何在内网访问其他电脑?

网络的发展使得人与人之间的通信变得更加便捷&#xff0c;而在公司或者家庭中&#xff0c;也经常遇到需要内网访问其他电脑的需求。内网访问其他电脑可以实现在局域网内部进行数据共享、文件传输、远程控制等操作&#xff0c;提高工作效率和便利性。本文将介绍内网访问其他电脑…

(已解决)vue运行时出现Moudle Bulid error: this.getoptios is not a function at........

1.首先查看你的less-loader版本 点击package.json 即可查看less-loader版本&#xff0c;我之前的版本是12.0&#xff0c;太高了&#xff0c;出现了不兼容的问题 2、卸载less-loader ctrlshift~ 打开项目终端 &#xff0c;输入&#xff1a; npm uninstall less-loader 3.重…

浙江省某市监局 API 敏感数据保护与全链路数据安全管控实践

背景 随着政务服务数字化转型的加速&#xff0c;政府信息化建设、大数据分析应用以及智慧监管建设等现代化、智能化转型持续推进&#xff0c;新的数据安全风险也暗藏其中。为加强公共数据安全体系建设&#xff0c;提升数据安全主动防御能力、监测预警能力、应急处置能力、协同…

【C++】vector介绍

个人主页 &#xff1a; zxctscl 如有转载请先通知 文章目录 1. 前言2. vector的介绍3. Member functions3.1 (constructor)3.2 (destructor) 4. Capacity4.1 resize4.2 reserve4.3 shrink_to_fit 5. vector 增删查改5.1 push_back5.2 insert5.3 pop_back5.4 find5.5 erase 1. 前…

Windows Docker 部署 MongoDB 数据库

部署 MongoDB 打开 Docker Desktop&#xff0c;切换到 Linux 容器。然后在 PowerShell 执行下面命令&#xff0c;即可启动一个 MongoDB 服务。这里安装的是 7.0.7 Tag版本&#xff0c;如果需要安装其他或者最新版本&#xff0c;可以到 Docker Hub 进行查找。 docker run -d -…

基于 Amazon Bedrock 的 Claude 3 体验:ChatGPT 已经 OUT 了吗?Claude 3 数据实测

文章目录 前言一、Claude 3 系列大模型开发团队二、基于 Amazon Bedrock 的 Claude 3 体验三、Claude 3 数据实测3.1、申请模型访问权限3.2、Claude 3 回答的严谨性3.3、验证 Claude 3 较于 ChatGPT-4 数据集更新时间3.4、“二分法”判断 Claude 3 训练数据截止时间3.5、综合二…

瑞吉外卖实战学习--登录过滤器和判断是否登录过

完善登录功能 1、创建自定义过滤器LoginCheckFiler1.1通过WebFilter创建过滤器1.2 验证是否可以拦截请求1.3 代码 2、在启动类加入注解ServletComponentScan 用来扫描过滤器触发所有的过滤器ServletComponentScan 3、完善过滤器的处理逻辑3.1判断是否需要是要放行的请求3.2判断…

斌之曲科技集团迎接绵阳科技城新区领导考察,共探数字新能源

2024年3月22日上午&#xff0c;一场旨在促进科技与经济发展深度融合的考察活动在上海斌之曲科技集团总部隆重举行。绵阳科技城新区经济合作局局长陈桂全一行到访&#xff0c;集团董事长田斌先生、总裁廖彬曲女士热情接待&#xff0c;双方就科技创新、市场布局等议题进行了深入探…

js逆向入门之简概实例--MD5

目录 js逆向入门之简概&实例--MD5 爬虫: 爬虫流程&#xff1a; 逆向js原因: 网站反爬: 什么是MD5? js加密特征: 练习开始 正常请求 加post请求 伪装加U-Sign参数 伪装加Content-Type参数 请求参数变字符串 代码实现: 真逆开始 补充知识点: 代码 免责声明…

【数据结构刷题专题】—— 二叉树

二叉树 二叉树刷题框架 二叉树的定义&#xff1a; struct TreeNode {int val;TreeNode* left;TreeNode* right;TreeNode(int x) : val(x), left(NULL), right(NULL); };1 二叉树的遍历方式 【1】前序遍历 class Solution { public:void traversal(TreeNode* node, vector&…

[C#]winformYOLO区域检测任意形状区域绘制射线算法实现

【简单介绍】 Winform OpenCVSharp YOLO区域检测与任意形状区域射线绘制算法实现 在现代安全监控系统中&#xff0c;区域检测是一项至关重要的功能。通过使用Winform结合OpenCVSharp库&#xff0c;并结合YOLO&#xff08;You Only Look Once&#xff09;算法&#xff0c;我们…