【强化学习的数学原理】第10课-Actor-Critic方法-笔记

学习资料：bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接：强化学习的数学原理西湖大学赵世钰

文章目录

一、最简单的Actor-Critic（QAC）
二、Advantage Actor-Critic（A2C）
三、重要性采样和Off-Policy Actor-Critic
四、Deterministic Actor-Critic (DPG)
五、Summary

一、最简单的Actor-Critic（QAC）

Actor-Critic算法和上节课所学习的policy gradient方法是一种方法，但不同的是，Actor-Critic方法把基于value的方法引入到policy gradient中。

什么是actor？什么是critic？
actor对应的是策略，是更新策略（policy update）的一个过程。
critic对应的是policy evaluation/value estimation的过程。
在这里插入图片描述
先回顾一下上节课讲的policy gradient方法。在policy gradient中，最终要计算的是公式1。这个一整个公式1其实就是一个actor，因为这个公式在更新参数 $\theta$ ，更新 $\theta$ 其实就是更新策略。这就对应着actor的作用。公式1中的 $q_t(s_t,a_t)$ 其实就是一个critic，通过计算action value来估计当前这个策略好不好。
在这里插入图片描述
如何计算 $q_t(s_t,a_t)$ ？
有两种方法。
第一，蒙特卡洛的方法。从状态 $(s, a)$ 出发收集一个episode，计算这个episode所对应的return作为 $q_t(s_t,a_t)$ 的近似值。按照这种方式计算出来的 $q_t(s_t,a_t)$ ，再配上刚刚说的算法，这就是REINFORCE。（上节课已经讲过）
第二，用TD方法来估计 $q_t(s_t,a_t)$ ，用这种方法估计 $q_t(s_t,a_t)$ ，再配上刚刚说的算法，这种方法被称为actor-critic。
在这里插入图片描述
最简单的actor critic算法的伪代码。其目标是去优化函数 $J(\theta)$ 。首先根据当前的策略生成experience $s_t,a_t,r_{t+1},s_{t+1},a_{t+1})$ 。然后在critic的部分用Sarsa算法去计算 $q (s, a)$ ，在actor部分讲critic部分中计算好的 $q (s, a)$ 拿过来，去更新策略。随后用更新后的策略，去在下一步中生成新的数据。
在这里插入图片描述
补充说明：

Critic对应的是Sarsa+value function approximation
Actor对应的是策略更新算法
这个算法是on-policy的
这个算法（QAC）是最简单的actor-critic algorithm之一

二、Advantage Actor-Critic（A2C）

A2C是QAC的推广，其基本思想是在QAC的基础上引入一个偏置量来减少估计的方差。

性质：policy gradient梯度对于引入一个新的偏置是不会变化的。比如下图，引入b(S)，对梯度的结果是没有影响的。
在这里插入图片描述

1.为什么引入b(S)对计算梯度没有影响呢？
请看下面的推导过程。
在这里插入图片描述
2.为什么要考虑这个baseline？它究竟有什么用？
把梯度简写成 $E [X]$ 的形式，经过刚刚的推导，已经知道 $E [X]$ 和 $b (S)$ 是没有任何关系的。但是 $v a r (X)$ （X的方差）和 $b (S)$ 是有关系的。
用 $t r [v a r (X)]$ ，也就是矩阵的迹（对角线元素的和）来作为评价方差大小的一个工具。通过计算得出， $v a r (X)$ 是和 $b (S)$ 有关的。
在这里插入图片描述
目标：找一个最好的baseline，让X的方差达到最小。
方差小的好处是，在采样的时候，误差也更小。
但在以前介绍的REINFORCE 和 QAC 中，是没有baseline的，或者说，b=0。最优的b*，其计算公式如下图公式1所示。但因为公式1比较复杂，所以一般不用，一般我们有公式2对应的 $b (s)$ 。公式2对应的 $b (s)$ 实际上就是 $v_{\pi}(s)$ 。
在这里插入图片描述
把 $b (s)$ （实际上是 $v_{\pi}(s)$ ）代入到梯度上升算法中。定义一个新的量 $\delta_{\pi}(S,A)$ ，这个量被称作advantage function。 $\delta_{\pi}(S,A)=q_{\pi}(S,A)-v_{\pi}(S)$ 。 $v_{\pi}(S)$ 就是相当于很多 $q_{\pi}(S,A)$ 加起来的再取平均的一个均值。如果当前这个 $q_{\pi}(S,A)$ 是大于 $v_{\pi}(S)$ 的，说明这个动作a的效果还不错， $\delta_{\pi}(S,A)$ 为一个正值。选择 $(S, A)$ 的概率就会变大。
在这里插入图片描述
advantage function也可以用TD error来近似（如下图所示）。这样的变换是合理的，因为 $q_{\pi}(S,A)$ 本来就等于 $R+\gamma v_{\pi}(S')$ 。并且这样做有一个好处，原来需要用两个神经网络：一个网络去近似 $q_{\pi}(s_t,a_t)$ ，另一个网络去近似 $v_{\pi}(S)$ ，现在只需要用一个神经网络 $v_{\pi}(S)$ 就好了。
在这里插入图片描述
这是A2C算法的伪代码。Critic中是TD算法和value function approximation相结合的算法。

三、重要性采样和Off-Policy Actor-Critic

之前讲到的策略都是on policy的，如下图所示，在采样时，要遵循策略 $\pi$ ，更新时，也是更新的这个策略 $\pi$ 。但我们也可以使用重要性采样，把on policy改成off policy。
在这里插入图片描述
1.一些简单的例子
假设有一个随机变量X，X是一个集合，里面只有两个值。X的分布如下图所示，据此分布，算出来X的期望为0。那么问题来了，如果这个随机变量的分布是未知的，那是否能通过采样的方式来求 $E [X]$ ？
在这里插入图片描述
在第一种情况下，假设 ${x_i}$ 是在X的真实分布 $p_0$ 上进行采样的，那么当采样足够多的时候， ${x_i}$ 的均值和方差就等于 $X$ 的均值和方差。

在第二种情况下，假设 ${x_i}$ 是在另一个分布 $p_1$ 上进行采样的，那么这个采样的均值算出来肯定和真实分布上的均值不一样。
在这里插入图片描述
问题是：我们现在有一个概率分布 $p_1$ ，在 $p_1$ 上产生了一些sample，想用这些sample来估计在分布 $p_0$ 下的expectation。为什么要做这个呢？因为想做off-policy。off-policy中用策略 $\beta$ 来产生数据（相当于分布 $p_1$ ），用策略 $\pi$ 作为target policy（相当于分布 $p_0$ ）。用重要性采样来实现这个目的。
在这里插入图片描述
2.重要性采样
如下图所示可以通过估计 $E_{X～p_1}[f(X)]$ ，来估计满足分布 $p_0$ 的随机变量 $X$ 的期望。如何估计 $E_{X～p_1}[f(X)]$ ？通过采样 $x_i$ ，然后对 $f(x_i)$ 求和再求平均就可以，平均数用下图中的 $\bar{f}$ 来表示。
在这里插入图片描述
重要性采样的计算方式如下图所示。

小结：
有一些服从 $p_1$ 分布的sample ${x_i}$ ，下图中的 $\bar{x}$ 是对这些sample求平均，计算结果是在 $p_1$ 分布下的expectation。目标是求 $\bar{f}$ ， $\bar{f}$ 的计算结果是在 $p_0$ 分布下的expectation。
在这里插入图片描述
3.off-policy policy gradient 的理论
假设 $\beta$ 是一个behavior policy，用来生成很多的经验采样。 $\pi$ 是target policy，目标是优化下面的 $J(\theta)$ 函数。 $d_{\beta}(s)$ 是在策略 $\beta$ 下的一个stationary distribution。

这个目标函数对应的梯度如下所示。和之前在on policy中的区别在于，on policy中， $A～\pi$ ，但在off policy中， $A～\beta$ 。除此之外，还多了一个重要性采样的项。
在这里插入图片描述
下面用梯度上升的方法去优化。在梯度中加上一个baseline $b (s)$ ，之前已经证明过，这个baseline不改变梯度。一般设置 $b(S)=v_{\pi}(S)$ 。

公式1中用stochastic gradient去计算梯度，加上了 $v_{\pi}(S)$ 作为baseline。公式2在公式1的基础上加了一个TD error，得到公式3。最后就以公式3来计算梯度。公式4是对公式3进行一个变形，目的是为了提取出step size，对公式进行定性分析。（详见课程）
在这里插入图片描述
这是对应的伪代码。

四、Deterministic Actor-Critic (DPG)

前面几节所讲到的策略，其 $\pi(a|s,\theta)$ 一定是大于0的，也就是说，这些策略都是stochastic的策略。下面介绍Deterministic Actor-Critic。
在这里插入图片描述

在deterministic policy中，策略不再用 $\pi(a|s,\theta)$ 来表示，而是用下图中的 $a=\mu(s,\theta)$ 来表示，其输出不再是选择某个动作a的概率值，而直接就是一个实实在在的动作a。所以 $\mu$ 是状态空间到动作空间的映射。在实际应用过程中，可以用一个神经网络来实现。
在这里插入图片描述 deterministic policy gradient的目标函数 $J(\theta)$ 。其中 $d_0(s)$ 表示概率分布。 $d (s)$ 是独立于 $\mu$ 的，在这种情况下，梯度更加容易计算。

这是求出来的梯度结果。这是一个off policy的算法。

然后用梯度上升的方法进行优化。
在这里插入图片描述
伪代码如下。

补充说明：

这是一个off policy的算法，其中behaviour policy 是 $\beta$ ，target policy 是 $\mu$ 。
$\beta$ 可以用 $\mu$ +noise 来代替。

五、Summary

从去年11月底开始断断续续看，到今天为止，这门课终于看完了第一遍了。由于基础有限，部分知识还没能消化完全。希望可以在后续实践过程中不断思考、不断学习。

“关于学具有系统性的知识，建议放弃速成的想法，比如一小时入门，一上午精通。很多焦虑都来源于时间安排不合适。举个例子，读一篇论文需要五天，但你只给自己一天的时间，到晚上也许发现，连introduction部分都没搞明白。但是如果给自己足够的时间，心态放平，稳扎稳打，也许三天就可以读完一篇论文。” 这是赵老师在课程里说过的原话，深受启发。做学问切忌心浮气躁，而是应该放平心态，给自己一些消化和适应的时间。在以后的科研生活中，也一直要铭记在心呀！