【强化学习的数学原理】课程笔记--2（贝尔曼最优公式，值迭代与策略迭代）

贝尔曼最优公式
- 最优 Policy
- 求解贝尔曼最优公式
- - 求解最大 State Value $v^*$
  - 根据 $v^*$ 求解贪婪形式的最佳 Policy $\pi^*$
  - 一些证明过程
- 一些影响 $\pi^*$ 的因素
- - 如何让 $\pi^*$ 不 “绕弯路”
  - $\gamma$ 的影响
  - reward 的影响
值迭代与策略迭代
- 值迭代
- 策略迭代
- 值迭代和策略迭代的具体差别
- 一个小例子

贝尔曼最优公式

作用：用于找到最优的 Policy

最优 Policy

如果存在一个 Policy $\pi^*$ ，st 对于 $\forall s$ 以及 $\forall \pi$ ，都有 $v_{\pi^*}(s) \geq v_{\pi}(s)$ ，则称为是最优 Policy

因此最优的 Policy 要保证每一个 state 上的 state value，都优于任一其他的 Policy 在该位置的 state value （Note 这里不是所有 state value 之和最大）。有以下几个问题：

这样的 $\pi^*$ 是否存在
这样的 $\pi^*$ 是否唯一
这样的 $\pi^*$ 是确定的还是有随机性

求解贝尔曼最优公式

首先回忆第一节当中的贝尔曼公式，一般形式：
$\begin{aligned} v_{\pi}(s) = \sum_{a} \pi(a|s) [\sum_{r} P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) v_{\pi}(s')], \quad \forall s \end{aligned}$

matrix-form：
$v_{\pi} = r_{\pi} + \gamma P_{\pi} v_{\pi}$ 或
$v_{\pi} = (I-\gamma P_{\pi})^{-1} r_{\pi}$
其中 $r_{\pi}(s_i) = \sum_{a} \pi(a|s_i) \sum_{r} P(r|s_i,a)r = E[R_{t+1}|S_t=s_i]$ , $P_{\pi}(s_i) = \sum_{s_j} P_{\pi}(s_j|s_i)$

找最优的 $\pi^*$ 等价于找到最大的 State Value，即:
$v_{\pi^*} = \max ((I-\gamma P_{\pi})^{-1} r_{\pi} )， \forall s, \forall \pi \in \Pi$
上式等价于：
$v_{\pi^*} = \max (r_{\pi} + \gamma P_{\pi} v_{\pi^*})， \forall s, \forall \pi \in \Pi$
后面我们将 $v_{\pi^*}$ 简记为 $v^*$ ，记 $\max_{\pi}(r_{\pi} + \gamma P_{\pi} v)$
那么 $v^*$ 即满足 $v^* = f(v^*)$ 的点。

求解最大 State Value $v^*$

求解上述 $v^* = f(v^*)$ 需要引入 压缩映射定理：

设 $(X, d)$ 是一个完备度量空间， $\to X$ 是一个压缩映射，即存在一个常数 $\leq k < 1$ ，使得对于所有的 $\in X$ ，有：
$\leq k \cdot d(x, y)$
那么 $T$ 在 $X$ 中有唯一的不动点 $x^*$ ，即 $T(x^*) = x^*$ 。并且，对于任意初始点 $x_0 \in X$ ，迭代序列 ${ x_n \}$ 定义为：
$x_{n+1} = T(x_n)$
将收敛于不动点 $x^*$ ，即：
$\lim_{n \to \infty} x_n = x^*$

因此只要能证明存在一个度量函数 $d$ ，使得对于所以 $v_1, v_2$ 满足： $d(f(v_1), f(v_2)) \leq k\cdot d(v_1, v_2)$
就可以证明：

最大 State Value $v^*$ 存在且唯一
最大 State Value $v^*$ 可以由 $v_{k+1}=f(v_k)$ 迭代求解

根据 $v^$ 求解贪婪形式的最佳 Policy $\pi^$

由于 $v_{\pi}(s) = \sum_a \pi(a|s) q_{\pi}(s,a)$
其中 $q_{\pi}(s,a)$ 是从 state s 出发，且 take action a 的期望return，那么一定存在一个 $a^*$ ，使得：
$a^*(s) = \argmax_{a \in A} q^*(s,a)$
又由于 $\sum_{a} \pi(a|s) =1$ ，因此使得 $\sum_a \pi(a|s) q_{\pi}(s,a)$ 取得最大值的 $\pi^*$ 应该形如：
$\pi^*(a|s) = \begin{cases} 1, \quad a = a^*(s)\\ 0, \quad a \neq a^*(s) \end{cases}$
上述贪婪形式的最佳 Policy $\pi^*$ 是确定形式的。根据上式，需要求解该 $\pi^*$ 只需求解 $a^*(s)， \forall s$ ，而 $a^*(s) = \argmax_{a \in A} q^*(s,a)$ ，所以只需要解得所有的 $q^*(s,a)$ ，根据第一节的内容：
$q^*(s,a) = \sum_{r} P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) v^*(s')$

这里 $v^*$ 可以由 $v_{k+1}=f(v_k)$ 迭代求解，而 $P (r ∣ s, a), P (s^{'} ∣ s, a)$ 在前面这些章节中都认为是已知的（后面章节会讨论未知的情形）。因此 $q^*(s,a)$ 也可以求解。由此我们完成了对贪婪形式的最佳 Policy $\pi^*$ 的求解。

Note: 最大 State Value $v^*$ 具有唯一性，但是达到这样的 $v^*$ 的 Policy $\pi^*$ 可能并不是唯一的，例如：

上述两个不同的 Policy，它们的 state value 完全相同，因为在出现 diff 的部分路径上，reward总和相同

一些证明过程

为了说明 $\max_{\pi}(r_{\pi} + \gamma P_{\pi} v)$ 是压缩映射，只需要证明：

对任意 $v_1, v_2$ ，有：
$||f(v_1)-f(v_2)||_{\infin} \leq \gamma ||v_1 -v_2 ||_{\infin}$
其中 $||\cdot||_{\infin}$ 是 maximum 范数

一些影响 $\pi^*$ 的因素

如何让 $\pi^*$ 不 “绕弯路”

以下为一个简单 grid-word 的两种 Policy，显然前者优于后者，因为后者走了 “冤枉路”，本可以直接到 target state 的，却绕了弯路：

但与直观相违背的是，对于从白格子走到白格子的 action，其 reward 并不需要设为负数，而可以直接设为 0，用 discount rate $\gamma$ 来对绕弯路的行为做惩罚：
$\begin{aligned} \text{return}_1 &= 1 + \gamma 1 + \gamma^2 1 + ... = \frac{1}{1-\gamma}\\ \text{return}_2 &= 0 + \gamma 0 + \gamma^2 1 + \gamma^3 1 + ... = \frac{\gamma^2}{1-\gamma} \end{aligned}$
所以 $\text{return}_2$ 一定小于 $\text{return}_1$ ，且 $\gamma$ 越小，差距越大。一个直观的理解是：“绕弯路” 虽然不会直接产生惩罚，但是它延后了取得奖励（即到达 target state）的时间，而时间越晚，discount rate $\gamma$ 对奖励的“打折”越大，因此好的 Policy 会倾向于更快得拿到奖励

$\gamma$ 的影响

$\gamma$ 的作用除了刚刚讨论的，在第一节中，我们也说过，由于：
$\begin{aligned} \text{discount return} &= R_0 + \gamma R_1 + \gamma^2 R_2 + ...\ \end{aligned}$
因此，当 $\gamma$ 更趋于0时，return更受早期的action影响，而当 $\gamma$ 更趋于1时，return更受后期的action的影响。可以看一些例子得到更直观的理解：

$\gamma = 0.9$ 时，Policy 会更受后期的action的影响，因此在接近 target state 时，为了尽快的到达，会不惜进入 forbidden state
$\gamma = 0.5$ 时，Policy 受后期的action的影响没那么大了，相反当下立即进入 forbidden state 得到的惩罚权重更大了，因此它可能会为了避免进入 forbidden state 而绕弯路

$\gamma = 0$ 时，Policy 会变得极端 “短时”，因为后面步骤得分的权重归零了，所以在任何 state 中，它都只倾向于走当前步所有可操作的 action 中 reward 最高的，并且不再考虑未来是否能走到 target value

reward 的影响

这里有一个也是比较直观的结论：

如果所有的 reward 都做一个线性变换： $r^{'} = a r + b ， a > 0$
那么根据新的 reward 找到的 $\pi'^*$ 跟原来的 $\pi^*$ 相同

Proof：一个直观的理解是，由于
$\pi^*(a|s) = \begin{cases} 1, \quad a = a^*(s)\\ 0, \quad a \neq a^*(s) \end{cases}$
那么只要 $a^*(s)$ 不变， $\pi^*$ 就不变。而：
$a^*(s) = \argmax_{a \in A} q^*(s,a)$
因此，只要这个变化不改变 reward 的 相对大小，就不会改变 $a^*(s)$ 。上述线性变化显然符合这个要求。

值迭代与策略迭代

值迭代

值迭代基本是上面过程的一个总结：

初始化一个 $v_0$
迭代过程为： $已知v_k \rightarrow 求解 q_k(s,a) \rightarrow \pi_{k+1}(a|s) = \begin{cases} 1, \quad a = a^*(s)\\ 0, \quad a \neq a^*(s) \end{cases} \rightarrow v_{k+1} = \max_a q_k(s,a)$
其中 $q_k(s,a) = \sum_{r} P(r|s,a)r + \gamma \sum_{s'} P(s'|s,a) v_k(s')$
当 $||v_{k+1} -v_k|| < \epsilon$ 时，停止迭代

下面看一个具体的例子加深理解，对于如下 grid-word:

初始化 $v_0$ 为全零向量： $v_0(s_1) =v_0(s_2) = v_0(s_3) =v_0(s_4) =0$
根据 $q (s, a)$ 的计算式：

$q_0(s,a)$ 为：

因此 $\pi_1$ 为：
$\pi_1(a_5|s_1) = 1, \pi_1(a_3|s_2) = 1, \pi_1(a_2|s_3) = 1, \pi_1(a_5|s_4) = 1$

$\qquad$ Note, 这里 $\pi_1(a_5|s_1) = 1$ 或者 $\pi_1(a_3|s_1) = 1$ 均可，随机取一个。 $v_1$ 的值也随即可得：
$v_1(s_1)=0, v_1(s_2)=1, v_1(s_3)=1, v_1(s_4)=1$
$\qquad\pi_1$ 对应的 grid-word 图为：
$\qquad$
$\qquad$ 显然这还不是最优解， $s_1$ 的 policy 还有优化空间

根据上述 $v_1$ 可以求 $q_1(s,a)$ ：

因此 $\pi_2$ 为：
$\pi_1(a_3|s_1) = 1, \pi_1(a_3|s_2) = 1, \pi_1(a_2|s_3) = 1, \pi_1(a_5|s_4) = 1$
$v_2$ 为：
$v_2(s_1)=\gamma, v_2(s_2)=1+\gamma, v_2(s_3)=1+\gamma, v_2(s_4)=1+\gamma$
此时图为：
$\qquad$
达到最优 Policy。

策略迭代

与值迭代不同，策略迭代是先从初始化策略 $\pi_0$ 开始的，迭代过程：

$\pi_k \rightarrow (v_{\pi_k}^{(0)} \rightarrow v_{\pi_k}^{(1)} \rightarrow ... \rightarrow v_{\pi_k}^{(\infin)} = v_{\pi_k}) \rightarrow 求解 q_{\pi_k}(s,a) \rightarrow \pi_{k+1}= \begin{cases} 1, \quad a = a^*(s)\\ 0, \quad a \neq a^*(s) \end{cases} \rightarrow ...$
上面跟值迭代相比最主要的不同是 $(v_{\pi_k}^{(0)} \rightarrow v_{\pi_k}^{(1)} \rightarrow ... \rightarrow v_{\pi_k}^{(\infin)} = v_{\pi_k})$ ，将其展开：
$\begin{aligned} v_{\pi_k}^{(1)} &= r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(0)}\\ v_{\pi_k}^{(2)} &= r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(1)}\\ & \dots \\ v_{\pi_k}^{(\infin)} &= r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}^{(\infin)}\\ \end{aligned}$

那么首先一个问题是，由于 $v$ 不再是通过 $v_{k+1} = \max_{\pi}(r_{\pi} + \gamma P_{\pi} v_k)$ 来求解了，那么上述策略迭代的有效性要如何保证呢？保证上述迭代策略的有效性可以分成两个部分：

$\pi_{k+1}$ 是否总是比 $\pi_k$ 更好
上述迭代能否收敛

要证明 $\pi_{k+1}$ 是否总是比 $\pi_k$ 更好，只需要证明 $v_{\pi_{k+1}} \geq v_{\pi_k}$ 总成立

Proof: 由于
$\begin{aligned} v_{\pi_k} &= r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k}\\ v_{\pi_{k+1}} &= r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_{\pi_{k+1}} \end{aligned}$
由于 $\pi_{k+1} = \argmax_{\pi} (r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k})$ 其中 $v_{\pi_k}$ 是固定值， (该式总成立，因为 $\pi_{k+1}= \begin{cases} 1, \quad a = a^*(s)\\ 0, \quad a \neq a^*(s) \end{cases}$ 即为该式的贪婪解)
因此 $r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_{\pi_k} \geq r_{\pi_k} + \gamma P_{\pi_k} v_{\pi_k} = v_{\pi_k}$
$\Rightarrow v_{\pi_{k+1}} - v_{\pi_k} \geq (r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_{\pi_{k+1}}) - (r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_{\pi_k}) \geq \gamma P_{\pi_{k+1}} (v_{\pi_{k+1}} - v_{\pi_k})$

$\Rightarrow v_{\pi_{k+1}} - v_{\pi_k} \geq \gamma P_{\pi_{k+1}} (v_{\pi_{k+1}} - v_{\pi_k}) \geq \gamma^2 P^2_{\pi_{k+1}} (v_{\pi_{k+1}} - v_{\pi_k}) \geq ... \geq \lim_{n \rightarrow \infin} \gamma^n P^n_{\pi_{k+1}} (v_{\pi_{k+1}} - v_{\pi_k})$
其中 $\gamma <1$ ，因此 $\lim_{n \rightarrow \infin} \gamma^n =0$ ；而 $P_{\pi_{k+1}}$ 是随机矩阵，所以 $P^n_{\pi_{k+1}}$ 不会发散。所以 $v_{\pi_{k+1}} - v_{\pi_k} \geq 0$ 。

收敛性的证明要依赖我们上面由 压缩映射定理 得到的结论：
$v_{k+1} = f(v_k) = \max_{\pi}(r_{\pi} + \gamma P_{\pi} v_k) \rightarrow v^*$
由于 $v^* = \max ((I-\gamma P_{\pi})^{-1} r_{\pi} )， \forall s, \forall \pi \in \Pi$ ，因此 $v_{\pi_k} \leq v^*, \forall k$ 一定成立。那么我们只需要证明存在上述由 $v_{k+1} = f(v_k)$ 推导的 ${v_k\}$ ，使得满足： $v_{k} \leq v_{\pi_k} , \forall k$
由于 $v_{k} \leq v_{\pi_k} \leq v^*，而 \lim_{k \rightarrow \infin} v_{k} = v^*$
因此可以证明 $\lim_{k \rightarrow \infin} v_{\pi_k} = v^*$

Proof： 由于 $v_0$ 是任意初始化的，所以对任意 $\pi_0$ 总可以找到 $v_0$ 使得 $v_{\pi_0} \geq v_0$
由归纳法，只需要证明当 $v_{\pi_k} \geq v_k$ 时， $v_{\pi_{k+1}} \geq v_{k+1}$ 成立。

$\begin{aligned} v_{\pi_{k+1}} - v_{k+1} &= (r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_{\pi_{k+1}}) - \max_{\pi}(r_{\pi} + \gamma P_{\pi} v_{k})\\ &\geq (r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_{\pi_{k+1}}) - \max_{\pi}(r_{\pi} + \gamma P_{\pi} v_{k}) \quad(\text{由上述结论} v_{\pi_{k+1}} \geq v_{k} )\\ &= (r_{\pi_{k+1}} + \gamma P_{\pi_{k+1}} v_{\pi_{k+1}}) - (r_{\pi_{k}} + \gamma P_{\pi_{k}} v_{k}) \quad (\text{由于 } \pi_{k} = \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_{k}))\\ &\geq (r_{\pi_{k}} + \gamma P_{\pi_{k}} v_{k}) - (r_{\pi_{k}} + \gamma P_{\pi_{k}} v_{k})\quad (\text{由于 } \pi_{k+1} = \arg\max_{\pi} (r_{\pi} + \gamma P_{\pi} v_{\pi_{k}}))\\ &= \gamma P_{\pi_{k}} (v_{\pi_{k}} - v_{k}) \geq 0\\ \end{aligned}$
证毕。

值迭代和策略迭代的具体差别

以下是值迭代和策略迭代的对比图：

可以看到，当 $v_0$ 选取得当，两种策略的 $\pi_1$ 是相同的，但是从 $\pi_2$ 开始就不一定了，这是因为，计算 $v_{\pi_1}$ 过程实际是：

即 值迭代的 $v_1$ 其实就是策略迭代中的 $v_{\pi_1}^{(1)}$ ，所以就大的 iteration 而言，一般策略迭代会在 $k$ 更小的时候收敛：

当然这不意味着策略迭代的整体计算量更小，因为它每个大的 iteration 里面，会比值迭代计算更多轮的 Value State 。

这里当介于两者之间时，称为 截断策略迭代。

一个小例子

这个小例子有一点比较有意思：可以看出 Policy 的优化往往是现从靠近 target value 的地方开始的，这个其实也很好理解，根据贝尔曼公式： $\begin{aligned} \Rightarrow v_{\pi}(s) &= E[G_t|S_t=s]\\ &= E[R_{t+1} + \gamma G_{t+1}|S_t=s] \\ &= E[R_{t+1}|S_t=s] + \gamma E[G_{t+1}|S_t=s] \end{aligned}$
其中 $E[G_{t+1}|S_t=s]$ 就是后面路径的 state value，因此要优化当前位置的 state value，一定是先优化后面的 state 的 state value，再逐渐优化远离 target value 的 state。