【深度强化学习】置信域策略优化（TRPO）

1. 置信域方法

置信域方法是数值优化领域中的一类经典算法。几乎所有的数值优化算法都在做这样的迭代，只不过方法略有不同：
$\theta_{\text{new}}\leftarrow \text{Update}(\text{Data};\theta_{\text{now}})$ 而置信域方法首先用到一个置信域的概念：
$\mathcal{N}(\theta_{\text{now}})=\left\{\theta \Big | ||\theta-\theta_{\text{now}}||_2\leq \Delta \right\}$ 在这个置信域内，我们构造的函数能够很接近优化目标： $L(\theta|\theta_{\text{now}})很接近J(\theta),\quad \forall \theta\in \mathcal{N}(\theta_{\text{now}})$ 这样一来我就可以在我构造的函数范围内做优化： $\theta_{\text{new}}=\argmax_{\theta\in\mathcal{N}(\theta_{\text{now}})}L(\theta|\theta_{\text{now}})$ 逐次迭代即可实现对一个复杂目标的优化。

2. 策略优化

有了策略网络 $\pi(a|s;\theta)$ ，以及基于该策略的对当前状态的每一个动作的未来期望回报函数——动作价值函数 $Q_{\pi}(s,a)$ ，我们就可以得到，能够计算出当前状态价值的状态价值函数 $V_{\pi}(s)=\sum_{a\in \mathcal A}\pi(a|s;\theta)·Q_{\pi}(s,a)=\mathbb E_{A\sim\pi(·|s;\theta)}[Q_{\pi}(s,A)]$ ，当一个策略的马尔可夫链运行达到稳态的时候，会有一个状态的稳态分布 $\nu(s)$ ，那么一个策略越好，它的状态价值函数的期望——策略学习的目标函数 $\sum_{s\in S}\nu(s)V_{\pi}(s)=\mathbb E_S[V_{\pi}(S)]=J(\theta)$ 一定越大，所以策略学习的优化问题就是 $\max_{\theta} J(\theta)$ ，因为 $S$ 和 $A$ 都被期望掉了所以 $J(\theta)$ 只取决于 $\theta$ 。

3. 置信域策略优化

3.1 策略学习的目标函数

trust region policy optimization, TRPO是一种策略学习方法，巧妙地结合了置信域的迭代优化方法——对目标函数做了一个方便迭代的等价形式： $\begin{aligned}V_{\pi}(s)&=\mathbb E_{A\sim\pi(·|s;\theta)}[Q_{\pi}(s,A)]\\&=\sum_{a\in \mathcal A}\pi(a|s;\theta)·Q_{\pi}(s,a)\\&=\sum_{a\in \mathcal A}\pi(a|s;\theta_{\text{now}})\frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{\text{now}})}·Q_{\pi}(s,a)\\ &=\mathbb E_{A\sim \pi(·|s;\theta_{\text{now}})}\left[\frac{\pi(a|s;\theta)}{\pi(a|s;\theta_{\text{now}})}·Q_{\pi}(s,a)\right]\end{aligned}\\$ $\begin{aligned} &J(\theta)&=&\mathbb E_{S}\left[\mathbb E_{A\sim\pi(·|S;\theta)}[Q_{\pi}(S,A)]\right]\\ \Rightarrow &J(\theta|\theta_{\text{now}}) &=&\mathbb E_S\left[\mathbb E_{A\sim \pi(·|S;\theta_{\text{now}})}\left[\frac{\pi(A|S;\theta)}{\pi(A|S;\theta_{\text{now}})}·Q_{\pi}(S,A)\right]\right] \end{aligned}$

3.2 做近似

可以采用蒙特卡洛近似： $\tilde L(\theta|\theta_{\text{now}})=\frac{1}{n}\sum_{t=1}^{n}\frac{\pi(a_t|s_t;\theta)}{\pi(a_t|s_t;\theta_{\text{now}})}·u_t$ 其中， ${(s_j,a_j,r_j,s_{j+1})\}_{j=1}^n$ 是用旧策略 $\pi(a_t|s_t;\theta_{\text{now}})$ 生成的轨迹，是对策略分布的近似。 $u_t=r_t+\gamma· r_{t+1}+\gamma^2·r_{t+2}+···+\gamma^{n-t}·r_n$ 为折扣回报，是对 $Q_{\pi(s_t|a_t;\theta)}(s_t,a_t)$ 的近似。

3.3 最大化

这是一个参数需要在置信域内的带约束的最大化问题： $\max_{\theta} \tilde L(\theta|\theta_{\text{now}}), \quad \text{s.t}.\quad\theta\in\mathcal N(\theta_{\text{now}})$ 置信域可以采用KL散度： $\max_{\theta} \tilde L(\theta|\theta_{\text{now}}), \quad \text{s.t}.\quad\frac{1}{t}\sum_{i=1}^t\text{KL}\bigg [\pi(·|s_i;\theta_{\text{now}})||\pi(·|s_i;\theta)\bigg]\leq \Delta$ 其中 $\Delta$ 是一个需要调整的超参数。至此，TRPO的思想讲完了。

细节说明

在另外一些地方，你可能会看到类似 $J(\theta) =\mathbb E_{\pi_{\theta}}[Q_{\pi_{\theta}}(S,A)]$ 的写法，本质上这和 $J(\theta) =\mathbb E_{S}\bigg [\mathbb E_{A\sim\pi(·|S;\theta)}[Q_{\pi_{\theta}}(S,A)]\bigg]$ 没什么区别，只是把对 $S$ 和 $A$ 这两重期望合并成一重对策略 $\pi_{\theta}$ 的期望。实际当中常用基于 $\pi_{\theta}$ 的折扣回报来替代动作价值函数： $J(\theta)=\mathbb E_{\pi_{\theta}}[\sum_{t=0}^{\infty}\gamma^t r(s_t,a_t)]$