2016-ICLR-HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION
解决问题
强化学习的目标为最大化策略的预期总回报,其中一个主要困难为 行为对reward的影响存在一个长时间的延迟(credit assignment problem)。价值函数为信用分配提供了一种优雅的解决方案,它们允许我们在延迟的奖励到来之前估计一个动作的好坏。AC方法中使用价值函数而不是经验回报,以引入偏差为代价获得方差较低的估计量。但是,虽然高方差需要使用更多的样本,但偏差更有害——即使样本数量不受限制,偏差也会导致算法无法收敛,或者收敛到一个甚至不是局部最优的糟糕解决方案。
本文方法可以大幅降低方差并保证偏差在可接受的范围内。
具体方法
policy gradient:
其中
ψ
\psi
ψ的可能形式有:
其中
A
t
A_t
At:
这种形式具有最低的方差,它的解释为:政策梯度方向上的一步应该增加优于平均水平的行动的概率,降低低于平均水平的行为的概率。根据其定义,优势函数
A
π
(
s
,
A
)
=
Q
π
(
s
、
A
)
−
V
π
(
s
)
A_π(s,A)=Q_π(s、A)−V_π(s)
Aπ(s,A)=Qπ(s、A)−Vπ(s)衡量该操作是否比策略的默认行为更好或更差。
通过引入一个方差缩减参数
γ
\gamma
γ,这使我们能够以引入偏差为代价,通过降低与延迟效应相对应的奖励权重来减少方差。折扣Value-function:
将引入优势函数的γ-just估计量的概念,使用它来代替
A
π
,
γ
A^{\pi,\gamma}
Aπ,γ时不会引入额外的偏差,有以下的这些形式(为什么这些形式不会引入偏差没有看懂):
ADVANTAGE FUNCTION ESTIMATION
with discount
γ
\gamma
γ的TD 残差:(只有当
V
=
V
π
,
γ
V=V^{\pi,\gamma}
V=Vπ,γ时才不会引入偏差)
引入k个时间步总和的
δ
\delta
δ:
当
k
−
>
∞
k->\infty
k−>∞时,
λ
k
V
(
s
+
k
)
\lambda^kV_{(s+k)}
λkV(s+k)变的高度折扣,就等价于:
其中
V
(
t
)
V(t)
V(t)不引入偏差,等价于实验reward结果减去value function baseline。
G A E ( γ , λ ) GAE(\gamma, \lambda) GAE(γ,λ)为k步 A A A的指数加权平均值:
通过条件参数
λ
\lambda
λ可以控制方差和偏差的平衡,
λ
\lambda
λ趋近于1 ,方差大;趋近于0,偏差大,
两个参数:
具有两个单独参数γ和λ的优势估计器,在使用近似值函数时,这两个参数都有助于偏差-方差权衡。然而,它们服务于不同的目的,并且在不同的值范围内最有效。 γ \gamma γ直接控制 V V V。
无论值函数的精度如何,γ<1都会在策略梯度估计中引入偏差。另一方面,λ<1仅在值函数不准确时引入偏差。根据经验,发现λ的最佳值远低于γ的最佳值,这可能对于合理准确的值函数λ引入的偏差远小于γ。
引入GAE后(当
λ
\lambda
λ=1时等式成立):
算法流程:
实验
实验发现 λ \lambda λ的取值在【0.9,0.99】之间通常会产生最佳的效果。