NIPS 2020
paper
code
如何利用多个次优专家策略来引导智能体在线学习,后续有多个文章研究该设定下的RL。
Intro
论文探讨了在强化学习(RL)中,如何通过模仿多个次优策略(称为oracle)来提升策略性能的问题。模仿学习(Imitation Learning, IL)通过在训练期间使用oracle策略作为引导,减少了这种成本。然而实际情况下,学习者可以访问到多个次优的oracle,这些oracle在某些状态下可能会提供相互矛盾的指导。现有的模仿学习文献对这种情况的处理相对有限。
论文的主要贡献包括:
- 提出了一个理论框架,用于从多个oracle中学习,特别是通过定义一个基于多个oracle策略价值函数最大值的基准线(max-aggregated baseline),来解决多个oracle之间冲突的建议。
- 提出了一个新颖的模仿学习算法MAMBA(Max-aggregation of Multiple Baselines),它可以通过在线学习的方式,学习与max-aggregated baseline竞争的策略。MAMBA是一个基于广义优势估计(Generalized Advantage Estimation, GAE)风格的梯度估计器的一阶算法。
- 提供了MAMBA的遗憾(regret)性能保证,并在实验中评估了MAMBA与标准策略梯度和AggreVaTe(D)算法的性能,展示了MAMBA利用单个和多个弱oracle进行演示的能力,并显著加快了策略优化的速度。 论文还讨论了如何选择在给定状态下切换不同oracle的点,以及是否可以学习一种可靠的规则来进行切换。
Method
文章设定智能体能够访问一组Oracle策略
Π
e
=
{
π
k
}
k
∈
[
K
]
\Pi^{\mathsf{e}}=\{\pi^{k}\}_{k\in[K]}
Πe={πk}k∈[K]。设
V
k
:
=
V
π
k
V^k:=V^{\pi^k}
Vk:=Vπk表示策略对应的状态价值函数。为了防止多种Oracle给出矛盾的建议导致智能体在线优化,文章提出max-aggregated baseline
f
max
(
s
)
:
=
max
k
∈
[
K
]
V
k
(
s
)
f^{\max}(s):=\max_{k\in[K]}V^k(s)
fmax(s):=k∈[K]maxVk(s)
该值将作为一个目标,让智能体学习策略使得状态值函数大于该baseline。而此时需要完全了解MDP过程以及oracle准确的价值估计函数,这在IL中无法满足。因此,本文提出在线RL去逼近。
若
A
^
\hat{A}
A^表示
A
f
^
m
a
x
A^{\widehat{f}^{\mathrm{max}}}
Af
max。采用基于优势函数
A
^
\hat{A}
A^的策略梯度方法优化
∇
ℓ
^
n
(
π
n
)
=
−
T
E
s
∼
d
π
n
E
a
∼
π
∣
s
[
∇
log
π
(
a
∣
s
)
A
^
(
s
,
a
)
]
∣
π
=
π
n
\nabla\widehat{\ell}_n(\pi_n)=-T\mathbb{E}_{s\sim d^{\pi n}}\mathbb{E}_{a\sim\pi|s}\left[\nabla\log\pi(a|s)\widehat{A}(s,a)\right]|_{\pi=\pi_n}
∇ℓ
n(πn)=−TEs∼dπnEa∼π∣s[∇logπ(a∣s)A
(s,a)]∣π=πn
该定理说明在一阶在线算法(一阶导数更新模型参数)的期望遗憾满足一定条件下,最大化下界max-aggregated baseline的期望,便最大化价值函数。而在单个oracle下, 基于MC近似估计的
f
^
m
a
x
\hat{f}^{max}
f^max是无偏估计。但是存在T倍方差。在多个Oracle下对
f
m
a
x
f^{max}
fmax行无偏估计十分困难。因此本文采用基于类似TD-
λ
\lambda
λ的加权估计方法,对其进行函数近似。优化目标可表示为
ℓ
n
(
π
;
λ
)
:
=
−
(
1
−
λ
)
T
E
s
∼
d
π
n
[
A
λ
max
,
π
(
s
,
π
)
]
−
λ
E
s
∼
d
0
[
A
λ
max
,
π
(
s
,
π
)
]
\ell_n(\pi;\lambda):=-(1-\lambda)T\mathbb{E}_{s\thicksim d^{\pi_n}}\left[A_\lambda^{\max,\pi}(s,\pi)\right]-\lambda\mathbb{E}_{s\thicksim d_0}\left[A_\lambda^{\max,\pi}(s,\pi)\right]
ℓn(π;λ):=−(1−λ)TEs∼dπn[Aλmax,π(s,π)]−λEs∼d0[Aλmax,π(s,π)]
其中加权优势函数为
A
λ
max
,
π
(
s
,
a
)
:
=
(
1
−
λ
)
∑
i
=
0
∞
λ
i
A
(
i
)
max
,
π
(
s
,
a
)
A
(
i
)
max
,
π
(
s
t
,
a
t
)
:
=
E
ξ
t
∼
ρ
π
∣
s
t
[
r
(
s
t
,
a
t
)
+
⋯
+
r
(
s
t
+
i
,
a
t
+
i
)
+
f
max
(
s
t
+
i
+
1
)
]
−
f
max
(
s
t
)
A_\lambda^{\max,\pi}(s,a):=(1-\lambda)\sum_{i=0}^\infty\lambda^iA_{(i)}^{\max,\pi}(s,a)\\\\A_{(i)}^{\max,\pi}(s_t,a_t):=\mathbb{E}_{\xi_t\sim\rho^\pi|s_t}[r(s_t,a_t)+\cdots+r(s_{t+i},a_{t+i})+f^{\max}(s_{t+i+1})]-f^{\max}(s_t)
Aλmax,π(s,a):=(1−λ)i=0∑∞λiA(i)max,π(s,a)A(i)max,π(st,at):=Eξt∼ρπ∣st[r(st,at)+⋯+r(st+i,at+i)+fmax(st+i+1)]−fmax(st)
该优化目标的梯度满足以下定理
因此原问题梯度表示为
∇
ℓ
^
n
(
π
n
;
λ
)
=
−
T
E
s
∼
d
π
n
E
a
∼
π
∣
s
[
∇
log
π
(
a
∣
s
)
A
^
λ
π
(
s
,
a
)
]
∣
π
=
π
n
(
17
)
\nabla\widehat{\ell}_n(\pi_n;\lambda)=-T\mathbb{E}_{s\sim d^{\pi_n}}\mathbb{E}_{a\sim\pi|s}[\nabla\log\pi(a|s)\widehat{A}_\lambda^\pi(s,a)]|_{\pi=\pi_n} (17)
∇ℓ
n(πn;λ)=−TEs∼dπnEa∼π∣s[∇logπ(a∣s)A
λπ(s,a)]∣π=πn(17)
Lemma
4.
Define
A
^
(
s
,
a
)
:
=
r
(
s
,
a
)
+
E
s
′
∣
s
,
a
[
f
^
max
(
s
′
)
]
−
f
^
max
(
s
)
.
It
holds
that
for
all
λ
∈
[
0
,
1
]
,
A
^
λ
π
(
s
t
,
a
t
)
=
E
ξ
t
∼
ρ
π
∣
s
t
[
∑
τ
=
t
T
−
1
λ
τ
−
t
A
^
(
a
τ
,
s
τ
)
]
(18)
\textbf{Lemma 4. Define }\widehat{A}(s,a):=r(s,a)+\mathbb{E}_{s^{\prime}|s,a}[\widehat{f}^{\max}(s^{\prime})]-\widehat{f}^{\max}(s).\textit{ It holds that for all }\lambda\in[0,1],\\\widehat{A}_\lambda^\pi(s_t,a_t)=\mathbb{E}_{\xi_t\sim\rho^\pi|s_t}\left[\sum_{\tau=t}^{T-1}\lambda^{\tau-t}\widehat{A}(a_\tau,s_\tau)\right]\text{(18)}
Lemma 4. Define A
(s,a):=r(s,a)+Es′∣s,a[f
max(s′)]−f
max(s). It holds that for all λ∈[0,1],A
λπ(st,at)=Eξt∼ρπ∣st[τ=t∑T−1λτ−tA
(aτ,sτ)](18)
基于上式,便可利用近似函数
f
^
max
\hat{f}^{\max}
f^max,通过采样轨迹数据获得无偏估计,并通过策略梯度方法优化策略。