论文地址:https://arxiv.org/pdf/2412.01981
相关博客
【自然语言处理】【大模型】 ΨPO:一个理解人类偏好学习的统一理论框架
【强化学习】PPO:近端策略优化算法
【偏好对齐】PRM应该奖励单个步骤的正确性吗?
【偏好对齐】通过ORM直接推导出PRM
一、PRM的成本和性能困境
1. ORM和PRM
在强化学习中,奖励模型用于评估模型的输出。常见的两种奖励模型是结果奖励模型(ORM)和过程奖励模型(PRM)。ORM为整个响应分配一个稀疏奖励,而PRM则为每个中间步骤提供奖励。
ORM和PRM奖励分配方式。令 x x x表示指令, y y y为包含n个步骤的响应, y t y_t yt为第t步的响应, y < t y_{<t} y<t表示前t-1步的响应。PRM为第t步分配的奖励为 r θ t ( y < t , y t ) r^{t}_{\theta}(y_{<t},y_t) rθt(y<t,yt)。令Q值 q θ t ( y < t , y t ) q_{\theta}^t(y_{<t},y_t) qθt(y<t,yt)表示基于响应 y < t y_{<t} y<t和当前步骤 y t y_t yt的奖励 r θ r_{\theta} rθ的期望值。先前的研究将过程奖励定义为每个步骤的正确性,而近期研究则将其定义为优势值。即Q值之差: r θ t : = q θ t − q θ t − 1 r_{\theta}^t:=q_{\theta}^t-q_{\theta}^{t-1} rθt:=qθt−qθt−1。
2. PRM的优势
效果。结果奖励模型和过程奖励模型都能够提供奖励以评估模型的输出。然而,PRM在训练和推理时都表现出优于ORM的优势。
效率。PRM提供密集的步骤级奖励能让强化学习(RL)训练变得稳定且高效。
3. PRM的困境
尽管PRM很有效,但其训练难度更大,主要挑战在于训练数据的收集。为了收集PRM的训练数据,通常需要使用蒙特卡洛树搜索(MCTS)进行自动步骤标注。
MCTS基于指令和前t步的响应来采样多条轨迹,每条轨迹都会产生一个最终答案。但是,这种方法会带来高额的额外成本,并且由于标注过程存在噪声,可能会导致性能欠佳。
4. MCTS估计的问题
估计策略:
在MCTS中,有两种常见的标签估计策略:
- 硬估计:如果有任意rollout是正确的,那么步骤tt被标注为1,否则为0。即 l t = max { c 1 , c 2 , … , c N } l_t=\max\{c_1,c_2,\dots,c_N\} lt=max{c1,c2,…,cN}。
- 软估计:步骤t被标注为所有rollout中正确答案的比例,也就是 l t = ∑ t = 1 N c t / N l_t=\sum_{t=1}^N c_t/N lt=∑t=1Nct/N。
令ORM为
θ
\theta
θ,基于硬估计数据训练的PRM为
θ
h
\theta_h
θh,基于软估计数据训练的PRM为
θ
s
\theta_s
θs,那么两种策略的Q值表示为
q
θ
h
t
(
y
<
t
,
y
t
)
=
max
y
∣
y
<
t
r
θ
(
y
)
,
q
θ
s
t
(
y
<
t
,
y
t
)
=
E
π
r
e
f
(
y
∣
y
<
t
)
r
θ
(
y
)
q_{\theta_h}^t(y_{<t},y_t)=\max_{y|y_{<t}} r_{\theta}(y),q_{\theta_s}^t(y_{<t},y_t)=\mathbb{E}_{\pi_{ref}(y|y_{<t})}r_{\theta}(y) \\
qθht(y<t,yt)=y∣y<tmaxrθ(y),qθst(y<t,yt)=Eπref(y∣y<t)rθ(y)
潜在问题:
尽管硬估计和软估计都有其合理性,但它们都存在噪音问题。具体来说:
- 硬估计: q θ h t q_{\theta_h}^t qθht表示给定 y < t y_{<t} y<t的情况下的最大结果奖励 r θ r_{\theta} rθ,而不是期望值,因此会高估 Q Q Q值。
- 软估计:对于 q θ s t q_{\theta_s}^t qθst,由于策略模型的能力通常有限,要针对困难的指令采样处正确的解决方案很难,会受假阴性噪音的影响,从而低估 Q Q Q。
二、通过ORM直接构造PRM
MCTS虽然能够不借助人工来构造PRM数据,但是成本高昂且奖励值估计不准确。那么不通过MCTS,而是直接基于ORM来构造过程奖励可以吗?
1. 基于ORM构造PRM
ORM采用DPO中定义的形式,即
r
θ
(
y
)
:
=
β
log
π
θ
(
y
)
π
ref
(
y
)
r_{\theta}(y):=\beta\log\frac{\pi_{\theta}(y)}{\pi_{\text{ref}}(y)}
rθ(y):=βlogπref(y)πθ(y)。令
q
θ
t
(
y
<
t
,
y
t
)
:
=
∑
i
=
1
t
β
log
π
θ
(
y
i
∣
y
<
i
)
π
ref
(
y
i
∣
y
<
t
)
q_{\theta}^t(y_{<t},y_t):=\sum_{i=1}^t\beta\log\frac{\pi_{\theta}(y_i|y_{<i})}{\pi_{\text{ref}}(y_i|y_{<t})}
qθt(y<t,yt):=∑i=1tβlogπref(yi∣y<t)πθ(yi∣y<i),那么
q
θ
t
q_{\theta}^t
qθt是
r
(
θ
)
r(\theta)
r(θ)的指数平均值,即
q
θ
t
(
y
<
t
,
y
t
)
=
β
log
E
π
r
e
f
(
y
∣
y
≤
t
)
e
1
β
r
θ
(
y
)
q_{\theta}^t(y_{<t},y_t)=\beta\log\mathbb{E}_{\pi_{ref}(y|y_{\leq t})}e^{\frac{1}{\beta}r_{\theta}(y)} \\
qθt(y<t,yt)=βlogEπref(y∣y≤t)eβ1rθ(y)
所以,
q
θ
t
q_{\theta}^t
qθt表示结果奖励
r
θ
r_{\theta}
rθ在步骤
t
t
t处的精确期望值,即Q值。
既然,
q
θ
t
q_{\theta}^t
qθt是Q值,那么若令过程奖励值为优势值,则可以直接计算
r
θ
t
r_{\theta}^t
rθt为
r
θ
t
:
=
q
θ
t
−
q
θ
t
−
1
=
∑
i
=
t
−
1
t
β
log
π
θ
(
y
i
∣
y
<
i
)
π
ref
(
y
i
∣
y
<
i
)
r_{\theta}^t:=q_{\theta}^t-q_{\theta}^{t-1}=\sum_{i=t-1}^t\beta\log\frac{\pi_{\theta}(y_i|y_{<i})}{\pi_{\text{ref}}(y_i|y_{<i})} \\
rθt:=qθt−qθt−1=i=t−1∑tβlogπref(yi∣y<i)πθ(yi∣y<i)
2. 隐式PRM的奖励估计更合理
q θ s t = E π r e f ( y ∣ y < t ) r θ ( y ) ≤ q θ t ( y < t , y t ) ≤ max y ∣ y < t r θ ( y ) = q θ h t q_{\theta_{s}}^t=\mathbb{E}_{\pi_{ref}(y|y_{<t})}r_{\theta}(y)\leq q_{\theta}^t(y_{<t},y_t)\leq\max_{y|y_{<t}}r_{\theta}(y)=q_{\theta_h}^t \\ qθst=Eπref(y∣y<t)rθ(y)≤qθt(y<t,yt)≤y∣y<tmaxrθ(y)=qθht
上面提出的隐式PRM理论上介于 q θ s t q_{\theta_s}^t qθst和 q θ h t q_{\theta_h}^t qθht之间,而 q θ s t q_{\theta_s}^t qθst和 q θ h t q_{\theta_h}^t qθht分别会低估和高估Q值,因此 q θ t q_{\theta}^t qθt的估计更加准确且鲁棒性更强。
三、实验
1. 效果
论文中各种隐式PRM的效果优于baseline。