Paper Card
论文标题:SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
论文作者:Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
论文链接:https://arxiv.org/abs/2501.17161v1
项目主页:https://tianzhechu.com/SFTvsRL/
论文出处:/
论文被引:/
Abstract
SFT 和 RL 是广泛用于基础模型后训练的技术。然而,它们在增强模型泛化能力的作用仍不清楚。本文研究了 SFT 和 RL 对泛化和记忆的比较效果,重点关注基于文本和视觉的环境。本文通过算术推理纸牌游戏 GeneralPoints 和一个现实世界的导航环境 V-IRL,以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见变体。结果表明,RL,尤其是在基于结果的奖励下进行训练时,在基于规则的文本和视觉环境中都能泛化。相反,SFT 倾向于记忆训练数据,并且在这两种情况下都难以泛化到分布之外的数据。RL 提高了模型的底层视觉识别能力,有助于其在视觉领域增强泛化能力。 尽管 RL 的泛化能力更强,但 SFT 仍有助于有效的 RL 训练:SFT 稳定了模型的输出格式,使后续的 RL 能够实现其性能提升。这些发现证明了 RL 在复杂、多模态任务中获取可泛化知识的优势。
Summary
研究背景
分析基础模型泛化能力的一个关键挑战是将数据记忆与可泛化原则的习得区分开来。因此,研究了一个关键问题:SFT 或 RL 主要是否记忆训练数据,或者它们是否学习了可以适应新任务变体的可泛化原则。
方法介绍
为了解决这个问题,关注两个泛化:基于文本规则的泛化和视觉泛化。对于文本规则,研究模型应用学习到的规则(给定文本指令)到这些规则的变体中的能力。对于 VLMs,视觉泛化衡量在给定任务内,对视觉输入变化(例如颜色和空间布局)的性能一致性。第一个任务是 GeneralPoints,这是一个纸牌游戏任务,类似于 RL4VLM 中的Points24 任务,旨在评估模型的算术推理能力。在 GeneralPoints 中,模型接收 4 张牌(以文本描述或图像),并需要使每张牌的数值恰好一次来计算目标数字(默认为 24)。其次,采用现实世界的导航任务 V-IRL,重点关注模型的空间推理能力。
采用与 rl4vlm(https://rl4vlm.github.io/) 类似的多步骤 RL 框架,在对骨干模型 Llama-3 进行 SFT 后,使用顺序修正公式[1]实例化 RL 。在GeneralPoints和V-IRL中,RL 学习到可泛化的规则(用文本表达),其中分布内性能提升也转移到未见过的规则。相反,SFT 似乎记住了训练规则,无法泛化(图 1)。 进一步研究了视觉领域的泛化,RL 也可以泛化到视觉OOD任务,而 SFT 仍然难以应对。为了了解 RL 如何影响模型的视觉能力,对GeneralPoints进行了额外的分析,结果表明,使用基于结果的奖励函数训练 RL 提高了视觉识别能力。 虽然 RL 有比 SFT 更好的泛化能力,但 SFT 仍然有助于稳定模型的输出格式,使 RL 能够获得其性能提升。通过增加最大步数来扩展推理时间的计算量,可以带来更好的泛化能力。
[1] Scaling LLM testtime compute optimally can be more effective than scaling model parameters.
相关工作
Post-training
后训练对于增强模型的性能非常重要,通常使用SFT实现,通过在特定任务的指令格式数据上微调预训练模型,使其适应下游任务。本文旨在研究SFT和RL在LLM和VLM上的泛化能力和记忆能力。
Memorization and generalization in LLM/VLM
在LLM中,记忆可能表现为模型记住了训练数据,而泛化则反映了模型输出分布与预训练数据分布之间的差异。先前研究表明,LLM在简单、知识密集型任务上表现出更多过拟合,在更复杂、推理密集型任务上表现出更大的泛化能力。本文旨在研究不同的后训练范式在基于文本规则和视觉变化的设置下,LLM和VLM对记忆与泛化的作用。
Scaling up inference-time compute
有工作已经证明,在推理过程中微调验证器可以提高模型精度,有效地利用测试时间计算。 值得注意的是,最近的研究结果揭示了推理时间计算的“scaling laws”,随着计算资源的增加而带来的显著性能提升。本研究基于这些发现,从两个方面进行改进。首先,将推理时间验证整合到多轮 RL 公式中,使模型能够识别并纠正其错误。 其次,研究了推理时间验证对 RL 泛化的影响,证明了扩展推理时间验证(就最大验证步骤数而言)是 RL 泛化的关键。
Improving visual capability in VLMs
当前的VLM的视觉感知仍然存在局限性。先前的工作包括结合多个视觉编码器,创建高质量的SFT数据,微调ViT。本文旨在证明 RL 也可以提高视觉感知能力。
前置知识
考虑 finite horizon decision making,RL 符号约定:
A
\mathcal{A}
A:动作空间(action space)
r
:
S
×
A
→
R
r: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}
r:S×A→R:奖励函数(reward function)
T
T
T:每个 episode 的最大 steps 数量
π
:
S
→
A
\pi : \mathcal{S} \rightarrow \mathcal{A}
π:S→A:策略模型,学习最大化 overal return
m
a
x
π
∈
Π
E
π
[
∑
t
=
0
T
r
t
]
max_{\pi \in \Pi}\mathbb{E}_{\pi} \lbrack \sum^T_{t=0} r_t \rbrack
maxπ∈ΠEπ[∑t=0Trt]:总回报(overall return)
r
t
=
r
(
s
t
,
a
t
)
r_t = r(s_t, a_t)
rt=r(st,at)
π
(
a
∣
s
)
∈
[
0
,
1
]
\pi(a | s) \in [0,1]
π(a∣s)∈[0,1]:probability of
π
\pi
π choosing
a
a
a at
s
s
s
采用多轮 RL 设置进行基础模型训练:
V
\mathcal{V}
V:离散且有限的 vocabulary (token) space
V
m
\mathcal{V}^m
Vm:input text space
V
n
\mathcal{V}^n
Vn:output text space
m
m
m:input sequence
n
i
n
\mathbf{n}^{in}
nin
n
n
n:output sequence
n
o
u
t
\mathbf{n}^{out}
nout
对于 VLM:
O
\mathcal{O}
O:RGB image space
S
\mathcal{S}
S:state space
S
:
V
m
×
O
\mathcal{S}:\mathcal{V}^m \times \mathcal{O}
S:Vm×O:for VLM
S
:
V
m
\mathcal{S}:\mathcal{V}^m
S:Vm:for LLM
A
:
V
n
\mathcal{A}:\mathcal{V}^n
A:Vn:action space
V
E
R
:
V
n
→
R
×
V
k
VER: \mathcal{V}^n \rightarrow \mathbb{R} \times \mathcal{V}^k
VER:Vn→R×Vk:verifier, evaluates the outcome of
v
o
u
t
\mathbf{v}^{out}
vout and generates an outcome-based reward function
r
r
r along with textual information
v
v
e
r
\mathbf{v}^{ver}
vver
π
θ
:
S
→
V
n
\pi_{\theta}: \mathcal{S} \rightarrow \mathcal{V}^n
πθ:S→Vn:policy network, adopt PPO as the backbone RL algorithm for updating
π
θ
\pi_{\theta}
πθ
评估任务
为了评估不同后训练方法的泛化能力,选择了两个任务,每个任务都提供规则和视觉变化。第一个任务,GeneralPoints,是设计的一个新环境,用于评估算术推理能力。 第二个任务,V-IRL,旨在考察模型在开放世界视觉导航领域中的推理能力。
General Points Environment
GeneralPoints环境建立在Points24环境上,旨在评估算术推理的泛化能力。环境的每个状态 s 包含 4 张卡片,以文本形式描述(GP-L)或以图像形式(GP-VL)呈现,如图 2 左侧关于GeneralPoints的视觉示例。目标是生成一个等于目标数字(默认为24)的方程式,使用卡片中的所有4个数字且每个数字只使用一次。
规则变化:为了研究模型是学习算术运算还是仅仅记住后训练数据,在GeneralPoints中引入了规则变化。这些变化包括将符号“J”、“Q”和“K”分别解释为“11”、“12”和“13”。 这些变化确保了对模型在不同环境中泛化算术推理能力的严格评估。每条规则都在输入提示中以文本形式指定,图 3 中的 {tasks rules} 部分。 为了研究基于规则的泛化,使用一条规则对模型进行后训练,然后使用不同的规则进行评估。
视觉变化:GeneralPoints环境也可以自然地定制,以评估跨视觉变化的泛化能力。 由于主要的视觉挑战是识别每张卡片的数量,而与卡片的颜色无关,将不同颜色的卡片视为任务的视觉变化。在视觉泛化设置中,使用一种颜色的卡片训练模型,然后使用另一种颜色测试OOD性能。
V-IRL Environment
利用V-IRL环境在一个使用逼真的视觉输入的开放世界导航领域中研究空间推理能力。考虑了环境的两个版本, 一个(V-IRL-L)由纯语言描述组成,另一个(V-IRL-VL)包含视觉语言输入。V-IRL中的主要视觉挑战涉及从视觉观察中识别不同的地标采取行动之前。目标是通过遵循包含空间信息的指令集来导航到目标位置。
规则变化:为了评估模型是否拥有空间知识或仅仅记住训练后数据,考虑了两种不同的动作空间配置。第一个变体使用绝对方向动作空间,其中包括{‘north’, ‘northeast’, ‘east’, ‘southeast’, ‘south’, ‘southwest’, ‘west’, ‘northwest’}。 第二个变体采用相对方向动作空间,包含{‘left’, ‘right’, ‘slightly left’, ‘slightly right’}。 这种相对配置分别将当前方向调整90度或45度到左或右。V-IRL中导航任务的概述见图 4,V-IRL中的详细状态-动作转换见图13。
视觉变化:V-IRL 中主要的视觉挑战是从视觉观测中识别地标(图 4中的绿色部分)。 由于V-IRL环境包含来自不同城市的视觉观测,可以通过训练模型在一个位置进行导航,然后评估其在不同位置的性能来评估V-IRL中的视觉泛化能力。
消融实验
采用 Llama-3.2-Vision-11B 作为骨干模型。 遵循 RLHF 和 RL4VLM 的标准流程,在运行 RL 之前使用 SFT 初始化模型。研究以下问题:
- SFT或RL如何影响模型对不同规则的泛化?
- 当模型包含视觉组件时,RL/SFT如何影响其对不同视觉变化的泛化?
- RL/SFT如何影响VLM中的视觉识别能力?
- SFT在RL训练中起什么作用?
- 验证迭代的数量如何影响泛化?
Generalization across Rules
对于每个任务,分别针对单个规则调整 RL 和 SFT 的训练计算量。将训练规则上的结果视为分布内 (ID) 性能,而未见过规则上的结果则衡量分布外 (OOD) 泛化能力。在 GeneralPoints 中,ID 的情况将所有“J”、“Q”、“K”都视为 10,OOD 则将它们解释为 11、12 和 13。 对于 V-IRL,ID 采用 绝对方向 坐标系,OOD 则使用 相对方向 动作空间。
结论:RL (RL) 实现泛化,SFT (SFT) 实现记忆。
Generalization in Visual Out-of-Distribution Tasks
研究视觉变化对OOD泛化能力的影响。对于GeneralPoints,我们使用黑桃 (♠, ♣) 训练VLM,并在红桃 (♥, ♠) 上测试其分布外性能。对于V-IRL,在纽约市收集的路线数据上训练模型,并在包含来自世界各地不同城市路线的原始V-IRL VLN小型基准测试上进行评估。
结论:RL (RL) 在视觉分布外任务中具有泛化能力。
RL Improves Visual Capabilities
RL如何影响VLMs的视觉能力? 在GP-VL环境中进行了消融研究,以调查RL和SFT的分布外性能,以及模型在识别输入图像中的4张卡片方面的视觉识别准确性。 研究了通过RL/SFT扩展后期训练计算如何影响基于规则的分布外泛化能力(图 8 左侧),以及视觉识别准确性和视觉分布外性能(图 8 右侧)。
结论:扩展RL提高了VLM训练中的视觉识别准确性。
The Role of SFT for RL Training
关注另一个关键问题:SFT 对于 RL 训练是否必要? 为了回答这个问题,进行了额外的实验,直接将端到端RL应用于使用GeneralPoints对的基础模型Llama3.2进行后训练。
结论:当主干模型不遵循指令时,RL训练需要指令微调。
Role of Verification Iterations
为验证验证多步骤训练和评估流程的必要性并更好地理解其效果,使用GP-L 进行了不同验证迭代次数 {1,3,5,10} 的RL实验。
结论:提升验证规模提高了泛化能力。
实验结论
通过在GeneralPoints和V-IRL任务上进行的大量实验,我们证明了RL在学习可泛化知识方面表现出优越的性能,而SFT往往只是记住训练数据,这在规则和视觉变化中都得到了体现。这种现象在多模态算术和空间推理能力中始终存在。还研究了RL对视觉识别的影响、SFT的作用以及验证步骤的作用。
研究过程中,有两个挑战没有解决:
SFT在GP-VL上失败:图5中,对于GP-VL,我们观察到监督微调未能达到与RL相当的分布内性能。扩大SFT规模会降低视觉识别能力,假设SFT局部过拟合于推理 token 而忽略了识别 token,这可能是由于推理 token 的频率更高。
RL在极端情况下的局限性:对于在Llama-3.2上进行有效的RL训练,SFT是必要的。表明当应用于极度欠拟合或过拟合的初始检查点时,RL的有效性有限。