[EAI-033] SFT 记忆，RL 泛化，LLM和VLM的消融研究

Paper Card

论文标题：SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
论文作者：Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
论文链接：https://arxiv.org/abs/2501.17161v1
项目主页：https://tianzhechu.com/SFTvsRL/
论文出处：/
论文被引：/

Abstract

SFT 和 RL 是广泛用于基础模型后训练的技术。然而，它们在增强模型泛化能力的作用仍不清楚。本文研究了 SFT 和 RL 对泛化和记忆的比较效果，重点关注基于文本和视觉的环境。本文通过算术推理纸牌游戏 GeneralPoints 和一个现实世界的导航环境 V-IRL，以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见变体。结果表明，RL，尤其是在基于结果的奖励下进行训练时，在基于规则的文本和视觉环境中都能泛化。相反，SFT 倾向于记忆训练数据，并且在这两种情况下都难以泛化到分布之外的数据。RL 提高了模型的底层视觉识别能力，有助于其在视觉领域增强泛化能力。尽管 RL 的泛化能力更强，但 SFT 仍有助于有效的 RL 训练：SFT 稳定了模型的输出格式，使后续的 RL 能够实现其性能提升。这些发现证明了 RL 在复杂、多模态任务中获取可泛化知识的优势。

在这里插入图片描述

Summary

研究背景

分析基础模型泛化能力的一个关键挑战是将数据记忆与可泛化原则的习得区分开来。因此，研究了一个关键问题：SFT 或 RL 主要是否记忆训练数据，或者它们是否学习了可以适应新任务变体的可泛化原则。

方法介绍

为了解决这个问题，关注两个泛化：基于文本规则的泛化和视觉泛化。对于文本规则，研究模型应用学习到的规则（给定文本指令）到这些规则的变体中的能力。对于 VLMs，视觉泛化衡量在给定任务内，对视觉输入变化（例如颜色和空间布局）的性能一致性。第一个任务是 GeneralPoints，这是一个纸牌游戏任务，类似于 RL4VLM 中的Points24 任务，旨在评估模型的算术推理能力。在 GeneralPoints 中，模型接收 4 张牌（以文本描述或图像），并需要使每张牌的数值恰好一次来计算目标数字（默认为 24）。其次，采用现实世界的导航任务 V-IRL，重点关注模型的空间推理能力。

采用与 rl4vlm(https://rl4vlm.github.io/) 类似的多步骤 RL 框架，在对骨干模型 Llama-3 进行 SFT 后，使用顺序修正公式[1]实例化 RL 。在GeneralPoints和V-IRL中，RL 学习到可泛化的规则（用文本表达），其中分布内性能提升也转移到未见过的规则。相反，SFT 似乎记住了训练规则，无法泛化（图 1）。进一步研究了视觉领域的泛化，RL 也可以泛化到视觉OOD任务，而 SFT 仍然难以应对。为了了解 RL 如何影响模型的视觉能力，对GeneralPoints进行了额外的分析，结果表明，使用基于结果的奖励函数训练 RL 提高了视觉识别能力。虽然 RL 有比 SFT 更好的泛化能力，但 SFT 仍然有助于稳定模型的输出格式，使 RL 能够获得其性能提升。通过增加最大步数来扩展推理时间的计算量，可以带来更好的泛化能力。

[1] Scaling LLM testtime compute optimally can be more effective than scaling model parameters.

前置知识

考虑 finite horizon decision making，RL 符号约定：
$\mathcal{A}$ ：动作空间（action space）
$\mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$ ：奖励函数（reward function）
$T$ ：每个 episode 的最大 steps 数量
$\pi : \mathcal{S} \rightarrow \mathcal{A}$ ：策略模型，学习最大化 overal return
$max_{\pi \in \Pi}\mathbb{E}_{\pi} \lbrack \sum^T_{t=0} r_t \rbrack$ ：总回报（overall return）
$r_t = r(s_t, a_t)$
$\pi(a | s) \in [0,1]$ ：probability of $\pi$ choosing $a$ at $s$

采用多轮 RL 设置进行基础模型训练：
$\mathcal{V}$ ：离散且有限的 vocabulary (token) space
$\mathcal{V}^m$ ：input text space
$\mathcal{V}^n$ ：output text space
$m$ ：input sequence $\mathbf{n}^{in}$
$n$ ：output sequence $\mathbf{n}^{out}$

对于 VLM：
$\mathcal{O}$ ：RGB image space
$\mathcal{S}$ ：state space
$\mathcal{S}:\mathcal{V}^m \times \mathcal{O}$ ：for VLM
$\mathcal{S}:\mathcal{V}^m$ ：for LLM
$\mathcal{A}:\mathcal{V}^n$ ：action space
$\mathcal{V}^n \rightarrow \mathbb{R} \times \mathcal{V}^k$ ：verifier, evaluates the outcome of $\mathbf{v}^{out}$ and generates an outcome-based reward function $r$ along with textual information $\mathbf{v}^{ver}$
$\pi_{\theta}: \mathcal{S} \rightarrow \mathcal{V}^n$ ：policy network, adopt PPO as the backbone RL algorithm for updating $\pi_{\theta}$

评估任务

为了评估不同后训练方法的泛化能力，选择了两个任务，每个任务都提供规则和视觉变化。第一个任务，GeneralPoints，是设计的一个新环境，用于评估算术推理能力。第二个任务，V-IRL，旨在考察模型在开放世界视觉导航领域中的推理能力。

General Points Environment

在这里插入图片描述
GeneralPoints环境建立在Points24环境上，旨在评估算术推理的泛化能力。环境的每个状态 s 包含 4 张卡片，以文本形式描述（GP-L）或以图像形式（GP-VL）呈现，如图 2 左侧关于GeneralPoints的视觉示例。目标是生成一个等于目标数字（默认为24）的方程式，使用卡片中的所有4个数字且每个数字只使用一次。

规则变化：为了研究模型是学习算术运算还是仅仅记住后训练数据，在GeneralPoints中引入了规则变化。这些变化包括将符号“J”、“Q”和“K”分别解释为“11”、“12”和“13”。这些变化确保了对模型在不同环境中泛化算术推理能力的严格评估。每条规则都在输入提示中以文本形式指定，图 3 中的 {tasks rules} 部分。为了研究基于规则的泛化，使用一条规则对模型进行后训练，然后使用不同的规则进行评估。

视觉变化：GeneralPoints环境也可以自然地定制，以评估跨视觉变化的泛化能力。由于主要的视觉挑战是识别每张卡片的数量，而与卡片的颜色无关，将不同颜色的卡片视为任务的视觉变化。在视觉泛化设置中，使用一种颜色的卡片训练模型，然后使用另一种颜色测试OOD性能。

V-IRL Environment

利用V-IRL环境在一个使用逼真的视觉输入的开放世界导航领域中研究空间推理能力。考虑了环境的两个版本，一个(V-IRL-L)由纯语言描述组成，另一个(V-IRL-VL)包含视觉语言输入。V-IRL中的主要视觉挑战涉及从视觉观察中识别不同的地标采取行动之前。目标是通过遵循包含空间信息的指令集来导航到目标位置。

规则变化：为了评估模型是否拥有空间知识或仅仅记住训练后数据，考虑了两种不同的动作空间配置。第一个变体使用绝对方向动作空间，其中包括{‘north’, ‘northeast’, ‘east’, ‘southeast’, ‘south’, ‘southwest’, ‘west’, ‘northwest’}。第二个变体采用相对方向动作空间，包含{‘left’, ‘right’, ‘slightly left’, ‘slightly right’}。这种相对配置分别将当前方向调整90度或45度到左或右。V-IRL中导航任务的概述见图 4，V-IRL中的详细状态-动作转换见图13。
在这里插入图片描述

视觉变化：V-IRL 中主要的视觉挑战是从视觉观测中识别地标（图 4中的绿色部分）。由于V-IRL环境包含来自不同城市的视觉观测，可以通过训练模型在一个位置进行导航，然后评估其在不同位置的性能来评估V-IRL中的视觉泛化能力。

消融实验

采用 Llama-3.2-Vision-11B 作为骨干模型。遵循 RLHF 和 RL4VLM 的标准流程，在运行 RL 之前使用 SFT 初始化模型。研究以下问题：

SFT或RL如何影响模型对不同规则的泛化？
当模型包含视觉组件时，RL/SFT如何影响其对不同视觉变化的泛化？
RL/SFT如何影响VLM中的视觉识别能力？
SFT在RL训练中起什么作用？
验证迭代的数量如何影响泛化？

Generalization across Rules

对于每个任务，分别针对单个规则调整 RL 和 SFT 的训练计算量。将训练规则上的结果视为分布内 (ID) 性能，而未见过规则上的结果则衡量分布外 (OOD) 泛化能力。在 GeneralPoints 中，ID 的情况将所有“J”、“Q”、“K”都视为 10，OOD 则将它们解释为 11、12 和 13。对于 V-IRL，ID 采用绝对方向坐标系，OOD 则使用相对方向动作空间。

结论：RL (RL) 实现泛化，SFT (SFT) 实现记忆。

在这里插入图片描述