[EAI-033] SFT 记忆,RL 泛化,LLM和VLM的消融研究

Paper Card

论文标题:SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training
论文作者:Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
论文链接:https://arxiv.org/abs/2501.17161v1
项目主页:https://tianzhechu.com/SFTvsRL/
论文出处:/
论文被引:/

Abstract

SFT 和 RL 是广泛用于基础模型后训练的技术。然而,它们在增强模型泛化能力的作用仍不清楚。本文研究了 SFT 和 RL 对泛化和记忆的比较效果,重点关注基于文本和视觉的环境。本文通过算术推理纸牌游戏 GeneralPoints 和一个现实世界的导航环境 V-IRL,以评估使用 SFT 和 RL 训练的模型如何在文本和视觉领域泛化到未见变体。结果表明,RL,尤其是在基于结果的奖励下进行训练时,在基于规则的文本和视觉环境中都能泛化。相反,SFT 倾向于记忆训练数据,并且在这两种情况下都难以泛化到分布之外的数据。RL 提高了模型的底层视觉识别能力,有助于其在视觉领域增强泛化能力。 尽管 RL 的泛化能力更强,但 SFT 仍有助于有效的 RL 训练:SFT 稳定了模型的输出格式,使后续的 RL 能够实现其性能提升。这些发现证明了 RL 在复杂、多模态任务中获取可泛化知识的优势。

在这里插入图片描述

Summary

研究背景

分析基础模型泛化能力的一个关键挑战是将数据记忆与可泛化原则的习得区分开来。因此,研究了一个关键问题:SFT 或 RL 主要是否记忆训练数据,或者它们是否学习了可以适应新任务变体的可泛化原则。

方法介绍

为了解决这个问题,关注两个泛化:基于文本规则的泛化和视觉泛化。对于文本规则,研究模型应用学习到的规则(给定文本指令)到这些规则的变体中的能力。对于 VLMs,视觉泛化衡量在给定任务内,对视觉输入变化(例如颜色和空间布局)的性能一致性。第一个任务是 GeneralPoints,这是一个纸牌游戏任务,类似于 RL4VLM 中的Points24 任务,旨在评估模型的算术推理能力。在 GeneralPoints 中,模型接收 4 张牌(以文本描述或图像),并需要使每张牌的数值恰好一次来计算目标数字(默认为 24)。其次,采用现实世界的导航任务 V-IRL,重点关注模型的空间推理能力。

采用与 rl4vlm(https://rl4vlm.github.io/) 类似的多步骤 RL 框架,在对骨干模型 Llama-3 进行 SFT 后,使用顺序修正公式[1]实例化 RL 。在GeneralPoints和V-IRL中,RL 学习到可泛化的规则(用文本表达),其中分布内性能提升也转移到未见过的规则。相反,SFT 似乎记住了训练规则,无法泛化(图 1)。 进一步研究了视觉领域的泛化,RL 也可以泛化到视觉OOD任务,而 SFT 仍然难以应对。为了了解 RL 如何影响模型的视觉能力,对GeneralPoints进行了额外的分析,结果表明,使用基于结果的奖励函数训练 RL 提高了视觉识别能力。 虽然 RL 有比 SFT 更好的泛化能力,但 SFT 仍然有助于稳定模型的输出格式,使 RL 能够获得其性能提升。通过增加最大步数来扩展推理时间的计算量,可以带来更好的泛化能力。

[1] Scaling LLM testtime compute optimally can be more effective than scaling model parameters.

相关工作

Post-training

后训练对于增强模型的性能非常重要,通常使用SFT实现,通过在特定任务的指令格式数据上微调预训练模型,使其适应下游任务。本文旨在研究SFT和RL在LLM和VLM上的泛化能力和记忆能力。

Memorization and generalization in LLM/VLM

在LLM中,记忆可能表现为模型记住了训练数据,而泛化则反映了模型输出分布与预训练数据分布之间的差异。先前研究表明,LLM在简单、知识密集型任务上表现出更多过拟合,在更复杂、推理密集型任务上表现出更大的泛化能力。本文旨在研究不同的后训练范式在基于文本规则和视觉变化的设置下,LLM和VLM对记忆与泛化的作用。

Scaling up inference-time compute

有工作已经证明,在推理过程中微调验证器可以提高模型精度,有效地利用测试时间计算。 值得注意的是,最近的研究结果揭示了推理时间计算的“scaling laws”,随着计算资源的增加而带来的显著性能提升。本研究基于这些发现,从两个方面进行改进。首先,将推理时间验证整合到多轮 RL 公式中,使模型能够识别并纠正其错误。 其次,研究了推理时间验证对 RL 泛化的影响,证明了扩展推理时间验证(就最大验证步骤数而言)是 RL 泛化的关键。

Improving visual capability in VLMs

当前的VLM的视觉感知仍然存在局限性。先前的工作包括结合多个视觉编码器,创建高质量的SFT数据,微调ViT。本文旨在证明 RL 也可以提高视觉感知能力。

前置知识

考虑 finite horizon decision making,RL 符号约定:
A \mathcal{A} A:动作空间(action space)
r : S × A → R r: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R} r:S×AR:奖励函数(reward function)
T T T:每个 episode 的最大 steps 数量
π : S → A \pi : \mathcal{S} \rightarrow \mathcal{A} π:SA:策略模型,学习最大化 overal return
m a x π ∈ Π E π [ ∑ t = 0 T r t ] max_{\pi \in \Pi}\mathbb{E}_{\pi} \lbrack \sum^T_{t=0} r_t \rbrack maxπΠEπ[t=0Trt]:总回报(overall return)
r t = r ( s t , a t ) r_t = r(s_t, a_t) rt=r(st,at)
π ( a ∣ s ) ∈ [ 0 , 1 ] \pi(a | s) \in [0,1] π(as)[0,1]:probability of π \pi π choosing a a a at s s s

采用多轮 RL 设置进行基础模型训练:
V \mathcal{V} V:离散且有限的 vocabulary (token) space
V m \mathcal{V}^m Vm:input text space
V n \mathcal{V}^n Vn:output text space
m m m:input sequence n i n \mathbf{n}^{in} nin
n n n:output sequence n o u t \mathbf{n}^{out} nout

对于 VLM:
O \mathcal{O} O:RGB image space
S \mathcal{S} S:state space
S : V m × O \mathcal{S}:\mathcal{V}^m \times \mathcal{O} S:Vm×O:for VLM
S : V m \mathcal{S}:\mathcal{V}^m S:Vm:for LLM
A : V n \mathcal{A}:\mathcal{V}^n A:Vn:action space
V E R : V n → R × V k VER: \mathcal{V}^n \rightarrow \mathbb{R} \times \mathcal{V}^k VER:VnR×Vk:verifier, evaluates the outcome of v o u t \mathbf{v}^{out} vout and generates an outcome-based reward function r r r along with textual information v v e r \mathbf{v}^{ver} vver
π θ : S → V n \pi_{\theta}: \mathcal{S} \rightarrow \mathcal{V}^n πθ:SVn:policy network, adopt PPO as the backbone RL algorithm for updating π θ \pi_{\theta} πθ

评估任务

为了评估不同后训练方法的泛化能力,选择了两个任务,每个任务都提供规则和视觉变化。第一个任务,GeneralPoints,是设计的一个新环境,用于评估算术推理能力。 第二个任务,V-IRL,旨在考察模型在开放世界视觉导航领域中的推理能力。

General Points Environment

在这里插入图片描述
GeneralPoints环境建立在Points24环境上,旨在评估算术推理的泛化能力。环境的每个状态 s 包含 4 张卡片,以文本形式描述(GP-L)或以图像形式(GP-VL)呈现,如图 2 左侧关于GeneralPoints的视觉示例。目标是生成一个等于目标数字(默认为24)的方程式,使用卡片中的所有4个数字且每个数字只使用一次。

规则变化:为了研究模型是学习算术运算还是仅仅记住后训练数据,在GeneralPoints中引入了规则变化。这些变化包括将符号“J”、“Q”和“K”分别解释为“11”、“12”和“13”。 这些变化确保了对模型在不同环境中泛化算术推理能力的严格评估。每条规则都在输入提示中以文本形式指定,图 3 中的 {tasks rules} 部分。 为了研究基于规则的泛化,使用一条规则对模型进行后训练,然后使用不同的规则进行评估。

视觉变化:GeneralPoints环境也可以自然地定制,以评估跨视觉变化的泛化能力。 由于主要的视觉挑战是识别每张卡片的数量,而与卡片的颜色无关,将不同颜色的卡片视为任务的视觉变化。在视觉泛化设置中,使用一种颜色的卡片训练模型,然后使用另一种颜色测试OOD性能。

V-IRL Environment

利用V-IRL环境在一个使用逼真的视觉输入的开放世界导航领域中研究空间推理能力。考虑了环境的两个版本, 一个(V-IRL-L)由纯语言描述组成,另一个(V-IRL-VL)包含视觉语言输入。V-IRL中的主要视觉挑战涉及从视觉观察中识别不同的地标采取行动之前。目标是通过遵循包含空间信息的指令集来导航到目标位置。

规则变化:为了评估模型是否拥有空间知识或仅仅记住训练后数据,考虑了两种不同的动作空间配置。第一个变体使用绝对方向动作空间,其中包括{‘north’, ‘northeast’, ‘east’, ‘southeast’, ‘south’, ‘southwest’, ‘west’, ‘northwest’}。 第二个变体采用相对方向动作空间,包含{‘left’, ‘right’, ‘slightly left’, ‘slightly right’}。 这种相对配置分别将当前方向调整90度或45度到左或右。V-IRL中导航任务的概述见图 4,V-IRL中的详细状态-动作转换见图13。
在这里插入图片描述
在这里插入图片描述

视觉变化:V-IRL 中主要的视觉挑战是从视觉观测中识别地标(图 4中的绿色部分)。 由于V-IRL环境包含来自不同城市的视觉观测,可以通过训练模型在一个位置进行导航,然后评估其在不同位置的性能来评估V-IRL中的视觉泛化能力。

消融实验

采用 Llama-3.2-Vision-11B 作为骨干模型。 遵循 RLHF 和 RL4VLM 的标准流程,在运行 RL 之前使用 SFT 初始化模型。研究以下问题:

  • SFT或RL如何影响模型对不同规则的泛化?
  • 当模型包含视觉组件时,RL/SFT如何影响其对不同视觉变化的泛化?
  • RL/SFT如何影响VLM中的视觉识别能力?
  • SFT在RL训练中起什么作用?
  • 验证迭代的数量如何影响泛化?

Generalization across Rules

对于每个任务,分别针对单个规则调整 RL 和 SFT 的训练计算量。将训练规则上的结果视为分布内 (ID) 性能,而未见过规则上的结果则衡量分布外 (OOD) 泛化能力。在 GeneralPoints 中,ID 的情况将所有“J”、“Q”、“K”都视为 10,OOD 则将它们解释为 11、12 和 13。 对于 V-IRL,ID 采用 绝对方向 坐标系,OOD 则使用 相对方向 动作空间。

结论:RL (RL) 实现泛化,SFT (SFT) 实现记忆。

在这里插入图片描述

Generalization in Visual Out-of-Distribution Tasks

研究视觉变化对OOD泛化能力的影响。对于GeneralPoints,我们使用黑桃 (♠, ♣) 训练VLM,并在红桃 (♥, ♠) 上测试其分布外性能。对于V-IRL,在纽约市收集的路线数据上训练模型,并在包含来自世界各地不同城市路线的原始V-IRL VLN小型基准测试上进行评估。

结论:RL (RL) 在视觉分布外任务中具有泛化能力。

在这里插入图片描述

RL Improves Visual Capabilities

RL如何影响VLMs的视觉能力? 在GP-VL环境中进行了消融研究,以调查RL和SFT的分布外性能,以及模型在识别输入图像中的4张卡片方面的视觉识别准确性。 研究了通过RL/SFT扩展后期训练计算如何影响基于规则的分布外泛化能力(图 8 左侧),以及视觉识别准确性和视觉分布外性能(图 8 右侧)。

结论:扩展RL提高了VLM训练中的视觉识别准确性。
在这里插入图片描述

The Role of SFT for RL Training

关注另一个关键问题:SFT 对于 RL 训练是否必要? 为了回答这个问题,进行了额外的实验,直接将端到端RL应用于使用GeneralPoints对的基础模型Llama3.2进行后训练。

结论:当主干模型不遵循指令时,RL训练需要指令微调。
在这里插入图片描述

Role of Verification Iterations

为验证验证多步骤训练和评估流程的必要性并更好地理解其效果,使用GP-L 进行了不同验证迭代次数 {1,3,5,10} 的RL实验。

结论:提升验证规模提高了泛化能力。

在这里插入图片描述

实验结论

通过在GeneralPoints和V-IRL任务上进行的大量实验,我们证明了RL在学习可泛化知识方面表现出优越的性能,而SFT往往只是记住训练数据,这在规则和视觉变化中都得到了体现。这种现象在多模态算术和空间推理能力中始终存在。还研究了RL对视觉识别的影响、SFT的作用以及验证步骤的作用。

研究过程中,有两个挑战没有解决:

SFT在GP-VL上失败:图5中,对于GP-VL,我们观察到监督微调未能达到与RL相当的分布内性能。扩大SFT规模会降低视觉识别能力,假设SFT局部过拟合于推理 token 而忽略了识别 token,这可能是由于推理 token 的频率更高。

RL在极端情况下的局限性:对于在Llama-3.2上进行有效的RL训练,SFT是必要的。表明当应用于极度欠拟合或过拟合的初始检查点时,RL的有效性有限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967513.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据-259 离线数仓 - Griffin架构 修改配置 pom.xml sparkProperties 编译启动

点一下关注吧!!!非常感谢!!持续更新!!! Java篇开始了! 目前开始更新 MyBatis,一起深入浅出! 目前已经更新到了: Hadoop&#xff0…

【时时三省】(C语言基础)基础习题1

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 1.什么是程序?什么是程序设计 程序是为实现特定目标或解决特定问题,用计算机能理解和执行的语言编写的一系列指令的集合。 程序设计是问题分析,设计算法…

防火墙用户认证实验

1、创建vlan10和vlan20 2、将接口划分到对应的vlan中 [FW]interface GigabitEthernet 1/0/1.1 [FW-GigabitEthernet1/0/1.1]ip address 172.16.1.254 24 [FW-GigabitEthernet1/0/1.1]vlan-type dot1q 10 [FW]interface GigabitEthernet 1/0/1.2 [FW-GigabitEthernet1/0/1.1]ip …

VUE项目中实现权限控制,菜单权限,按钮权限,接口权限,路由权限,操作权限,数据权限实现

VUE项目中实现权限控制,菜单权限,按钮权限,接口权限,路由权限,操作权限,数据权限实现 权限系统分类(RBAC)引言菜单权限按钮权限接口权限路由权限 菜单权限方案方案一:菜单…

ESXi Host Client创建ubuntu虚拟机教程及NVIDIA显卡驱动安装

参考文章 VMware虚拟机显卡直通记录 AIGC 实战(环境篇) - EXSI 8.0 Debian安装RTX3060显卡驱动 重点介绍 client版本是7.0.3 注意:下图中不要选择BIOS 按照两个链接中的方法进行操作,以及本章节的上面几个图片的配置之后&a…

DeepSeek帮助做【真】软件需求-而不是批量刷废话

尝试给DeepSeek一份系统用例规约,让它帮判断哪些地方还没有覆盖涉众利益。结果见以下 需求工作的重点可以放在建模精细的真实现状流程和精细的真实涉众利益上,AI帮助推演系统需求。

apache-poi导出excel数据

excel导出 自动设置宽度&#xff0c;设置标题框&#xff0c;设置数据边框。 excel导出 添加依赖 <dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>5.2.2</version></dependency>…

10 FastAPI 的自动文档

FastAPI 是一个功能强大且易于使用的 Web 框架&#xff0c;它的最大亮点之一就是内置的 自动文档生成 功能。通过集成 Swagger UI 和 ReDoc&#xff0c;FastAPI 可以自动为我们的 API 生成交互式文档。这不仅使得开发者能够更快速地了解和测试 API&#xff0c;还能够为前端开发…

微软AI研究团队推出LLaVA-Rad:轻量级开源基础模型,助力先进临床放射学报告生成

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

mysql8.0使用MHA实现高可用

一、MHA 介绍 MHA&#xff08;Master HA&#xff09;是一款开源的 MySQL 的高可用程序&#xff0c;它为 MySQL 主从复制架构提供了 automating master failover 功能。MHA 在监控到 master 节点故障时&#xff0c;会提升其中拥有最新数据的 slave 节点成为新的master 节点&…

D3实现站点路线图demo分享

分享通过D3实现的站点路线分布图demo&#xff0c;后续会继续更新其他功能。 功能点 点位弹窗 效果图如下&#xff1a; 轨迹高亮 效果图如下&#xff1a; 添加路线箭头 箭头展示逻辑&#xff1a;根据高速路线最后两个点位&#xff0c;计算得出箭头的点位 效果图如下&#x…

【系统架构设计师】操作系统 ③ ( 存储管理 | 页式存储弊端 - 段式存储引入 | 段式存储 | 段表 | 段表结构 | 逻辑地址 的 合法段地址判断 )

文章目录 一、页式存储弊端 - 段式存储引入1、页式存储弊端 - 内存碎片2、页式存储弊端 - 逻辑结构不匹配3、段式存储引入 二、段式存储 简介1、段式存储2、段表3、段表 结构4、段内地址 / 段内偏移5、段式存储 优缺点6、段式存储 与 页式存储 对比 三、逻辑地址 的 合法段地址…

物联网软件开发与应用方向应该怎样学习,学习哪些内容,就业方向是怎样?(文末领取整套学习视频,课件)物联网硬件开发与嵌入式系统

随着物联网技术的飞速发展&#xff0c;物联网软件开发与应用方向成为了众多开发者关注的焦点。那么&#xff0c;如何在这个领域中脱颖而出呢&#xff1f;本文将为你提供一份详细的学习指南&#xff0c;帮助你从零开始&#xff0c;逐步掌握物联网软件开发与应用的核心技能。 一…

Linux——基础命令1

$&#xff1a;普通用户 #&#xff1a;超级用户 cd 切换目录 cd 目录 &#xff08;进入目录&#xff09; cd ../ &#xff08;返回上一级目录&#xff09; cd ~ &#xff08;切换到当前用户的家目录&#xff09; cd - &#xff08;返回上次目录&#xff09; pwd 输出当前目录…

OpenFeign远程调用返回的是List<T>类型的数据

在使用 OpenFeign 进行远程调用时&#xff0c;如果接口返回的是 List 类型的数据&#xff0c;可以通过以下方式处理&#xff1a; 直接定义返回类型为List Feign 默认支持 JSON 序列化/反序列化&#xff0c;如果服务端返回的是 List的JSON格式数据&#xff0c;可以直接在 Feig…

向量数据库简单对比

文章目录 一、Chroma二、Pinecone/腾讯云VectorDB/VikingDB三、redis四、Elasticsearch五、Milvus六、Qdrant七、Weaviate八、Faiss 一、Chroma 官方地址&#xff1a; https://www.trychroma.com/优点 ①简单&#xff0c;非常简单构建服务。 ②此外&#xff0c;Chroma还具有自…

字符指针、数组指针和函数指针

1. 字符指针变量 1.1 简单例子 字符指针 char* 在C语言中主要由两种用法&#xff1a; 1.用于存放一个字符变量的地址。 2.用字符指针接收一个字符串。 这里并不是将整个字符串的地址存入 pstr 指针&#xff0c;指针变量 pstr 中存放的是常量字符串的首字符 h 的地址。 以一个…

【Linux网络编程】之守护进程

【Linux网络编程】之守护进程 进程组进程组的概念组长进程 会话会话的概念会话ID 控制终端控制终端的概念控制终端的作用会话、终端、bash三者的关系 前台进程与后台进程概念特点查看当前终端的后台进程前台进程与后台进程的切换 作业控制相关概念作业状态&#xff08;一般指后…

JS宏进阶:XMLHttpRequest对象

一、概述 XMLHttpRequest简称XHR&#xff0c;它是一个可以在JavaScript中使用的对象&#xff0c;用于在后台与服务器交换数据&#xff0c;实现页面的局部更新&#xff0c;而无需重新加载整个页面&#xff0c;也是Ajax&#xff08;Asynchronous JavaScript and XML&#xff09;…

怎么查看电脑显存大小(查看电脑配置)

这里提供一个简单的方法查看 winr打开cmd 终端输入dxdiag进入DirectX 点击显示查看设备的显示内存&#xff08;VRAM&#xff09; 用这个方法查看电脑配置和显存是比较方便的 dxdiag功能 Dxdiag是Windows的DirectX诊断工具&#xff0c;其主要作用包括但不限于以下几点&#…