【LLM】为何DeepSeek 弃用MST却采用Rejection采样

文章目录

  • 拒绝采样 Rejection sampling🎯
  • 马尔可夫搜索树 🌳
  • RFT和SFT
    • 1. RFT和SFT的区别
    • 2. 如何将RFT用于数学推理任务?
  • Reference

在提升大语言模型(LLM)推理能力时,拒绝采样(Rejection Sampling)和 马尔可夫搜索树(Markov Search Tree)是两个超强的技术。

拒绝采样 Rejection sampling🎯

  1. 概念
    模型生成多个候选答案,然后过滤掉不符合条件的,只保留“好”的结果。
  2. 原理
  • LLM 生成一堆候选答案(比如推理路径或解决方案)
  • 通过评分函数(比如正确性、逻辑性)评估每个候选答案。
  • 不符合条件的答案被拒绝,最终选出最好的一个。
  1. 优点
  • 简单实现起来超简单
  • 适用于各种任务,比如数学题、代码生成
  • 只保留高质量的输出,结果更可靠
  1. 缺点
  • 生成很多样本,大部分都被丢弃,计算成本高
  • 任务越复杂,需要的样本量指数级增长
  • 结果质量完全取决于评分函数的好坏
  1. 应用场景
  • 解数学题:生成多个答案,选出正确的那个
  • 代码生成:生成多个代码片段,选出能编译通过的。

马尔可夫搜索树 🌳

  1. 概念
    马尔可夫搜索树是一种结构化搜索方法,LLM 会探索一个推理路径树,每个节点代表一个状态(比如部分解决方案),边代表动作(比如逻辑步骤)。搜索过程由策略引导,优先探索有潜力的路径
  2. 原理
  • 逐步构建树结构,每次扩展最有潜力的节点
  • 通过启发式函数(比如成功的可能性或目标一致性)引导搜索。
  • 直到找到满意的解决方案或资源耗尽为止
  1. 优点
  • 集中资源探索有潜力的路径,减少浪费
  • 系统化地探索复杂推理空间,更有条理
  • 可以结合领域知识,提升搜索效果
  1. 缺点
  • 需要精心设计树结构和启发式函数。
  • 维护和扩展树结构可能消耗较多资源。
  • 如果启发式函数设计不好,可能会卡在次优路径上。
  1. 应用场景
  • 解决谜题或证明定理,探索不同的推理链。
  • 规划任务:生成分步计划(比如机器人或游戏)

RFT和SFT

1. RFT和SFT的区别

什么是RFT?
RFT(Rejection sampling Fine-Tuning)和SFT(Supervised Fine-Tuning)是两种用于微调机器学习模型的方法,特别是在自然语言处理领域。

SFT是一种常见的微调方法,主要步骤如下:

  1. 数据收集:收集大量的标注数据,这些数据通常由人类专家根据特定任务进行标注。

  2. 模型训练:使用这些标注数据对预训练模型进行微调,使其在特定任务上表现更好。

  3. 评估和优化:通过验证集评估模型性能,并根据结果进行优化。

SFT的优点是相对简单直接,只需要高质量的标注数据即可。然而,SFT也有一些局限性,比如对标注数据的质量和数量要求较高。

RFT是一种更为复杂的微调方法,主要步骤如下:

  1. 数据生成:首先使用预训练模型生成大量的候选输出。

  2. 筛选过程:通过某种筛选机制(如人工评审或自动评分系统)从这些候选输出中挑选出高质量的样本。

  3. 模型训练:使用筛选后的高质量样本对模型进行微调。

RFT的关键在于筛选过程,这个过程可以显著提高数据的质量,从而提升模型的性能。筛选机制可以是人工的,也可以是基于某种自动化评分系统的。

区别

  1. 数据来源:
  • SFT:依赖于预先标注好的高质量数据。

  • RFT:通过生成大量候选输出,然后筛选出高质量样本。

  1. 数据质量控制:
  • SFT:数据质量主要依赖于标注过程的质量控制。

  • RFT:通过筛选机制来确保数据质量,即使初始生成的数据质量不高,也可以通过筛选提高。

2. 如何将RFT用于数学推理任务?

RFT的核心思想是利用已有的监督模型来生成新的数据样本,如果将其用于数学推理任务,那么可以通过选择正确的推理路径来增强模型的训练数据集。

  1. 生成候选推理路径:使用一个已经通过监督微调(SFT)训练好的模型来生成针对训练集中每个问题的多个候选推理路径。这些路径包括一系列计算步骤,旨在解决问题。

  2. 筛选正确路径:从生成的候选路径中筛选出那些能够正确推导出问题答案的推理路径。

  3. 去重和多样化:进一步从筛选出的正确路径中选择具有不同计算过程或表达方式的路径,以增加数据集的多样性。这有助于模型学习不同的解决问题的方法。

  4. 微调:使用这些经过筛选和去重的推理路径作为新的训练数据,对原始的监督模型进行进一步的微调。

  5. 提高泛化能力:通过引入多样化的推理路径,RFT旨在提高模型在未见过的问题上的泛化能力。

将RFT用于数学推理任务,可以利用模型自身生成的数据来增强其推理能力,同时避免了昂贵的人工标注成本。这种方法特别适用于那些难以通过增加监督数据量来提升性能的场景,因为它允许模型从未充分利用的训练数据中学习新的推理策略。

和SFT相比较,RFT具有以下几点优势:

  1. 数据增强的有效性:RFT通过拒绝采样的方式,使用监督模型生成并收集正确的推理路径作为额外的微调数据集。这种方法可以在不增加人工标注工作量的情况下,增加数据样本,从而提高模型性能。

  2. 推理路径的多样性:RFT特别强调通过增加不同的推理路径来提高LLMs的数学推理能力。这意味着RFT能够提供多种解决问题的方法,有助于模型在面对新问题时有更好的泛化能力。

  3. 对性能较差模型的提升效果:论文中提到,RFT对于性能较差的LLMs提升更为明显。这表明RFT可能是一种更为有效的改进手段,特别是对于那些需要显著提高推理能力的模型。

  4. 组合多个模型的优势:RFT可以通过组合来自多个模型的拒绝样本来进一步提升性能。这种方法使得LLaMA-7B在GSM8K数据集上的准确率从SFT的35.9%显著提高到49.3%。

  5. 计算资源的经济性:尽管RFT在生成样本时可能需要较多的计算资源,但在训练阶段相比从头开始预训练一个LLM来说,它是一种更为经济的方法。这使得RFT成为一种可行的、成本效益更高的改进模型性能的手段。

  6. 减少过拟合:RFT通过引入多样化的推理路径,有助于减少模型在训练数据上的过拟合,特别是在大型模型中。

Reference

[1] RFT(拒绝采样微调):提升大模型推理能力
[2] Scaling Relationship on Learning Mathematical Reasoning with Large Language Models

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/965619.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

股指入门:股指期货是什么意思?在哪里可以做股指期货交易?

股指期货是一种以股票指数为标的物的期货合约,也可以称为股票指数期货或期指。 股指期货是什么意思? 股指期货是一种金融衍生品,其标的资产是股票市场上的股指,例如标普500指数、道琼斯工业平均指数、上证50指数等。 股指期货允…

前端构建工具大比拼:Vite、Webpack、Parcel、esbuild 等热门工具使用分析

前端构建工具大比拼:Vite、Webpack、Parcel、esbuild 等热门工具使用分析 随着前端技术的不断发展,构建工具成为了每个前端项目的核心部分。通过合适的构建工具,我们能够优化开发效率、提升构建速度,并最终实现更加高效和灵活的开…

安装和使用 Ollama(实验环境windows)

下载安装 下载 https://ollama.com/download/windows 安装 Windows 安装 如果直接双击 OllamaSetup.exe 安装,默认会安装到 C 盘,如果需要指定安装目录,需要通过命令行指定安装地址,如下: # 切换到安装目录 C:\Use…

node.js使用mysql2对接数据库

一、引言 在现代Web开发中,Node.js作为一种高效、轻量级的JavaScript运行时环境,已经广泛应用于后端服务的开发中。而MySQL,作为一个广泛使用的关系型数据库管理系统(RDBMS),提供了强大的数据存储和查询功能…

Unity 快速入门 1 - 界面操作

本项目将快速介绍 Unity 6的基本操作和功能,下载附件的项目,解压到硬盘,例如 D:\Unity Projects\, 注意整个文件路径中只有英文、空格或数字,不要有中文或其他特殊符合。 1. 打开Unity Hub,点击右上角的 O…

携程Java开发面试题及参考答案 (200道-上)

说说四层模型、七层模型。 七层模型(OSI 参考模型) 七层模型,即 OSI(Open System Interconnection)参考模型,是一种概念模型,用于描述网络通信的架构。它将计算机网络从下到上分为七层,各层的功能和作用如下: 物理层:物理层是计算机网络的最底层,主要负责传输比特流…

云轴科技ZStack+海光DCU:率先推出DeepSeek私有化部署方案

针对日益强劲的AI推理需求和企业级AI应用私有化部署场景(Private AI),云轴科技ZStack联合海光信息,共同推动ZStack智塔全面支持DeepSeek V3/R1/Janus Pro系列模型,基于海光DCU实现高性能适配,为企业提供安全…

通信易懂唠唠SOME/IP——SOME/IP协议简介

一 简介 1.1 面向服务的中间件 SOME/IP是Scalable service-Oriented MiddlewarE over IP (SOME/IP)的缩写,基于IP的可扩展面向服务的中间件。 1.2 广泛应用于汽车嵌入式通信 SOME/IP是一种支持远程通信的汽车/嵌入式通信协议 。支持远程过程调用(RPC…

游戏引擎学习第89天

回顾 由于一直没有渲染器,终于决定开始动手做一个渲染器,虽然开始时并不确定该如何进行,但一旦开始做,发现这其实是正确的决定。因此,接下来可能会花一到两周的时间来编写渲染器,甚至可能更长时间&#xf…

PostgreSql-COALESCE函数、NULLIF函数、NVL函数使用

COALESCE函数 COALESCE函数是返回参数中的第一个非null的值,它要求参数中至少有一个是非null的; select coalesce(1,null,2),coalesce(null,2,1),coalesce(null,null,null); NULLIF(ex1,ex2)函数 如果ex1与ex2相等则返回Null,不相等返回第一个表达式的值…

【苍穹外卖 Day1】前后端搭建 Swagger导入接口文档

项目技术选型 前端 直接使用打包好的nginx运行。 后端 1、导入初始代码结构如下: 2、将代码上传远程仓库。 3、创建数据库,并修改数据库配置。 4、断点调试,前后端联调。 5、使用Nginx代理,修改Nginx配置 好处:提…

八大排序算法细讲

目录 排序 概念 运用 常见排序算法 插入排序 直接插入排序 思想: 步骤(排升序): 代码部分: 时间复杂度: 希尔排序 思路 步骤 gap的取法 代码部分: 时间复杂度: 选择排序 直接选…

python算法和数据结构刷题[3]:哈希表、滑动窗口、双指针、回溯算法、贪心算法

回溯算法 「所有可能的结果」,而不是「结果的个数」,一般情况下,我们就知道需要暴力搜索所有的可行解了,可以用「回溯法」。 回溯算法关键在于:不合适就退回上一步。在回溯算法中,递归用于深入到所有可能的分支&…

【远程控制】安装虚拟显示器

todesk远程发现没显示器的机器有问题 电脑如果不外接一个显示器那么会默认为1024 768 分辨率需要安装虚拟显示器参考 竟然是一个隐私屏幕的解决方案。 虚拟显示器 Parsec-vdd 项目地址 Parsec-vdd 最大的优点是:支持 4K 高刷、可添加多个虚拟屏、 H-Cursor&#…

搭建集成开发环境PyCharm

1.下载安装Python(建议下载并安装3.9.x) https://www.python.org/downloads/windows/ 要注意勾选“Add Python 3.9 to PATH”复选框,表示将Python的路径增加到环境变量中 2.安装集成开发环境Pycharm http://www.jetbrains.com/pycharm/…

20250206在ubuntu20.04下使用unzip解压缩带中文名的文件

unzip -O GBK yourfile.zip unzip -O CP936 xxx.zip unar xxx.zip 20250206在ubuntu20.04下使用unzip解压缩带中文名的文件 2025/2/6 20:03 缘起:有些ZIP文件,里面有中文文件名。在WINDOWS系统中解压缩正常。 但是在Ubuntu20.04下可以解压缩,…

OSPF基础(1):工作过程、状态机、更新

OSPF基础 1、技术背景(与RIP密不可分,因为RIP中存在的问题) RIP中存在最大跳数为15的限制,不能适应大规模组网周期性发送全部路由信息,占用大量的带宽资源以路由收敛速度慢以跳数作为度量值存在路由环路可能性每隔30秒…

python学opencv|读取图像(五十三)原理探索:使用cv.matchTemplate()函数实现最佳图像匹配

【1】引言 前序学习进程中,已经探索了使用cv.matchTemplate()函数实现最佳图像匹配的技巧,并且成功对两个目标进行了匹配。 相关文章链接为:python学opencv|读取图像(五十二)使用cv.matchTemplate()函数实现最佳图像…

C#面试常考随笔12:游戏开发中常用的设计模式【C#面试题(中级篇)补充】

C#面试题(中级篇),详细讲解,帮助你深刻理解,拒绝背话术!-CSDN博客 简单工厂模式 优点: 根据条件有工厂类直接创建具体的产品 客户端无需知道具体的对象名字,可以通过配置文件创建…

动手学图神经网络(9):利用图神经网络进行节点分类 WeightsBiases

利用图神经网络进行节点分类Weights&Biases 引言 在本篇博客中,将深入探讨如何使用图神经网络(GNNs)来完成节点分类任务。以 Cora 数据集为例,该数据集是一个引用网络,节点代表文档,推断每个文档的类别。同时,使用 Weights & Biases(W&B)来跟踪实验过程和…