深入剖析推理模型：从DeepSeek R1看LLM推理能力构建与优化

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。原文地址：https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html。这一次，他将立足于 DeepSeek 技术报告，介绍用于构建推理模型的四种主要方法，也就是如何通过推理能力来增强 LLM。Sebastian Raschka 表示：「我希望这能提供有价值的见解，并帮助你了解围绕这一主题的快速演变的文献和话题炒作。」

阅读笔记如下:

在人工智能领域不断演进的当下，大语言模型（LLM）已成为研究和应用的焦点。2024年，LLM领域专业化趋势愈发明显，除了预训练和微调等基础操作，从检索增强生成（RAG）到代码助手等专业应用也不断涌现。这一趋势在2025年持续加速，第 1-3 阶段是开发 LLM 的常见步骤。第 4 阶段是针对具体用例对 LLM 进行专门化。
特定领域和应用的优化受到更多重视。推理模型作为LLM专业化的重要方向，能够处理复杂任务，展现出独特的价值，著名AI研究者Sebastian Raschka对其进行了深入探讨。

推理模型：定义与应用场景

“推理模型”这一术语在AI领域的定义存在模糊性。在本文中，推理被定义为回答需要复杂、多步骤生成和中间步骤的问题的过程。像“法国首都是哪里？”这类事实性问答，无需推理即可解答；而“如果一列火车以60英里/小时的速度行驶3小时，它会行驶多远？”这样的问题，则需要通过识别距离、速度和时间的关系进行推理求解。在这里插入图片描述
图释：常规的 LLM 可能只提供简短的答案（如左图所示），而推理模型通常包括揭示部分思维过程的中间步骤。（请注意，许多没有专门为推理任务开发的 LLM 也能在其答案中提供中间推理步骤。）大多数现代 LLM 都具有基本的推理能力，可以回答诸如「如果一列火车以 60 英里 / 小时的速度行驶 3 小时，它会行驶多远？」这样的问题。因此，今天当我们提到推理模型时，我们通常指的是擅长更复杂推理任务的 LLM，例如解决谜题、谜语和数学证明。
推理模型中的中间步骤可以两种方式出现。第一种，中间步骤可能显式地出现在响应中，如上图所示。第二种，一些推理 LLM（例如 OpenAI o1）则会运行多个迭代，中间步骤对用户来说是不可见的。
在这里插入图片描述

使用「推理」的两个不同层级：1）通过多个中间步骤处理输入和生成结果，2）将某种形式的推理放在响应中提供给用户。

推理模型擅长处理复杂任务，如谜题、高级数学和编程难题等。在这些场景中，模型通过演绎或归纳推理、思维链推理，分解多步骤问题，做出复杂决策，并且能更好地泛化到新问题。不过，推理模型也存在局限性，在这里插入图片描述
在处理简单任务时，可能会因“过度思考”导致效率低下、成本增加，还可能在基于知识的任务中出现“幻觉”现象。

DeepSeek R1：训练流程与模型变体

DeepSeek发布的R1系列推理模型包含三个变体：DeepSeek - R1 - Zero、DeepSeek - R1和DeepSeek - R1 - Distill。这些模型的开发过程基于DeepSeek - V3（671B）基础模型，每个变体都经历了不同的训练阶段。
根据其技术报告中的描述的模型的开发过程。
在这里插入图片描述

DeepSeek - R1 - Zero：基于2024年12月发布的671B预训练版DeepSeek - V3，采用“冷启动”训练方式，仅使用强化学习（RL），跳过监督微调（SFT）步骤。训练过程中设置了准确度奖励和格式奖励，准确度奖励通过LeetCode编译器验证编码答案、确定性系统评估数学响应；格式奖励依靠LLM评判员确保响应格式正确。这种训练方式使模型涌现出基本的推理技能。
DeepSeek - R1：以DeepSeek - R1 - Zero为基础，增加额外的SFT阶段和进一步的RL训练。使用DeepSeek - R1 - Zero生成的“冷启动”SFT数据进行指令微调，后续的RL阶段除保留准确度和格式奖励外，还添加一致性奖励防止语言混合。经过多轮SFT数据收集和RL训练，DeepSeek - R1的性能在DeepSeek - R1 - Zero基础上显著提升。
DeepSeek - R1 - Distill：利用训练DeepSeek - R1过程中生成的SFT数据，对Qwen和Llama模型进行微调。这种在LLM语境下的“蒸馏”，虽不同于传统深度学习中的知识蒸馏，但能提升小模型的推理能力。小模型效率更高，可在低端硬件上运行，同时也为纯监督微调（SFT）的研究提供了案例。

为什么他们开发了这些蒸馏模型？

有两个关键原因：

小型模型更高效。这意味着它们运行成本更低，但它们也可以在低端硬件上运行，这使得它们对许多像我这样的研究人员和爱好者来说特别有趣。
纯 SFT 案例研究。这些提炼出的模型作为一个有趣的基准，展示了纯监督微调（SFT）在不使用强化学习的情况下可以将模型带到多远。

蒸馏后的模型明显弱于 DeepSeek-R1，但与 DeepSeek-R1-Zero 相比，它们却出奇地强大，尽管规模小了几个数量级。值得注意的是，这些模型与 o1 mini 相比，表现非常好

DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的涌现推理行为是否也会出现在较小的模型中。为了研究这一点，他们将 DeepSeek-R1-Zero 中相同的纯 RL 方法直接应用于 Qwen-32B。

下表展示了实验的结果，其中 QwQ-32B-Preview 是千问团队基于 Qwen 2.5 32B 开发的参考推理模型（我认为训练细节从未披露过）。此比较提供了一些额外的洞察，即纯 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中引导推理能力。
在这里插入图片描述

在较小的 32B 模型上对蒸馏和 RL 进行基准比较。注释图来自 DeepSeek-R1 技术报告。

有趣的是，结果表明，对于较小的模型，蒸馏比纯 RL 更有效。这与以下观点一致：单靠 RL 可能不足以在这种规模的模型中产生强大的推理能力，而使用高质量推理数据进行 SFT 在使用小模型时可能是一种更有效的策略。

Qwen-32B 使用 SFT + RL 进行训练，类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时，与纯 RL 和纯 SFT 相比可以取得多大的改进。
DeepSeek-V3 使用纯 SFT 进行训练，与创建蒸馏模型的方式类似。这样可以直接比较，看看 RL + SFT 相对于纯 SFT 的效果如何。

构建推理模型的四大方法

当前，增强LLM推理能力、构建推理模型的方法主要有以下四种：

推理时间扩展：在推理过程中增加计算资源提升输出质量。思维链（CoT）提示方法是典型应用，在提示词中加入“think step by step”等短语，鼓励模型生成中间推理步骤，提高复杂问题的解答准确率。此外，投票和搜索策略也属于推理时间扩展，如多数投票让模型生成多个答案，通过投票选择正确结果；集束搜索等算法同样可优化响应。虽然DeepSeek R1技术报告表明其模型未使用该方法，但它常在LLM应用层实现，OpenAI的o1和o3模型可能运用了此技术，这也解释了其成本较高的原因。
纯RL：DeepSeek R1 - Zero的训练方式证明了推理可作为纯RL涌现出的行为。与传统RL流程不同，它跳过SFT阶段，仅依靠RL训练，并设置准确度和格式奖励。尽管R1 - Zero并非性能最佳的推理模型，但它展现出推理能力，证实了纯RL开发推理模型的可行性。
监督微调加强化学习（SFT + RL）：这是构建高性能推理模型的关键方法，DeepSeek - R1的开发就是典型案例。
在RL之前进行SFT，利用DeepSeek - R1 - Zero生成的“冷启动”SFT数据训练模型，后续的RL阶段添加一致性奖励，再经过多轮SFT数据收集和RL训练，有效提升了模型性能。OpenAI o1很可能也采用了类似方法。
纯监督微调（SFT）和蒸馏：DeepSeek通过在较大LLM生成的SFT数据集上对较小LLM进行指令微调，开发出蒸馏模型。这些小模型效率更高，可作为纯SFT的研究基准。实验表明，对于较小模型，蒸馏比纯RL更有效，高质量推理数据的SFT在小模型应用中是更优策略。

对DeepSeek R1的综合评价

DeepSeek R1系列模型是AI领域的重要成果，其详细的技术报告为研究人员提供了宝贵的方法论参考。推理可基于纯RL涌现的发现令人瞩目，并且模型遵循宽松的MIT开源许可证开源，具有积极的推动意义。

与OpenAI的o1相比，DeepSeek - R1在推理时间上更高效，但由于OpenAI未充分披露o1的信息，如是否为混合专家（MoE）模型、模型规模大小以及训练方式细节等，两者难以直接比较。

关于DeepSeek - R1的训练成本，虽有600万美元的估算，但这可能将DeepSeek - V3和DeepSeek - R1的成本混淆，DeepSeek团队并未透露R1的具体成本，目前的估算均为猜测。

启示性的工作：有限预算下的推理模型开发

开发如DeepSeek - R1级别的推理模型成本高昂，不过，模型蒸馏和一些创新方法为预算有限的研究人员提供了可能。

DeepSeek的蒸馏模型证明了小模型也能具备强大的推理性能，尽管蒸馏过程也需要大量计算资源。

Sky - T1项目：

仅用17K的SFT样本、450美元的GPU成本，训练出表现与OpenAI o1大致相当的32B模型，展示了小样本、低成本微调的潜力。在这里插入图片描述
图源：《Sky-T1：在 450 美元以内训练你自己的 O1 预览模型》一文。https://novasky-ai.github.io/posts/sky-t1/