Kimi k1.5: Scaling Reinforcement Learning with LLMs

TL;DR

2025 年 kimi 发表的 k1.5 模型技术报告，和 DeepSeek R1 同一天发布，虽然精度上和 R1 有微小差距，但是文章提出的 RL 路线也有很强的参考意义

Paper name

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper Reading Note

Paper URL:

https://arxiv.org/abs/2501.12599

Project URL:

https://github.com/MoonshotAI/Kimi-k1.5

Introduction

背景

语言模型的预训练通过预测下一个词有效地扩展了计算能力，但受限于可用训练数据的数量。
强化学习（RL）的扩展为人工智能的持续改进提供了新方向，且大语言模型（LLM）可以通过奖励学习来扩展其训练数据。

本文方案

介绍了 Kimi k1.5，多模态 LLM，使用强化学习（RL）进行训练，Kimi k1.5 有以下特点：
- 长上下文扩展：将 RL 的上下文窗口扩展到 128k，并观察到随着上下文长度的增加，性能持续提升。我们的方法核心是使用部分回合来提高训练效率，即通过重用大量先前轨迹来采样新的轨迹，避免从头开始重新生成新轨迹。我们观察到上下文长度是RL与LLM持续扩展的关键维度。
- 改进的策略优化：我们推导出结合长-CoT的 RL 公式，并采用一种在线镜像下降算法进行稳健的策略优化。该算法通过有效的采样策略、长度惩罚和数据配方优化进一步得到改进。
- 简洁框架：结合长上下文扩展和改进的策略优化方法，我们建立了一个简洁的 RL 框架来与 LLM 共同学习。由于能够扩展上下文长度，学习到的 CoT 展现了规划、反思和修正等特性。增加上下文长度有效地增加了搜索步骤数量，因此我们证明强大的性能可以在不依赖蒙特卡罗树搜索、值函数和过程奖励模型等复杂技术的情况下实现。
- 多模态：我们的模型在文本和视觉数据上联合训练，具备在这两种模态上共同推理的能力
还提出了有效的 long2short 方法，利用长-CoT技术改进短-CoT模型。具体来说，我们的方法包括应用长度惩罚和长-CoT激活、以及模型合并。
精度评测：我们的长-CoT版本在多个基准和模态上达到了最先进的推理性能，例如：AIME 77.5、MATH 500 96.2、Codeforces 94-th、MathVista 74.9，达到了 OpenAI 的 o1 水平。我们的模型还在短-CoT推理上取得了最先进的成果，例如：AIME 60.8、MATH500 94.6、LiveCodeBench 47.3，远超现有的短-CoT模型，如 GPT-4o 和 Claude Sonnet 3.5（提升幅度最高可达+550%）。

放一个 deepseek R1 的评测精度，Kimi k1.5 在大部分数据集上确实和 R1 有一定差距

基于强化学习的LLM训练

Kimi k1.5 的开发包括多个阶段：预训练、传统监督微调（SFT）、长-CoT 监督微调和强化学习（RL），本报告重点讨论 RL 部分

RL提示集构建

发现 RL 提示集的质量和多样性很重要，高质量的 RL 提示集具备以下三个关键特性：
- 多样性覆盖：提示应涵盖广泛的学科，如 STEM、编程和一般推理，以增强模型的适应性，并确保其在不同领域的广泛适用性。
  - 使用自动筛选器选择需要丰富推理且容易评估的问题，数据集包括来自 STEM 领域、竞赛和一般推理任务的问题，涵盖了文本和图像-文本问答数据。还开发了一个标签系统，根据领域和学科对提示进行分类，以确保不同学科之间的平衡性
- 平衡难度：提示集应包括易、中、难三个层次的问题，以促进逐步学习，并防止过拟合到特定的复杂度水平。对于每个提示，一个 SFT 模型使用相对较高的采样温度生成十次答案。然后计算通过率，并将其作为提示难度的代理——通过率越低，难度越高。
  - 采用基于模型的方法，利用模型自身的能力自适应评估每个提示的难度
- 准确可评估性：提示应能通过验证器进行客观可靠的评估，确保模型表现是基于正确的推理过程，而非表面模式或随机猜测
  - 一些复杂的推理问题可能有相对简单且容易猜测的答案，导致错误的验证结果——即模型通过错误的推理过程得出正确答案。为了解决这个问题，我们排除了容易出错的问题，如多项选择、对错题和证明类问题。
  - 此外，对于一般问答任务，我们提出了一种简单而有效的方法来识别和去除容易被滥用的提示。具体而言，我们提示模型在没有任何 CoT 推理步骤的情况下猜测可能的答案。如果模型在 N 次尝试内预测出正确答案，则认为该提示过于容易滥用，应当移除。我们发现设置 N=8 可以移除大部分易滥用的提示。开发更高级的验证模型仍然是未来研究的开放方向。

长-CoT 监督微调

通过精炼的RL提示集，我们采用提示工程构建了一个小巧但高质量的长-CoT预热数据集，包含了经过准确验证的推理路径，涵盖文本和图像输入。类似于拒绝采样（RS），但侧重于通过提示工程生成长-CoT 推理路径。
生成的预热数据集旨在概括对类人推理至关重要的关键认知过程，例如：
- 规划：模型在执行前系统性地列出步骤；
- 评估：对中间步骤进行关键性评估；
- 反思：允许模型重新考虑并改进其方法；
- 探索：鼓励考虑替代解决方案。
通过在这个预热数据集上进行轻量级的SFT训练，我们有效地将这些推理策略内化到模型中

强化学习

由于思维步骤和反馈都可以视为中间推理步骤，规划算法使用的搜索树中的所有信息被“扁平化”，并作为完整的上下文提供给算法。这为生成高质量CoT提供了一个有趣的视角：我们不需要显式构建搜索树并实现规划算法，而是可以训练一个模型来近似这一过程。在这种方法中，思维的数量（即语言令牌的数量）类似于传统规划算法中分配的计算预算。
给定一个问题，模型通过采样过程生成 CoT 和答案，生成的CoT的质量通过它是否能引导出正确的最终答案来评估。为了评估生成答案的正确性，我们使用一个奖励模型来根据真实答案对生成答案进行评估。
- 对于可验证的问题，奖励直接由预定义的标准或规则决定。
- 对于自由形式的真实答案问题，我们训练一个奖励模型来预测答案是否与真实答案匹配
通过扩展 RL 训练，我们的目标是训练一个模型，充分利用简单的基于提示的 CoT 和规划增强的 CoT 的优势。模型仍然通过自回归采样语言序列进行推理，从而避免了部署时复杂规划算法所需的并行化。然而，和简单提示方法的关键区别在于，模型不仅仅是按步骤执行推理，还需要学习关键的规划技能，包括错误识别、回溯和解决方案优化，利用所有探索过的思维作为上下文信息。

策略优化

采用在线策略镜像下降（Online Policy Mirror Descent, OPMD）的变体作为训练算法

长度惩罚

观察到在 RL 训练过程中，模型的响应长度会显著增加。尽管这会带来更好的性能，但过长的推理过程在训练和推理时非常昂贵，而且过度思考通常不是人类所偏好的。为了解决这个问题，我们引入了长度奖励来限制 token 长度的快速增长，从而提高模型的 token 效率。
本质上，我们鼓励较短的响应，并在正确答案中惩罚较长的响应，同时明确惩罚错误答案中的长响应。这个基于长度的奖励然后与原始奖励加权结合。在我们的初步实验中，长度惩罚可能会在训练初期减慢训练速度。为了解决这个问题，我们建议在训练过程中逐渐增强长度惩罚。具体来说，我们首先在没有长度惩罚的情况下进行标准策略优化，然后在训练的其余部分中引入常数长度惩罚。

采样策略

尽管强化学习（RL）算法本身具有相对较好的采样特性（更困难的问题提供更大的梯度），但其训练效率仍然有限。因此，一些经过良好定义的先验采样方法可能会带来更大的性能提升。我们利用多个信号来进一步优化采样策略。
- 我们收集的强化学习训练数据天然带有不同的难度标签。例如，数学竞赛题比小学数学题更难
- 由于强化学习训练过程中会对同一个问题进行多次采样，我们可以跟踪每个问题的成功率作为难度度量标准。
提出了两种利用这些先验知识来提高训练效率的采样方法：
- 课程式采样（Curriculum Sampling）
  我们从较简单的任务开始训练，并逐步过渡到更具挑战性的任务。由于初始的强化学习模型性能有限，在非常困难的问题上花费有限的计算预算通常只会产生少量正确样本，从而降低训练效率。同时，我们收集的数据天然包含年级和难度标签，因此基于难度的采样是一种直观且有效的提升训练效率的方法。
- 优先级采样（Prioritized Sampling）
  除了课程式采样，我们还采用了一种优先级采样策略，以重点关注模型表现不佳的问题。我们跟踪每个问题 𝑖 的成功率 𝑠𝑖，并按比例 1−𝑠𝑖 进行采样，使得成功率较低的问题被采样的概率更高。这使得模型的训练更集中于其最薄弱的部分，从而加速学习，提高整体性能。

训练细节

代码测试用例生成

由于许多网络上的编程题目缺少测试用例，我们设计了一种自动生成测试用例的方法，以作为奖励信号用于强化学习训练。我们的重点主要是那些不需要特殊评测器（special judge）的题目，并假设这些题目有可用的标准解答，以利用这些解答生成高质量的测试用例。

我们采用了广泛认可的测试用例生成库 CYaRon 来增强该方法，并使用基础模型 Kimi k1.5 根据题目描述生成测试用例。具体流程如下：

CYaRon 的使用声明及题目描述被输入到测试用例生成器。
对于每个问题，我们首先使用生成器生成 50 个测试用例，并随机抽取 10 份真实提交（ground truth submissions）。
运行这些提交，并筛选出至少 7/10 份提交输出一致的测试用例。
经过这一轮筛选后，获得最终的测试用例集合。
若某个问题的测试用例集合能够通过至少 9/10 份真实提交，则该问题及其测试用例被加入训练数据集。

从 1,000 道网络竞赛题目中，我们统计发现：

约 614 道题目不需要特殊评测器；
我们为 463 道题目生成了至少 40 个有效测试用例；
最终 323 道题目被纳入训练数据集。

数学奖励建模（Reward Modeling for Math）

数学问题评估的一个挑战是，不同的书写形式可能表示相同的答案。例如， $a^2 - 4$ 和 $(a + 2) (a - 2)$ 可能都是真正的解答。为此，我们采用两种方法来提高奖励模型的评分准确性：

经典奖励模型（Classic RM）
受到 InstructGPT（Ouyang et al. 2022）的启发，我们实现了一个基于 value-head 的奖励模型，并收集了约 80 万 条数据进行微调。该模型的输入包括：
- “题目”（question）
- “参考答案”（reference answer）
- “模型回答”（response）
  输出是一个单一的标量，指示该回答是否正确。
链式思维奖励模型（Chain-of-Thought RM）
最新研究（Ankner et al. 2024; McAleese et al. 2024）表明，结合 链式思维（Chain-of-Thought, CoT） 推理的奖励模型在数学任务上远胜于传统方法，尤其是对需要精细判断正确性的任务。因此，我们收集了同样规模（80 万 条）的 CoT 标注数据 来微调 Kimi 模型。
- 该方法基于与 经典奖励模型 相同的输入，但在最终判断前会先生成 逐步推理过程（step-by-step reasoning）。
- 评分结果以 JSON 格式 输出，使得奖励信号更健壮且可解释。

在人工抽查中，经典奖励模型的准确率约为 84.4%，而 链式思维奖励模型的准确率达到 98.5%。在强化学习训练过程中，我们采用 链式思维奖励模型 以确保更准确的反馈。

视觉数据（Vision Data）

为了提升模型在现实世界中的图像推理能力，并实现视觉输入与大语言模型（LLMs）之间的有效对齐，我们的视觉强化学习（Vision RL） 训练数据主要来自三大类别：

真实世界数据（Real-world Data）
包含：
- 科学问题（涵盖各个年级水平，涉及图表理解与推理）
- 地理定位任务（需要视觉感知与推理能力）
- 数据分析（涉及复杂图表理解）等。
  这些数据集增强了模型在实际场景中的视觉推理能力。
合成视觉推理数据（Synthetic Visual Reasoning Data）
- 采用程序化生成（procedural generation）的方法创建图片和场景，以提升特定的视觉推理能力，如：
  - 空间关系理解
  - 几何模式识别
  - 物体交互推理 等。
- 这些合成数据提供了可控的测试环境，并且能够生成无限量的训练样本。
文本渲染数据（Text-rendered Data）
- 通过将 文本内容转换为图像，使模型在处理跨模态文本查询时保持一致性。
- 例如：
  - 文本文档
  - 代码片段
  - 结构化数据 被转换成图片，以确保模型能够在纯文本输入和 图像化文本输入(如截图、照片) 两种模式下保持一致的响应能力。
- 这也有助于提升模型对**以文本为主的图像（text-heavy images）**的理解能力。

通过整合上述三类数据，我们构建了一个综合性的视觉语言模型（Vision-Language Model），能够有效应对各种现实世界应用，并在不同输入模态之间保持稳定的性能。

2.4 Long2short: 短-CoT 模型的上下文压缩

尽管 长链式思维（Long-CoT） 模型在推理任务中表现优异，但相比标准的 短链式思维（Short-CoT） 大模型，其在测试时消耗的 token 量更大。然而，我们可以将 长-CoT 模型 中的推理先验知识迁移到 短-CoT 模型，从而在有限的 token 预算下提高性能。我们针对这个 long2short 问题提出了几种方法，包括 模型合并（Model Merging）（Yang et al. 2024）、最短拒绝采样（Shortest Rejection Sampling）、直接偏好优化（DPO, Rafailov et al. 2024） 以及 long2short 强化学习（RL）。以下是这些方法的详细描述：

模型合并（Model Merging）

模型合并已被证明在保持泛化能力方面非常有效，我们也发现它在提高 token 效率方面具有良好的效果。
该方法通过合并长-CoT 模型与短-CoT 模型来得到一个新的模型，而无需额外训练。具体而言，我们采用简单的权重平均来合并两个模型。

最短拒绝采样（Shortest Rejection Sampling）

我们观察到，同一个问题的模型输出可能存在较大长度差异。因此，我们设计了一种最短拒绝采样方法：

该方法针对同一个问题采样 ( n ) 次（实验中 ( n = 8 )）。
选择其中最短的正确答案，并将其用于监督微调（SFT）。

直接偏好优化（DPO）

DPO 方法与最短拒绝采样类似，它利用 长-CoT 模型 生成多个答案，并筛选出 最短的正确答案 作为正样本。
同时，我们将较长的答案（包括：

错误的长答案
比正样本长 1.5 倍的正确答案）视为负样本。
这些正-负对构成了DPO 训练的偏好数据，用于指导模型优化。

Long2short 强化学习（RL）

在标准强化学习（RL）训练阶段结束后，我们会选择在性能和 token 效率之间取得最佳平衡的模型作为基础模型，然后再进行一个单独的 long2short RL 训练阶段：

这一阶段应用 长度惩罚（length penalty）。
显著减少最大 rollout 长度，从而对超出预期长度的答案进行额外惩罚，即使这些答案是正确的。

其他训练细节

预训练（Pretraining）

基础模型 Kimi k1.5 训练于一个多样化的高质量多模态语料库。其中，语言数据涵盖五个主要领域：

英语（English）
中文（Chinese）
代码（Code）
数学推理（Mathematics Reasoning）
知识（Knowledge）

此外，多模态数据涵盖：

图像字幕（Captioning）
图文交错（Image-text Interleaving）
OCR（光学字符识别）
知识问答（Knowledge QA）

这一多模态数据使模型具备 视觉-语言理解能力。同时，我们通过严格的质量控制确保数据集的相关性、丰富性和均衡性。

预训练分为 三个阶段：

视觉-语言预训练（Vision-language Pretraining）
- 先建立强大的语言基础，再逐步引入多模态能力。
冷却阶段（Cooldown）
- 采用精选数据+合成数据进一步巩固推理能力和知识任务的表现。
长上下文激活（Long-context Activation）
- 将序列长度扩展至 131,072 tokens 以增强长文本处理能力。
- 详细的预训练策略见附录 B。

标准监督微调（Vanilla Supervised Finetuning, SFT）

我们构建了一个覆盖多个领域的标准 SFT 语料库：

数据构造

非推理任务（如问答、写作、文本处理）：
1. 先由人工标注构建种子数据集（seed dataset）。
2. 训练种子模型（seed model）。
3. 采集大量用户输入（prompts），并让种子模型生成多个答案。
4. 由人工标注员对答案进行排序，并改进最优答案，最终得到高质量数据。
推理任务（如数学、编程）：
- 由于数学和编程任务的正确性比人工判断更适合规则验证/奖励建模，我们使用 拒绝采样（Rejection Sampling） 来扩展数据集。

数据统计

SFT 语料库总计约 100 万 条文本示例，其中：

50 万：通用问答（QA）。
20 万：编程（Coding）。
20 万：数学与科学（Math & Science）。
5 千：创意写作（Creative Writing）。
2 万：长文本任务（如文档问答（Doc-QA）、翻译、摘要、长文写作）。

此外，我们还构建了 100 万 条文本-视觉数据，涵盖：

图表解读（Chart Interpretation）
OCR（光学字符识别）
图像对话（Image-grounded Conversations）
视觉代码（Visual Coding）
视觉推理（Visual Reasoning）
带视觉信息的数学/科学题目（Math/Science Problems with Visual Aids）

训练策略

第一阶段（序列长度 32k tokens，训练 1 轮（epoch））：
- 学习率从 $\times 10^{-5}$ 逐步衰减至 $\times 10^{-6}$ 。
第二阶段（序列长度 128k tokens，再训练 1 轮（epoch））：
- 学习率重新热启动至 $\times 10^{-5}$ ，最终衰减至 $\times 10^{-6}$ 。
训练加速：
- 多个训练示例打包至单个训练序列，提高计算效率。

强化学习（RL）基础设施

大规模强化学习训练系统（RL Training System for LLM）

在人工智能领域，强化学习（RL）已成为 大型语言模型（LLM） 的重要训练方法（Ouyang et al. 2022；Jaech et al. 2024）。这一方法的成功案例包括：

AlphaGo（Silver et al. 2017）——围棋
AlphaStar（Vinyals et al. 2019）——星际争霸 II
OpenAI Dota Five（Berner et al. 2019）——Dota 2

Kimi k1.5 采用迭代同步 RL 框架，通过持续学习和适应增强模型的推理能力。其中的核心创新之一是 Partial Rollout 技术，用于优化复杂推理轨迹的处理。
在这里插入图片描述

该强化学习训练系统（见图 3a）遵循 迭代同步（iterative synchronous） 流程，每次迭代包含：

Rollout 阶段：
- Rollout workers（执行采样的计算节点）在中央主控（central master）的协调下，与模型交互，生成 rollout 轨迹（模型对输入的响应序列）。
- 这些轨迹被存储至 Replay Buffer，用于去除时间相关性，确保训练数据的多样性与无偏性。
训练阶段（Training Phase）：
- 训练节点（Trainer workers）从 Replay Buffer 读取 rollout 轨迹，并进行梯度更新（gradient update），优化模型参数。

在整个 RL 过程中：

中央主控（Central Master） 负责协调数据流、管理 rollout workers、训练 workers、奖励模型（Reward Model）及 Replay Buffer，确保系统高效运作。
奖励模型（Reward Model） 用于评估模型的输出质量，并提供反馈，指导训练过程。
代码执行服务（Code Execution Service） 用于处理代码类任务，确保模型在真实编程环境中的表现。

Partial Rollouts 技术：用于 Long CoT RL

本研究的核心目标之一是扩展长上下文（Long-context）RL 训练。Partial Rollouts 技术解决了处理 长-CoT（Long-CoT） 任务的挑战，使长短轨迹的 rollout 处理更加高效。

Partial Rollouts 工作机制

固定 token 预算，即 rollout 轨迹长度有上限。
超出 token 限制的未完成轨迹将被存入 Replay Buffer，并在下一次迭代继续完成，避免单个超长轨迹占用系统资源。
异步计算（Asynchronous Processing）：
- 部分 workers 处理长轨迹
- 部分 workers 处理短轨迹
- 最大化计算效率，确保所有计算资源得到充分利用。

Replay Buffer 的优化

如 图 3b 所示：

长轨迹被分段存储在 Replay Buffer 中。
仅当前迭代（iter n）需要 on-policy 计算，而前几轮（iter n-m 至 n-1）的数据可重复使用，避免重复 rollout，减少计算开销。

其他优化机制

减少计算开销：只需处理最新的 token 片段，而非完整的长响应。
防止重复内容（Repeat Detection）：
- 识别重复模式并提前终止计算。
- 给予额外惩罚（penalty），避免生成冗余内容。

训练与推理的混合部署（Hybrid Deployment of Training and Inference）

在这里插入图片描述

强化学习训练流程包括三个阶段：

训练阶段（Training Phase）：
- Megatron（Shoeybi et al. 2020） 和 vLLM（Kwon et al. 2023） 在独立容器中运行。
- Checkpoint Engine 负责管理训练流程：
  - Megatron 执行训练任务。
  - 训练完成后，Megatron 释放 GPU 内存，并将当前模型权重传输到 vLLM。
推理阶段（Inference Phase）：
- vLLM 先加载 占位模型权重（dummy model weights）。
- 然后 通过 Mooncake（Qin et al. 2024） 更新最新权重。
- 推理任务完成后，Checkpoint Engine 停止所有 vLLM 进程。
后续训练阶段（Subsequent Training Phase）：
- 释放 vLLM 内存后，Megatron 重新加载 GPU 内存，并启动下一轮训练。

关键挑战

复杂并行计算策略：
- Megatron 和 vLLM 可能使用不同的并行策略，共享训练权重存在挑战。
最小化 GPU 资源空闲：
- 传统 RL 训练（如 SGLang（L. Zheng et al. 2024））可能预留部分 GPU，导致资源闲置。
- 本系统允许训练与推理共享相同 GPU 设备，提升利用率。
动态扩展（Dynamic Scaling）：
- 可动态调整推理节点数量，在保持训练规模不变的情况下加速推理。

混合部署策略

采用 Kubernetes Sidecar 容器，共享所有 GPU 资源，将训练和推理任务部署在同一个 pod。
优势：
- 防止 GPU 资源空闲，避免因训练等待推理资源而浪费计算能力。
- 独立更新训练/推理镜像，实现高效迭代。
- 兼容多种推理框架（如 vLLM），可扩展性强。

Checkpoint Engine

负责管理 vLLM 进程生命周期，通过 HTTP API 触发不同操作。
etcd 全局元数据系统管理操作广播，确保系统一致性和可靠性。

代码沙箱（Code Sandbox）

我们开发了一个安全环境（sandbox），用于用户提交代码的执行与评测，优化代码推理任务的强化学习（RL）训练。

支持多种评测平台

沙箱支持多种代码评测框架，包括：

MultiPL-E（Cassano et al. 2023）
DMOJ Judge Server 2
Lean
Jupyter Notebook

主要功能

提供一致且可重复的评测机制，确保训练数据的可靠性。
多阶段反馈系统：
- 代码执行反馈
- 代码仓库级（repo-level）编辑
- 保持统一上下文，确保跨语言的公平性。

技术优化

运行时优化：
- 使用 Crun 作为容器运行时，比 Docker 启动更快。
Cgroup 复用：
- 预创建 Cgroups，优化高并发场景，避免频繁创建/销毁 Cgroup 的性能瓶颈。
磁盘优化：
- 使用 OverlayFS + tmpfs，实现高效磁盘缓存，适用于短期计算任务。

可扩展性

Kubernetes 部署：
- 自动重启、滚动更新，保障高可用性。
HTTP API：
- 外部系统可直接调用，支持灵活集成。

实验（Experiments）

评估（Evaluation）

由于 Kimi k1.5 是一个多模态模型，我们在不同模态的多个基准测试（benchmark）上进行了全面评估。我们的评估基准主要包括以下三大类别：

1. 文本评测（Text Benchmark）

MMLU（Hendrycks et al. 2020）
IF-Eval（J. Zhou et al. 2023）
CLUEWSC（L. Xu et al. 2020）
C-EVAL（Y. Huang et al. 2023）

2. 推理评测（Reasoning Benchmark）

HumanEval-Mul
LiveCodeBench（Jain et al. 2024）
Codeforces
AIME 2024
MATH500（Lightman et al. 2023）

3. 视觉评测（Vision Benchmark）

MMMU（Yue, Ni, et al. 2024）
MATH-Vision（K. Wang et al. 2024）
MathVista（Lu et al. 2023）

主要实验结果（Main Results）

K1.5 长链式思维（Long-CoT）模型

在这里插入图片描述

Kimi k1.5 长-CoT 模型的实验结果见 表 2。
通过：

长-CoT 监督微调（Supervised Fine-tuning）（详见 2.2 节）
视觉-文本联合强化学习（Vision-Text Joint RL）（详见 2.3 节）

该模型的长程推理能力显著增强。此外，测试时计算扩展（Test-time computation scaling） 进一步提升了模型性能，使其在多种模态上达到了 最先进（state-of-the-art, SOTA） 水平。

实验表明，Kimi k1.5 在推理、理解、信息综合等方面具有显著提升，标志着多模态 AI 能力的进步。

K1.5 短链式思维（Short-CoT）模型

在这里插入图片描述

Kimi k1.5 短-CoT 模型的实验结果见 表 3。
该模型整合了：

传统监督微调（Supervised Fine-tuning）（详见 2.5.2 节）
强化学习（Reinforcement Learning）（详见 2.3 节）
长短迁移蒸馏（Long-to-Short Distillation）（详见 2.4 节）

实验结果表明，Kimi k1.5 短-CoT 模型在文本、视觉、推理任务上表现优于或可媲美领先的开源和专有大模型，尤其在：

自然语言理解（NLU）
数学（Mathematics）
编程（Coding）
逻辑推理（Logical Reasoning）

等领域表现突出。

长上下文扩展（Long Context Scaling）

在这里插入图片描述

我们使用中等规模的模型研究强化学习在大模型上的扩展性。

图 5 显示了训练准确率与响应长度在训练迭代过程中的变化（在数学任务集上训练）。
实验观察：
- 随着训练进展，模型的响应长度与准确率同步提升。
- 难度更高的基准测试（harder benchmarks），其响应长度增加更陡峭，表明模型会针对复杂问题生成更详细的解答。

在这里插入图片描述

图 6 表明：
- 输出上下文长度与问题解决能力呈强相关性。
- 最终 Kimi k1.5 训练扩展至 128k 上下文长度，并在高难度推理任务上持续取得提升。

Long2short 训练（Long2short）

我们比较了 long2short RL 方法与：

DPO（Direct Preference Optimization）
最短拒绝采样（Shortest Rejection Sampling, RS）
模型合并（Model Merging）

等方法在 long2short 任务中的 token 效率（X. Chen et al. 2024）。

实验设定

K1.5-long：Kimi k1.5 长-CoT 模型（用于 long2short 训练）。
K1.5-short w/ RL：采用 Long2short RL 训练的短模型。
K1.5-short w/ DPO：通过 DPO 训练提高 token 效率的短模型。
K1.5-short w/ Merge：模型合并后得到的短模型。
K1.5-short w/ Merge + RS：在合并模型基础上应用最短拒绝采样得到的短模型。
K1.5-shortest：long2short 训练过程中获取的最短模型。

实验结果

在这里插入图片描述

图 7 展示了不同方法在 token 效率上的表现：

long2short RL 算法（K1.5-short w/ RL） 取得最高 token 效率，优于 DPO 和模型合并。
所有 K1.5 系列模型（橙色） 在 token 效率上显著优于其他模型（蓝色）。
具体数据对比：
- K1.5-short w/ RL：
  - 在 AIME2024 上 Pass@1 = 60.8（8 次实验平均值）。
  - 平均使用 token 仅 3,272。
- K1.5-shortest：
  - 在 MATH500 上 Pass@1 = 88.2，但消耗的 token 数量与其他短模型基本相同。

消融实验（Ablation Studies）

模型规模与上下文长度的扩展（Scaling of Model Size and Context Length）

本研究的主要贡献在于应用强化学习（RL）来优化模型的长链式思维（Long-CoT）能力，从而提升推理性能。然而，一个自然的问题是：这种方法与单纯增大模型规模相比效果如何？

实验设定

两个不同规模的模型，使用相同的数据集进行训练。
记录RL 训练过程中的评估结果及平均推理长度。
结果见图 8。

实验结论

较大模型在训练初期表现更好，但较小模型通过 RL 训练的长-CoT 生成优化，可以达到相似的推理能力。
较大模型的 token 使用效率更高，表明：
- 如果目标是最优性能，则较大模型+更长的上下文长度具有更高的上限，并且更具 token 效率。
- 如果计算资源受限，则训练较小模型但扩展其上下文长度可能是可行方案。

负梯度的影响（Effects of Using Negative Gradients）

本实验探讨了在策略优化（policy optimization）中使用 负梯度（negative gradients） 的影响，并评估了 ReST（Gulcehre et al. 2023） 作为 RL 策略优化算法的有效性。

ReST 方法与本研究的区别

ReST：基于当前模型的最优响应进行拟合，但不会对错误答案应用负梯度惩罚。
本方法：使用负梯度来惩罚错误回答，从而加速训练收敛。

实验结果

在这里插入图片描述

图 10 表明：
- 本方法的样本复杂度（sample complexity）优于 ReST。
- 负梯度的使用显著提高了长-CoT 训练的效率，使得：
  - 推理质量更高
  - 训练效率更优
实验结论
- 策略优化算法的选择至关重要，负梯度的使用能够显著提升 RL 训练的效果。
- 这一现象在其他领域的 RL 任务（Gulcehre et al. 2023）中可能不明显，但在长链式思维任务上至关重要。

采样策略（Sampling Strategies）

本实验进一步验证了 课程式采样（Curriculum Sampling）（详见 2.3.4 节）的有效性。

实验方法

训练数据集 D 由不同难度的问题组成。
两种采样方法对比：
1. 课程式采样：
  - 初期：使用数据集 D 进行热身训练（warm-up）。
  - 后期：仅专注于高难度问题，强化训练。
2. 基线方法（Baseline）：
  - 不进行难度调整，**均匀采样（uniform sampling）**数据集中的问题。

实验结果

在这里插入图片描述

图 9 显示：
- 课程式采样 显著提升了模型性能。
- 其原因：
  - 逐步提高挑战性，使模型逐渐适应更复杂的问题。
  - 初始训练阶段建立基础，后期聚焦难题，强化推理能力。

实验结论

课程式采样策略能有效提升模型的推理能力，比均匀采样更具优势。

结论（Conclusions）

本研究提出了 Kimi k1.5 的训练方法与系统设计，这是一个多模态 LLM，基于强化学习（RL）训练。研究过程中，我们得出以下关键结论：

1. 长上下文扩展对 LLM 发展至关重要

长上下文扩展（Long-context Scaling） 是 LLM 持续提升的关键。
优化学习算法 + 基础设施优化（如 Partial Rollouts），使得长上下文 RL 训练更加高效。
未来研究方向：
- 如何进一步提高长上下文 RL 的效率和可扩展性。

2. 提升 RL 策略优化的多种方法

本研究的贡献：
- 结合长-CoT RL 训练，推导出在线镜像下降（Online Mirror Descent）变体，实现鲁棒优化。
- 研究采样策略、长度惩罚（length penalty） 和 数据优化，最终达到强 RL 训练性能。
即便不使用复杂的 Monte Carlo 搜索（MCTS）、值函数（value functions）或过程奖励模型（process reward models），本方法仍能取得高性能。