DeepSeek研究员在线爆料：R1训练仅用两到三周，春节期间观察到R1 zero强大进化

内容提要

刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题，以及接下来的公司的计划，只能说DeepSeek的R1仅仅只是开始，内部研究还在快速推进，DeepSeek 的研究员过年都没歇，一直在爆肝推进研究，接下来DeepSeek还有大招

文章正文

事情是这样的，2月1号，大年初四Daya Guo发了一条推文，透露了春节期间让他最兴奋的事情，亲眼见证了 R1-Zero 模型性能曲线的 “持续增长”，并且直言感受到了强化学习（RL）的强大力量！这一下子就点燃了网友们的好奇心，大家纷纷跑去围观提问（太拼了，deepseek研究员过年都在爆肝训练模型）

以下我来帮大家还原一下Daya Guo与网友对话：

网友A @PseudoProphet： “大佬，想问下这个性能持续提升能持续多久呢？现在是早期阶段吗？感觉DeepSeek的RL模型是不是像语言模型里的GPT-2一样刚起步？还是说已经到GPT-3.5那种比较成熟的阶段，快要遇到瓶颈了？”

这个问题问的相当犀利啊，直接关系到DeepSeek RL技术的潜力！Daya Guo 的回复也十分坦诚：

Daya Guo ： “我觉得我们还处于非常早期的阶段，RL 领域还有很长的路要探索。但我相信今年会看到显著的进展”

划重点！ “非常早期”， “很长的路要探索”， “今年会有显著进展”！这几个关键词信息量巨大。这意味着，DeepSeek 认为他们在RL领域仍然有巨大的进步空间，R1 现在的成绩可能只是冰山一角，未来可期啊！

紧接着，另一位网友 @kaush_trip （Cheeku Tripathi）抛出了一个更专业的问题，直击模型能力的核心：

网友B @kaush_trip： “基于 R1-Zero 的性能，您如何评估模型是真的具备了泛化能力，还是仅仅记忆了状态转换和奖励？”

这个问题问的非常到位！毕竟现在很多模型看起来很强大，但实际上只是在训练数据上“死记硬背”，换个环境就拉胯。DeepSeek R1 到底是不是真材实料呢？

Daya Guo ： “我们使用 RL prompt 未覆盖的领域的基准来评估泛化能力。目前来看，它似乎具备泛化能力”

“RL prompt 未覆盖的领域” 这句话是关键！这意味着 DeepSeek 不是用训练数据来“作弊”评估，而是用模型从未见过的新场景来测试，这才能真正体现模型的泛化水平。Daya Guo 用 “似乎具备” 这种严谨的措辞，也更显得真实可信

接下来，一位ID名为 @teortaxesTex 的网友，DeepSeek的忠实粉丝（备注里都写着“DeepSeek鲸鱼啦啦队”），他从DeepSeek V3 技术报告入手，提出了一个关于模型训练时间的问题：

网友C @teortaxesTex： “如果不是秘密的话：这次 RL 训练跑了多久？感觉你们早在 12 月 10 号就有了 R1 或者至少是 R1-Zero，因为 V3 技术报告里提到 V2.5 模型用了 R1 的知识蒸馏，而且 V2.5-1210 的分数和现在的模型一样。现在做的这个是那次训练的延续吗？”

这位网友观察力惊人啊！能从技术报告里抠出这么多细节。Daya Guo 也耐心解答了模型的迭代过程：

Daya Guo ： “660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的，训练大约花了 2-3 周。之前我们提到的 R1 模型（比如在 V3 技术报告里），实际上是 R1-Lite 或者 R1-Lite-Zero”

原来如此！我们现在看到的 R1-Zero 和 R1 是 “全新升级版”，之前的 R1-Lite 系列是小规模版本。看来 DeepSeek 在背后默默迭代升级了不少版本啊

关于训练速度，网友 @jiayi_pirate （Jiayi Pan）和网友B @kaush_trip 又接力提出了一个“灵魂拷问”：

网友D @jiayi_pirate： “3 周 1 万 RL steps，每个梯度传播 (grpo) 步骤要～ 3 分钟 ????”

网友B @kaush_trip： “如果每个梯度传播 (grpo) 步骤要 ~3 分钟，那大概每小时 5 步，每天 120 步，确实很慢。”

这算的是真够细致的！按照网友的计算，DeepSeek R1 的训练速度确实不算快。侧面也说明，这种高性能的 RL 模型，训练成本和时间投入都是巨大的。“慢工出细活” 用来形容 AI 模型训练，好像也挺合适的

最后，一位名叫 @davikrehalt （Andy Jiang）的网友，从更前沿的应用角度提了一个问题：

网友E @davikrehalt： “你们有没有尝试用 RL 来搞形式化证明环境，而不是只做问答对？要是今年有个开源模型能在 IMO （国际数学奥林匹克）拿金牌就好了！（以及更多希望！）”

形式化证明！IMO 金牌！这位网友的野心不小啊！不过，把 AI 应用到数学证明这种硬核领域，确实是未来趋势。Daya Guo 的回答再次让人惊喜：

Daya Guo ： “我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型”

听 Daya Guo 的意思，他们在这方面已经有进展，未来可能会有更重磅的模型发布！期待值拉满！