DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化

内容提要

刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek 的研究员过年都没歇,一直在爆肝推进研究,接下来DeepSeek还有大招

文章正文

事情是这样的,2月1号,大年初四Daya Guo发了一条推文,透露了春节期间让他最兴奋的事情,亲眼见证了 R1-Zero 模型性能曲线的 “持续增长”,并且直言感受到了 强化学习(RL)的强大力量!这一下子就点燃了网友们的好奇心,大家纷纷跑去围观提问(太拼了,deepseek研究员过年都在爆肝训练模型)

以下我来帮大家还原一下Daya Guo与网友对话:

网友A @PseudoProphet: “大佬,想问下这个性能持续提升能持续多久呢?现在是早期阶段吗?感觉DeepSeek的RL模型是不是像语言模型里的GPT-2一样刚起步?还是说已经到GPT-3.5那种比较成熟的阶段,快要遇到瓶颈了?”

这个问题问的相当犀利啊,直接关系到DeepSeek RL技术的潜力!Daya Guo 的回复也十分坦诚:

Daya Guo : “我觉得我们还处于非常早期的阶段,RL 领域还有很长的路要探索。但我相信今年会看到显著的进展”

划重点! “非常早期”, “很长的路要探索”, “今年会有显著进展”!这几个关键词信息量巨大。这意味着,DeepSeek 认为他们在RL领域仍然有巨大的进步空间,R1 现在的成绩可能只是冰山一角,未来可期啊!

紧接着,另一位网友 @kaush_trip (Cheeku Tripathi)抛出了一个更专业的问题,直击模型能力的核心:

网友B @kaush_trip: “基于 R1-Zero 的性能,您如何评估模型是真的具备了 泛化能力,还是仅仅 记忆了状态转换和奖励 ?”

这个问题问的非常到位!毕竟现在很多模型看起来很强大,但实际上只是在训练数据上“死记硬背”,换个环境就拉胯。DeepSeek R1 到底是不是真材实料呢?

Daya Guo : “我们使用 RL prompt 未覆盖的领域的基准 来评估泛化能力。目前来看,它 似乎具备泛化能力”

“RL prompt 未覆盖的领域” 这句话是关键!这意味着 DeepSeek 不是用训练数据来“作弊”评估,而是用模型 从未见过 的新场景来测试,这才能真正体现模型的泛化水平。Daya Guo 用 “似乎具备” 这种严谨的措辞,也更显得真实可信

接下来,一位ID名为 @teortaxesTex 的网友,DeepSeek的忠实粉丝(备注里都写着“DeepSeek鲸鱼啦啦队”),他从DeepSeek V3 技术报告入手,提出了一个关于 模型训练时间 的问题:

网友C @teortaxesTex: “如果不是秘密的话:这次 RL 训练跑了多久?感觉你们早在 12 月 10 号就有了 R1 或者至少是 R1-Zero,因为 V3 技术报告里提到 V2.5 模型用了 R1 的知识蒸馏,而且 V2.5-1210 的分数和现在的模型一样。现在做的这个是那次训练的延续吗?”

这位网友观察力惊人啊!能从技术报告里抠出这么多细节。Daya Guo 也耐心解答了模型的迭代过程:

Daya Guo : “660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的,训练大约花了 2-3 周。之前我们提到的 R1 模型(比如在 V3 技术报告里),实际上是 R1-Lite 或者 R1-Lite-Zero”

原来如此!我们现在看到的 R1-Zero 和 R1 是 “全新升级版”,之前的 R1-Lite 系列是小规模版本。看来 DeepSeek 在背后默默迭代升级了不少版本啊

关于训练速度,网友 @jiayi_pirate (Jiayi Pan)和 网友B @kaush_trip 又接力提出了一个“灵魂拷问”:

网友D @jiayi_pirate: “3 周 1 万 RL steps,每个梯度传播 (grpo) 步骤要 ~ 3 分钟 ????”

网友B @kaush_trip: “如果每个梯度传播 (grpo) 步骤要 ~3 分钟,那大概每小时 5 步,每天 120 步,确实很慢。”

这算的是真够细致的!按照网友的计算,DeepSeek R1 的训练速度确实不算快。侧面也说明,这种高性能的 RL 模型,训练成本和时间投入都是巨大的。“慢工出细活” 用来形容 AI 模型训练,好像也挺合适的

最后,一位名叫 @davikrehalt (Andy Jiang)的网友,从更前沿的应用角度提了一个问题:

网友E @davikrehalt: “你们有没有尝试用 RL 来搞 形式化证明环境,而不是只做问答对?要是今年有个开源模型能在 IMO (国际数学奥林匹克) 拿金牌就好了!(以及更多希望!)”

形式化证明!IMO 金牌!这位网友的野心不小啊!不过,把 AI 应用到数学证明这种硬核领域,确实是未来趋势。Daya Guo 的回答再次让人惊喜:

Daya Guo : “我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型”

听 Daya Guo 的意思,他们在这方面已经有进展,未来可能会有更重磅的模型发布!期待值拉满!

写在最后

从Daya Guo的回应中可提炼三大信号:

技术定位:RL尚处早期,性能提升远未见顶;

验证逻辑:跨领域测试泛化能力,拒绝“记忆投机”

应用边界:从语言模型到数学证明,RL正向高阶推理迈进

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/964864.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Rust自学】20.1. 最后的项目:单线程Web服务器

喜欢的话别忘了点赞、收藏加关注哦(加关注即可阅读全文),对接下来的教程有兴趣的可以关注专栏。谢谢喵!(・ω・) 20.1.1. 什么是TCP和HTTP Web 服务器涉及的两个主要协议是超文本传输​​协议(Hypertext T…

19.[前端开发]Day19-王者荣项目耀实战(二)

01_(掌握)王者荣耀-main-banner展示实现 完整代码 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewpor…

Java 基于微信小程序的高校失物招领平台小程序(附源码,文档)

博主介绍&#xff1a;✌程序员徐师兄、8年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战*✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447…

题解:洛谷 P5837 [USACO19DEC] Milk Pumping G

题目https://www.luogu.com.cn/problem/P5837 温馨提示&#xff1a;鉴于数据范围小的可怜&#xff0c;我们可以用暴力一些的想法去做&#xff0c;别看到是普及/提高就被吓退了。 枚举最小流量 &#xff0c;然后跑一遍最短路&#xff0c;求出带限制的 到 的最短路的长度&#…

动态规划——斐波那契数列模型问题

文章目录 1137. 第 N 个泰波那契数算法原理代码实现 面试题 08.01. 三步问题算法原理代码实现 746. 使用最小花费爬楼梯算法原理代码实现 91. 解码方法算法原理代码实现 1137. 第 N 个泰波那契数 题目链接&#xff1a;1137. 第 N 个泰波那契数 算法原理 状态表示&#xff1a;…

LabVIEW涡轮诊断系统

一、项目背景与行业痛点 涡轮机械是发电厂、航空发动机、石油化工等领域的核心动力设备&#xff0c;其运行状态直接关系到生产安全与经济效益。据统计&#xff0c;涡轮故障导致的非计划停机可造成每小时数十万元的经济损失&#xff0c;且突发故障可能引发严重安全事故。传统人…

java程序员面试自身优缺点,详细说明

程序员面试大厂经常被问到的Java异常机制问题,你搞懂了吗运行时异常:运行时异常是可能被程序员避免的异常。与检查性相反,运行时异常可以在编译时被忽略。错误(ERROR):错误不是异常,而是脱离程序员控制的问题。错误通常在代码中容易被忽略。例如:当栈溢出时,一个错误就发生了,它…

大话特征工程:3.特征扩展

公元 2147 年&#xff0c;人类文明站在科技的巅峰&#xff0c;所有决策、发展甚至感知都被“全维计算网络”所掌控。这套系统以高维空间中的数据为基础&#xff0c;试图预测并塑造未来。然而&#xff0c;这场辉煌的技术革命却在悄无声息之间酿成了人类最大的危机——维数灾难。…

CSV数据分析智能工具(基于OpenAI API和streamlit)

utils.py&#xff1a; from langchain_openai import ChatOpenAI from langchain_experimental.agents.agent_toolkits import create_csv_agent import jsonPROMPT_TEMPLATE """你是一位数据分析助手&#xff0c;你的回应内容取决于用户的请求内容。1. 对于文…

2025.2.5

Web [SWPUCTF 2021 新生赛]ez_unserialize: 这个题先了解一下反序列化&#xff1a;反序列化是序列化的逆过程。序列化是将对象或数据结构转换为可以存储或传输的格式&#xff08;如JSON、XML或二进制格式&#xff09;的过程。反序列化则是将这个格式的数据转换回原始的对象或…

新版AndroidStudio 修改 jdk版本

一、问题 之前&#xff0c;在安卓项目中配置JDK和Gradle的过程非常直观&#xff0c;只需要进入Android Studio的File菜单中的Project Structure即可进行设置&#xff0c;十分方便。 如下图可以在这修改JDK: 但是升级AndroidStudio之后&#xff0c;比如我升级到了Android Stu…

Web3技术详解

Web3技术代表着互联网技术的最新进展&#xff0c;它致力于打造一个去中心化的互联网生态系统。以下是对Web3技术的详细解析&#xff1a; 一、Web3技术的核心概念 Web3是第三代互联网技术的代名词&#xff0c;代表着去中心化、区块链驱动和用户自有控制的理念。在Web3的世界中…

景联文科技:专业数据采集标注公司 ,助力企业提升算法精度!

随着人工智能技术加速落地&#xff0c;高质量数据已成为驱动AI模型训练与优化的核心资源。据统计&#xff0c;全球AI数据服务市场规模预计2025年突破200亿美元&#xff0c;其中智能家居、智慧交通、医疗健康等数据需求占比超60%。作为国内领先的AI数据服务商&#xff0c;景联文…

3.【BUUCTF】XSS-Lab1

进入题目页面如下 好好好&#xff0c;提示点击图片&#xff0c;点进去页面如下&#xff0c;且url中有传参&#xff0c;有注入点 发现题目给出了源码 查看得到本题的源码 分析一下代码 <!DOCTYPE html><!--STATUS OK--> <!-- 声明文档类型为 HTML5&#xff0c;告…

进程、线程、内存和IO模型的概念详解

进程、线程、内存和IO模型的概念详解 1 进程与线程1.1 进程1.1.1 进程分类1.1.2 进程的状态和转换1.1.3 僵尸进程和孤儿进程的区别1.1.4 进程之间的通信1.1.5 用户态和内核态1.1.6 用户空间和内核空间 1.2 线程1.2.1 线程的状态和转换1.2.2 进程与线程的区别 1.3 多进程和多线程…

浅谈密码相关原理及代码实现

本代码仅供学习、研究、教育或合法用途。开发者明确声明其无意将该代码用于任何违法、犯罪或违反道德规范的行为。任何个人或组织在使用本代码时&#xff0c;需自行确保其行为符合所在国家或地区的法律法规。 开发者对任何因直接或间接使用该代码而导致的法律责任、经济损失或…

Swagger相关内容整合

mvc:pathmatch:matching-strategy: ant_path_matcher 一、引入相关依赖 <!-- 图像化依赖 --> <dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger-ui</artifactId><version>2.9.2</version> </de…

【数据结构】循环链表

循环链表 单链表局限性单向循环链表判断链表是否有环思路code 找到链表入口思路代码结构与逻辑 code 单链表局限性 单链表作为一种基本的数据结构&#xff0c;虽然在很多场景下都非常有用&#xff0c;但它也存在一些局限性&#xff1a; 单向访问&#xff1a;由于每个节点仅包含…

简易C语言矩阵运算库

参考网址&#xff1a; 异想家纯C语言矩阵运算库 - Sandeepin - 博客园 这次比opencv快⑥倍&#xff01;&#xff01;&#xff01; 参考上述网址&#xff0c;整理了一下代码&#xff1a; //main.c#include <stdio.h> #include <stdlib.h> #include <string.h…

微服务知识——微服务架构的演进过程

文章目录 初始架构&#xff1a;单机架构第一次演进&#xff1a;Tomcat与数据库分开部署第二次演进&#xff1a;引入本地缓存和分布式缓存第三次演进&#xff1a;引入反向代理实现负载均衡第四次演进&#xff1a;数据库读写分离第五次演进&#xff1a;数据库按业务分库第六次演进…