【论文解读】《Training Large Language Models to Reason in a Continuous Latent Space》

论文链接

1. 背景与动机

  • 语言空间与推理的矛盾
    目前大多数大语言模型(LLMs)在解决复杂问题时采用链式思维(Chain-of-Thought, CoT)方法,即利用自然语言逐步推导出答案。然而,论文指出:

    • 自然语言主要为文本连贯性服务,很多生成的词令(tokens)在推理上并非关键。
    • 一些关键推理步骤需要复杂规划,但用语言表达往往使模型过早做出确定性选择,丧失灵活性。
    • 从神经影像学的研究来看,人脑在进行推理任务时,其语言网络并不活跃,说明语言其实是为交流而优化,而非专门用于推理。
      因此,作者提出:为何不让模型在一个“无限制的隐空间”中进行推理,再在必要时将结果转换为语言?
  • 连续隐向量作为推理状态
    论文引入了一个新的范式——Coconut(Chain of Continuous Thought)。其核心思想在于:

    • 利用模型最后一层的隐藏状态(hidden state)作为当前的“连续思维”(continuous thought),代表模型的内部推理状态。
    • 不通过语言头将其解码为文字,而是直接将这一隐向量反馈给模型,作为下一个时间步的输入嵌入。
      这样可以让模型在没有语言约束的情况下自由推理,同时仍然可以端到端地利用梯度下降进行训练citeturn0file0。

2. 方法与架构设计

在这里插入图片描述

2.1 基本模型与模式切换
  • 标准语言模型的表示
    给定一个输入序列 $ x = (x_1, x_2, \dots, x_T) $,模型通过嵌入
    E t = [ e ( x 1 ) , e ( x 2 ) , … , e ( x t ) ] E_t = [e(x_1), e(x_2), \dots, e(x_t)] Et=[e(x1),e(x2),,e(xt)]
    得到隐藏状态 $ H_t $,最终通过 softmax 预测下一个 token(即
    M ( x t + 1 ∣ x ≤ t ) = s o f t m a x ( W h t ) M(x_{t+1}|x_{\le t}) = \mathrm{softmax}(W h_t) M(xt+1xt)=softmax(Wht)
    )。

  • 从语言模式到隐模式的转换
    Coconut 的核心改动在于:

    • 语言模式(Language Mode):与传统方法一致,模型生成词令序列。
    • 隐模式(Latent Mode):在特定区间(由特殊 token 标记,如 <bot><eot>)内,模型不再使用词嵌入,而是直接使用前一步的隐藏状态作为下一个输入。这一过程即“连续思维”:
      • 假设位置 $ i $ 处为 <bot>,位置 $ j $ 为 <eot>,那么在 $ i < t < j $ 的区域,输入为 $ h_{t-1} $ 而非 $ e(x_{t-1}) $。
    • 当隐模式结束后,模型恢复使用常规词嵌入继续生成。
2.2 多阶段训练策略
  • 训练目标与梯度传递
    由于连续思维完全可微,论文采用标准的负对数似然损失(negative log-likelihood)进行训练,不过会对问题描述和隐思维部分进行掩码处理,确保损失只计算在剩余的语言输出上。

  • 逐步替换语言推理
    受到 Deng 等(2024)的启发,作者设计了一个多阶段训练课程:

    • 初始阶段:使用完整的语言推理链(CoT)的数据训练模型。
    • 后续阶段:逐步将语言推理步骤替换为连续隐思维。这里引入超参数 ( c ),表示每一步语言推理被替换为 ( c ) 个连续思维。
    • 如果原始推理链不足 ( k ) 步,则将全部推理步骤替换。每换一次阶段,都重置优化器状态以便更好地适应新的训练目标。
    • 此外,在连续思维的开始和结束处分别插入 与 标记。
2.3 推理过程

在这里插入图片描述

  • 推理时的模式切换
    在推理阶段,与训练类似:

    • 模型在处理完问题后(即问题部分用语言模式处理完毕)插入 token,随后进入隐模式,直接使用隐藏状态进行推理。
    • 对于何时结束隐模式,论文提出两种策略:
      1. 训练一个二分类器让模型自主决定何时结束隐推理。
      2. 固定隐推理的步数,即用固定长度的连续思维。
    • 实验中,为了简单起见,两种方法表现相近,因此作者采用了固定步长的方案。
  • 多次前向传播计算
    在训练中,如果当前阶段有 ( n ) 个隐思维,则需要进行 ( n+1 ) 次前向传播来依次生成每个隐向量,最后一次前向传播用于计算剩余文本的损失。这种多次前向传播虽然可以借助 KV 缓存加速,但由于依赖前一步计算,仍然存在并行性挑战。


3. 实验设置与比较

3.1 数据集与任务

论文在三个数据集上评估模型性能,分别侧重不同的推理能力:

  • 数学推理(GSM8k)

    • 包含小学水平的数学题,题目多样且贴近实际。
    • 训练时使用 Deng 等(2023)生成的合成数据集。
  • 逻辑推理(ProntoQA)

    • 题目利用虚构概念构造,要求模型根据给定条件判断某个陈述是否正确。
    • 由于题目结构较简单,要求模型做出直观的下步预测。
  • 规划密集型逻辑推理(ProsQA)

    • 为解决 ProntoQA 中分支较少的问题,作者设计了一个新的数据集 ProsQA,其推理条件构造为随机生成的有向无环图(DAG),要求模型在较为复杂的图结构中搜索正确推理链。
3.2 基线与变种

论文与多种基线方法进行比较,包括:

  • CoT(Chain-of-Thought)
    完整生成推理链后再给出答案。

  • No-CoT
    模型直接生成答案,不包含任何中间推理步骤。

  • iCoT
    采用内部化链式推理的策略,在训练过程中逐步移除推理链中的前几步(Deng et al., 2024)。

  • Pause Token
    在问题与答案之间插入特殊 tokens,赋予模型额外计算能力(Goyal et al., 2023)。

另外,还探讨了Coconut的几种变体:

  • w/o curriculum:直接使用仅包含问题和答案的最后阶段数据训练,而不使用多阶段训练。
  • w/o thought:虽使用多阶段训练但不使用任何连续隐思维,相当于仅移除语言推理步骤。
  • pause as thought:用 tokens 代替连续隐思维,采用相同的多阶段训练策略。
3.3 实验结果
  • 总体表现(参见 Table 1)

    • 在 GSM8k 上,标准 CoT 的准确率为 42.9%(生成 25 个 token),而 Coconut 达到 34.1%(生成仅 8.2 个 token),说明在生成效率上有明显优势。
    • 在逻辑推理任务 ProntoQA 中,Coconut 与 iCoT 均达到了 99.8% 的高准确率,但生成 token 数量显著减少(9.0 vs. 3.0~92.5 token,不同基线有所不同)。
    • 在规划要求更高的 ProsQA 上,Coconut 的准确率达到 97.0%,明显优于传统 CoT(77.5%)且生成 token 数也较少(14.2)。
  • 超参数 ( c ) 的影响
    实验表明,在 GSM8k 上,当每步隐思维的数量 ( c ) 从 0 增加到 2 时,模型性能呈稳步提升(见 Figure 3),说明“链式”连续思维能在隐空间中积累更多有效信息。

  • 推理效率与时钟时间
    除了准确率外,论文还比较了不同方法在推理过程中新生成 token 数量和平均推理时间,Coconut 在保持高准确率的同时大幅减少了生成 token 数,从而加快了推理速度(参见附录 B)。


4. 隐空间推理的深入分析

论文不仅在实验上展示了 Coconut 的优势,还对隐推理过程进行了详细的剖析与解释:

4.1 推理过程的隐搜索树解释
  • 多候选路径编码
    由于连续隐向量可以同时编码多个可能的下步推理,作者将其解释为一种隐式的广度优先搜索(BFS):

    • 在隐模式中,模型并没有立即确定唯一的下步选择,而是保留多个可能性,并在后续逐步淘汰不正确的路径。
    • 这种机制使得模型在遇到复杂规划任务时更为稳健,能够在面对多个分支时延迟决策。
  • 隐式价值函数
    当模型从隐空间切换回语言模式时,可以观察到预测分布中各候选项的概率。作者将这种概率分布视为一种隐式的“价值函数”,用于评估每个候选路径(例如在图结构中的“子节点”)通向正确答案的潜力(参见 Figure 7 和 Figure 8)。

4.2 隐推理与语言推理的对比
  • 延迟决策与规划能力
    在传统 CoT 中,每一步生成都会“锁定”一个具体的文本描述,容易导致过早决策;而在隐空间中,模型可以延迟决策,利用后续信息逐步修正路径,从而在规划密集型任务(如 ProsQA)中表现更优。

  • 节点高度与评价准确度
    论文还提出了一个分析方法:

    • 定义搜索树中节点的“高度”为该节点到叶子节点的最短距离。
    • 分析表明,对于高度较低的节点(即后续探索空间有限),模型能够更准确地分辨正确与错误的选项。而对于高度较高的节点,由于潜在分支较多,模型的区分能力会下降(见 Figure 9)。
4.3 模型平行探索的变化
  • 从宽广探索到聚焦收敛
    分析显示,在第一隐思维阶段,模型在候选路径上具有较高的多样性(即并行探索),而在第二阶段后,多数候选分布迅速收敛到少数高概率路径。这种变化表明模型在初期保持探索性,随后逐步聚焦到最有希望的解答路径。

5. 结论与未来方向

  • 主要贡献

    • 提出了 Coconut 这一全新的在连续隐空间中进行推理的方法,突破了传统 CoT 依赖自然语言表达的局限。
    • 实验结果表明,尤其在规划密集型任务中,Coconut 能够提高推理准确率,同时大幅减少生成的 token 数,从而提升推理效率。
    • 通过对隐搜索树的分析,展示了模型如何在隐空间中延迟决策、并行探索并最终收敛到正确解答。
  • 未来工作

    • 如何进一步优化多阶段训练过程、提高并行计算效率;
    • 探索预训练阶段就引入连续隐思维,从而使模型能在更广泛的推理任务上泛化;
    • 结合语言与隐空间推理的优势,开发更加高效且鲁棒的推理系统。

总结

这篇论文系统地阐述了一种新的大语言模型推理方法——Coconut,其核心在于让模型在一个连续的、无限制的隐空间中进行推理,通过多阶段训练逐步将传统语言推理替换为连续隐向量。实验结果和细致的分析表明,这种方法在逻辑、数学和规划密集型任务上均能展现出较传统方法更高的效率和准确率,同时为理解大模型内部推理机制提供了新的视角。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/975825.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

DevEco Studio常用快捷键以及如何跟AndroidStudio的保持同步

DevEco Studio快捷键 DevEco Studio是华为推出的用于开发HarmonyOS应用的集成开发环境&#xff0c;它提供了丰富的快捷键以提高开发效率&#xff0c;以下为你详细介绍不同操作场景下的常用快捷键&#xff1a; 通用操作快捷键 操作描述Windows/Linux 快捷键Mac 快捷键打开设置窗…

4. MySQL 逻辑架构说明

4. MySQL 逻辑架构说明 文章目录 4. MySQL 逻辑架构说明1. 逻辑架构剖析1.1 服务器处理客户端请求1.2 Connectors(连接器)1.3 第1层&#xff1a;连接层1.4 第2层&#xff1a;服务层1.5 第3层&#xff1a;引擎层1.6 存储层 2. SQL执行流程2.1 MySQL 中的 SQL 执行流程 2.2 MySQL…

基于 Python Django 的校园互助平台(附源码,文档)

博主介绍&#xff1a;✌Java徐师兄、7年大厂程序员经历。全网粉丝13w、csdn博客专家、掘金/华为云等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&#x1f3fb; 不…

【CVPR2024-工业异常检测】PromptAD:与只有正常样本的少样本异常检测的学习提示

代码链接 摘要 摘要写作总结&#xff1a; 1.提出 两个关键点 &#xff08;视觉语言模型【模型】 少量工业异常检测【方向】&#xff09; 2.想要解决的问题 3.针对上述问题&#xff0c;本文提出了一种什么【方法】的什么【应用方面】方法【模型名】 4.具体讲方法的步骤 5.实验…

WPF框架学习

WPF 可以想winfrom 那样在cs文件修改 属性数据&#xff1b; 为了前后端分离 而解耦合&#xff0c;有了M-V-VM模式 常见框架有 MVVMlight / Prism 等 ------------------------------------------------------------------------------------- 一、前提&#xff1a;有一定基…

网络运维学习笔记 017 HCIA-Datacom综合实验01

文章目录 综合实验1实验需求总部特性 分支8分支9 配置一、 基本配置&#xff08;IP二层VLAN链路聚合&#xff09;ACC_SWSW-S1SW-S2SW-Ser1SW-CoreSW8SW9DHCPISPGW 二、 单臂路由GW 三、 vlanifSW8SW9 四、 OSPFSW8SW9GW 五、 DHCPDHCPGW 六、 NAT缺省路由GW 七、 HTTPGW 综合实…

git,bash - 从一个远端git库只下载一个文件的方法

文章目录 git,bash - 从一个远端git库只下载一个文件的方法概述笔记写一个bash脚本来自动下载get_github_raw_file_from_url.shreanme_file.shfind_key_value.sh执行命令 END git,bash - 从一个远端git库只下载一个文件的方法 概述 github上有很多大佬上传了电子书库&#xf…

【废物研究生零基础刷算法】DFS与递归(一)典型题型

文章目录 跳台阶递归实现指数级枚举递归实现排列型枚举上面两题总结 递归实现组合型枚举P1036选数 跳台阶 思路&#xff1a; 如果 n 1&#xff0c;只有一种走法&#xff08;走 1 级&#xff09;。如果 n 2&#xff0c;有两种走法&#xff08;11 或 2&#xff09;。对于 n &g…

Java-01-源码篇-04集合-05-ConcurrentHashMap(1)

1.1 加载因子 加载因子&#xff08;Load Factor&#xff09;是用来决定什么时候需要扩容的一个参数。具体来说&#xff0c;加载因子 当前元素数量 / 桶的数量&#xff0c;当某个桶的元素个数超过了 桶的数量 加载因子 时&#xff0c;就会触发扩容。 我们都知道 ConcurrentHas…

AI赋能的未来城市:如何用智能化提升生活质量?

这会是我们憧憬的未来城市吗&#xff1f; 随着技术的不断进步和城市化进程的加速&#xff0c;现代城市面临着诸多挑战——交通拥堵、环境污染、能源消耗、人口老龄化等问题愈发突出。为了应对这些挑战&#xff0c;建设智慧城市已成为全球发展的重要趋势。在这一进程中&#xf…

DeepSeek各模型现有版本对比分析

文章目录 一、基础模型系列&#xff1a;V1 到 V3 的演进二、专用模型系列&#xff1a;推理与多模态三、版本选型与商业化趋势 DeepSeek作为最近特别火爆的模型&#xff0c;本文将对DeepSeek现有的主要版本进行对比分析,涵盖参数规模、训练数据、功能改进、应用场景和性能表现等…

【亲测有效】百度Ueditor富文本编辑器添加插入视频、视频不显示、和插入视频后二次编辑视频标签不显示,显示成img标签,二次保存视频被替换问题,解决方案

【亲测有效】项目使用百度Ueditor富文本编辑器上传视频相关操作问题 1.百度Ueditor富文本编辑器添加插入视频、视频不显示 2.百度Ueditor富文本编辑器插入视频后二次编辑视频标签不显示&#xff0c;在编辑器内显示成img标签&#xff0c;二次保存视频被替换问题 问题1&#xff1…

hot100_108. 将有序数组转换为二叉搜索树

hot100_108. 将有序数组转换为二叉搜索树 思路 给你一个整数数组 nums &#xff0c;其中元素已经按 升序 排列&#xff0c;请你将其转换为一棵 平衡 二叉搜索树。 示例 1&#xff1a; 输入&#xff1a;nums [-10,-3,0,5,9] 输出&#xff1a;[0,-3,9,-10,null,5] 解释&#…

RFID涉密载体柜:智能安全,全程守护,提供智能化的安全管控

行业背景 RFID智能载体柜&#xff08;DW-G101&#xff09;是一种便捷化的载体管控系统&#xff0c;它采用RFID技术实现信息化&#xff0c;可以大大提高载体管理的效率和准确性。 随着信息化的快速发展&#xff0c;涉密载体&#xff08;如文件、U盘、光盘等&#xff09;的管理…

【复习】计算机网络

网络模型 OSI 应用层&#xff1a;给应用程序提供统一的接口表示层&#xff1a;把数据转换成兼容另一个系统能识别的格式会话层&#xff1a;负责建立、管理、终止表示层实体之间的通信会话传输层&#xff1a;负责端到端的数据传输网络层&#xff1a;负责数据的路由、转发、分片…

多线程篇学习面试

多线程 1.乐观锁、CAS思想 java乐观锁机制&#xff1a; ​ 乐观锁体现的是悲观锁的反面。它是一种积极的思想&#xff0c;它总是认为数据是不会被修改的&#xff0c;所以是不会对数据上锁的。但是乐观锁在更新的时候会去判断数据是否被更新过。乐观锁的实现方案一般有两种&a…

Spring Boot 概要(官网文档解读)

Spring Boot 概述 Spring Boot 是一个高效构建 Spring 生产级应用的脚手架工具&#xff0c;它简化了基于 Spring 框架的开发过程。 Spring Boot 也是一个“构件组装门户”&#xff0c;何为构件组装门户呢&#xff1f;所谓的“构件组装门户”指的是一个对外提供的Web平台&#x…

计算机毕业设计SpringBoot+Vue.jst0甘肃非物质文化网站(源码+LW文档+PPT+讲解)

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

匹配算法:向下就近原则,向下没有就向上

匹配算法&#xff1a;向下就近原则&#xff0c;向下没有就向上 实现方式一实现方式二总结 实现方式一 private static List<Integer> findMatches(List<Integer> sourceList, List<Integer> searchValues) {List<Integer> sortedList sourceList.stre…

ESP32S3:解决RWDT无法触发中断问题,二次开发者怎么才能使用内部RTC看门狗中断RWDT呢?

目录 基于ESP32S3:解决RWDT无法触发中断问题引言解决方案1. 查看报错日志2. 分析报错及一步一步找到解决方法3.小结我的源码基于ESP32S3:解决RWDT无法触发中断问题 引言 在嵌入式系统中,RWDT(看门狗定时器)是确保系统稳定性的重要组件。然而,在某些情况下,RWDT可能无法…