引言:探索结合扩散模型与思维链来提升大模型推理能力
在人工智能领域,大语言模型(LLMs)已经引起了广泛的关注,它们在自然语言处理和机器学习的经典问题上展现出了显著的推理能力。特别是,思维链(Chain-of-Thought,CoT)技术已成为提升LLMs复杂推理过程的核心技术。同时,扩散模型在文本处理方面的关注度也在不断上升,它们在全局规划能力和自我修正方面展现出了独特的优势。
本文旨在探索扩散模型与CoT技术结合的可能性,以及这种结合是否能够增强复杂推理能力。我们提出了思维扩散(Diffusion of Thought,DoT)方法,该方法允许推理步骤在扩散过程中随时间扩散,从而提供了一种新的角度来理解和发展扩散语言模型中的推理能力。
标题:
Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models
论文链接:
https://arxiv.org/pdf/2402.07754.pdf
扩散模型与CoT技术的结合:Diffusion of Thought (DoT)方法
1. DoT方法的基本原理
DoT方法是一种新颖的技术,它将扩散模型与CoT技术相结合,以提高自回归语言模型的推理能力。DoT方法的核心在于,它允许推理步骤通过扩散过程在时间上扩散开来。与传统的自回归语言模型不同,后者以从左到右、逐个令牌的方式做出决策,DoT提供了在计算量和推理性能之间更灵活的权衡。
下图是DoT管道演示,DoT的每个扩散时间步骤t
上,都会对数据点施加高斯噪声,其中t
从t=0
(最少噪声)到t=T
(最多噪声),然后训练一个去噪模型从噪声数据中恢复干净数据。为了处理复杂的查询,DoT使用分类器自由引导的方式训练和采样去噪模型,以提供更可靠的控制信号。多通道DoT分离每个推理并引入因果信息。堆叠的圆圈代表对其他潜在推理路径的边际化,这在扩散模型的训练过程中隐含进行。
2. DoT与传统自回归模型的对比
DoT与传统自回归模型相比,具有多个潜在优势。首先,DoT通过多步去噪过程,具有内在的自我纠错能力,能够更稳健地纠正由于先前或当前推理步骤产生的错误。这为自回归模型中固有的错误累积问题提供了一个新的视角。其次,DoT在计算(推理时间)和性能之间提供了更多的灵活性,因为更复杂的问题可能需要更多的计算来进行推理。此外,DoT在多位数乘法和小学数学问题上展示了其有效性,并且在问题解决任务中展现出了潜力。
验证DoT在多位数乘法和小学数学问题上的有效性
1. 实验设置和数据集介绍
本实验旨在验证DoT方法在多位数乘法和小学数学问题上的有效性。实验使用了四位数乘法(4×4)和五位数乘法(5×5)的数据集,以及广泛使用的GSM8K数据集,后者要求同时具备语言理解和数学推理能力。实验使用准确度(Acc.)来衡量预测最终答案的精确匹配准确性,以及吞吐量(Thr.)来衡量在测试中每秒处理的样本数量。
作为实验参照,我们分别使用12层Transformer、GPT-2、ChatGPT、Implicit CoT、DoT等模型,相对应四种问题解决任务的不同方法。(a) 无CoT;(b)CoT通过提示自回归(AR)语言模型生成从左到右的文本标记;(c) Implicit CoT 以从浅层到深层的垂直推理取代水平推理(CoT);(d)DoT生成推理路径和扩散时间步。
2. DoT的实验结果与分析
在多位数乘法任务上(下表),DoT从头开始训练,能够达到100%的准确度,同时保持了显著的吞吐量。这一初步发现表明,DoT在建模精确数学计算方面表现良好,并且从计算效率上受益。
在GSM8K数据集上(下表),DoT通过对预训练的扩散语言模型Plaid 1B进行微调,与GPT-2微调的CoT模型相比,展示了显著提高的推理能力。多通道DoT(Multi-pass DoT)在保持效率的同时,表现略优于单通道DoT。
此外,上表中自我一致性(self-consistency)在DoT模型上的改进比在GPT模型上更为显著。下图也显示自我一致性改善了DoT和DoTMP,这与自我一致性对自动回归模型的有效性是一致的(左图为自我一致性方法在GSM8K数据集上的准确率与每个实例样本的关系;右图为与去除自我一致性的基线相比,不同实例样本下的绝对准确率提高情况)。
实验结果还表明,DoT在推理时间和性能之间的权衡方面具有灵活性(下图)。对于简单任务,DoT和DoTMP已经能够在较少的推理步骤下达到100%的准确率,而对于更复杂的任务,DoT和DoTMP的性能可以通过允许更多的推理步骤来持续提高。这表明,DoT可以在某些场景下牺牲性能以换取效率。总体而言,DoT允许我们灵活控制不同难度级别任务的效率和性能之间的权衡。
DoT的优势分析:速度提升与推理性能的平衡
1. DoT在计算效率上的优势
DoT是一种为扩散模型量身定制的内在思维链方法。与传统的自回归语言模型相比,DoT在计算效率上展现出显著优势。传统模型在生成文本时,通常是从左到右、逐个令牌地进行决策,而DoT则允许推理步骤随着扩散过程的进行而扩散,从而提供了更大的灵活性。在实验中,DoT在多位数乘法任务上展现出了显著的速度优势,与基线模型相比,DoT在保持类似性能的情况下,速度提升超过了27倍。
2. DoT在推理性能上的表现
DoT不仅在计算效率上表现出色,其推理性能也同样令人瞩目。在处理复杂的数学问题时,DoT展现出了与GPT-2相当的推理能力,这表明DoT在文本扩散模型中具有解决复杂问题的潜力。此外,DoT还能够利用自回归模型中的推理增强技术,如自洽性解码,进一步提升其推理能力。
DoT的自我修正能力:错误纠正与推理步骤的扩散
1. DoT的自我修正机制
DoT的自我修正能力是其独特的优势之一。这种能力源自于扩散模型的多步去噪过程,使得DoT能够更加稳健地纠正由先前或当前推理步骤产生的错误。为了进一步提高自我修正能力,DoT设计了一个计划采样机制,使得在训练阶段就能够暴露并纠正自生成的错误思维。这种机制有助于模型在生成过程中从错误中恢复,而不是仅依赖于左侧令牌。
2. 自我修正在推理任务中的应用案例
在数学问题解决任务中,DoT的自我修正能力得到了有效的应用。例如,在处理一个复杂的数学问题时,DoT能够在推理过程的不同时间步骤中产生正确的推理路径。即使在推理过程的早期步骤中产生了错误的思维,DoT也能够在后续步骤中进行修正,并最终得出正确的答案。这种自我修正的能力使得DoT在处理需要精确令牌(例如数字)的数学推理任务时表现出色。
DoT的灵活性:在推理时间与性能之间的权衡
1. DoT在不同复杂度任务上的表现
DoT作为一种新型的推理方法,其在不同复杂度的任务上展现出了显著的性能。在实验中,DoT在多位数乘法和小学数学问题上的表现尤为突出。例如,在四位数乘法任务中,DoT从头开始训练就能达到100%的准确率,同时保持了较高的吞吐量(62.5个实例/秒)。这一结果表明,DoT在精确数学计算建模方面表现良好,并且从计算效率上受益。
2. 如何通过调整DoT来平衡效率和性能
DoT提供了在计算(推理时间)和性能之间权衡的灵活性。对于更复杂的问题,可能需要增加推理过程中的计算量。DoT通过在推理过程中逐步更新表示思考的潜在变量,允许推理步骤随时间扩散,从而实现灵活的权衡。在实践中,DoT通过在每个扩散时间步上迭代地施加高斯噪声,然后训练去噪模型从噪声数据中恢复干净数据。通过调整扩散时间步T,可以灵活控制生成时间与质量之间的权衡。此外,DoT的自我纠错能力也为减少错误累积提供了新的视角,这是自回归模型固有的问题。
面向未来的DoT发展:从预训练到指令调整的潜力
1. 预训练扩散语言模型的现状与挑战
预训练扩散语言模型,如Plaid 1B,已经在文本生成能力上取得了显著进展。尽管这些模型尚未达到现有专有自回归大语言模型(如GPT-4)的规模和能力,但它们已经展示了与GPT-2相当的性能。然而,预训练扩散语言模型在直接与参数规模大数百倍的大语言模型竞争方面仍面临挑战。我们的研究强调了它们在复杂推理能力上的可能性,并突出了发展超越自回归范式的大语言模型的巨大潜力。
2. DoT在未来语言模型发展中的潜在作用
DoT在未来语言模型的发展中可能扮演重要角色。DoT的提出是基于扩散模型在文本处理中的成功和其相对于自回归模型的独特建模优势。DoT通过在扩散时间步中分布推理表示,允许推理步骤随时间扩散,从而为语言模型的推理能力提供了新的方法。此外,DoT还展示了在指令调整和扩展后,扩散模型能够处理复杂任务的潜力。随着研究社区的努力,预训练扩散语言模型如Plaid已经在文本生成能力上取得了显著进展,这表明通过进一步的指令调整和扩展,DoT在未来的语言模型发展中可能发挥更大的作用。
总结:DoT作为推理能力提升的新途径及其未来前景
1. DoT的优势
DoT是一种新颖的推理方法,它将连续扩散模型与链式推理CoT相结合。与传统的自回归语言模型不同,DoT通过扩散过程中的时间步骤来逐步更新代表思考的潜在变量,从而允许推理步骤随时间扩散。这种方法提供了在计算量和推理性能之间进行权衡的更大灵活性,并且通过多步去噪过程,DoT内在地具有自我纠错的能力,这为解决自回归模型中的错误累积问题提供了新的视角。
2. 实验结果与应用
在多位数乘法和小学数学问题的实验中,DoT展示了其有效性。特别是在处理复杂的问题解决任务时,DoT表现出了与GPT-2相似的性能,并且能够从诸如自我一致性解码等推理增强技术中受益。这些发现为在扩散语言模型中推理能力的理解和发展做出了贡献。
3. 灵活性与自我纠错能力
DoT在推理时间和性能之间的权衡方面展现出了灵活性。复杂问题可能需要更多的计算来进行推理,而DoT提供了在这些方面进行调整的可能性。此外,DoT的自我纠错能力允许模型更稳健地纠正由于先前或当前推理步骤产生的错误,这是传统自回归模型所不具备的。
4. 未来前景
尽管目前预训练的扩散语言模型在参数规模上还无法与更大的自回归语言模型(如GPT-4)直接竞争,但我们的研究强调了它们在复杂推理能力上的可能性,并突出了开发超越自回归范式的大语言模型的巨大潜力。未来,随着预训练扩散模型的进一步发展和规模扩大,我们预期DoT将能够实现与自回归语言模型相当或更好的泛化能力,同时消除对专门训练的需求。此外,本文中使用的扩散训练技术是通用的,可以应用于数学推理之外的其他任务。将我们的扩散语言模型训练方法扩展到更大规模的设置,例如多任务指令调整,是未来研究的一个有趣方向。