香港大学发布思维扩散DoT,让思维在时间上扩散,提效保质!

引言:探索结合扩散模型与思维链来提升大模型推理能力

在人工智能领域,大语言模型(LLMs)已经引起了广泛的关注,它们在自然语言处理和机器学习的经典问题上展现出了显著的推理能力。特别是,思维链(Chain-of-Thought,CoT)技术已成为提升LLMs复杂推理过程的核心技术。同时,扩散模型在文本处理方面的关注度也在不断上升,它们在全局规划能力和自我修正方面展现出了独特的优势。

本文旨在探索扩散模型与CoT技术结合的可能性,以及这种结合是否能够增强复杂推理能力。我们提出了思维扩散(Diffusion of Thought,DoT)方法,该方法允许推理步骤在扩散过程中随时间扩散,从而提供了一种新的角度来理解和发展扩散语言模型中的推理能力。

标题
Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models

论文链接:
https://arxiv.org/pdf/2402.07754.pdf

扩散模型与CoT技术的结合:Diffusion of Thought (DoT)方法

1. DoT方法的基本原理

DoT方法是一种新颖的技术,它将扩散模型与CoT技术相结合,以提高自回归语言模型的推理能力。DoT方法的核心在于,它允许推理步骤通过扩散过程在时间上扩散开来。与传统的自回归语言模型不同,后者以从左到右、逐个令牌的方式做出决策,DoT提供了在计算量和推理性能之间更灵活的权衡。

下图是DoT管道演示,DoT的每个扩散时间步骤t上,都会对数据点施加高斯噪声,其中tt=0(最少噪声)到t=T(最多噪声),然后训练一个去噪模型从噪声数据中恢复干净数据。为了处理复杂的查询,DoT使用分类器自由引导的方式训练和采样去噪模型,以提供更可靠的控制信号。多通道DoT分离每个推理并引入因果信息。堆叠的圆圈代表对其他潜在推理路径的边际化,这在扩散模型的训练过程中隐含进行。

2. DoT与传统自回归模型的对比

DoT与传统自回归模型相比,具有多个潜在优势。首先,DoT通过多步去噪过程,具有内在的自我纠错能力,能够更稳健地纠正由于先前或当前推理步骤产生的错误。这为自回归模型中固有的错误累积问题提供了一个新的视角。其次,DoT在计算(推理时间)和性能之间提供了更多的灵活性,因为更复杂的问题可能需要更多的计算来进行推理。此外,DoT在多位数乘法和小学数学问题上展示了其有效性,并且在问题解决任务中展现出了潜力。

验证DoT在多位数乘法和小学数学问题上的有效性

1. 实验设置和数据集介绍

本实验旨在验证DoT方法在多位数乘法和小学数学问题上的有效性。实验使用了四位数乘法(4×4)和五位数乘法(5×5)的数据集,以及广泛使用的GSM8K数据集,后者要求同时具备语言理解和数学推理能力。实验使用准确度(Acc.)来衡量预测最终答案的精确匹配准确性,以及吞吐量(Thr.)来衡量在测试中每秒处理的样本数量。

作为实验参照,我们分别使用12层Transformer、GPT-2、ChatGPT、Implicit CoT、DoT等模型,相对应四种问题解决任务的不同方法。(a) 无CoT;(b)CoT通过提示自回归(AR)语言模型生成从左到右的文本标记;(c) Implicit CoT 以从浅层到深层的垂直推理取代水平推理(CoT);(d)DoT生成推理路径和扩散时间步。

2. DoT的实验结果与分析

在多位数乘法任务上(下表),DoT从头开始训练,能够达到100%的准确度,同时保持了显著的吞吐量。这一初步发现表明,DoT在建模精确数学计算方面表现良好,并且从计算效率上受益。

在GSM8K数据集上(下表),DoT通过对预训练的扩散语言模型Plaid 1B进行微调,与GPT-2微调的CoT模型相比,展示了显著提高的推理能力。多通道DoT(Multi-pass DoT)在保持效率的同时,表现略优于单通道DoT。

此外,上表中自我一致性(self-consistency)在DoT模型上的改进比在GPT模型上更为显著。下图也显示自我一致性改善了DoT和DoTMP,这与自我一致性对自动回归模型的有效性是一致的(左图为自我一致性方法在GSM8K数据集上的准确率与每个实例样本的关系;右图为与去除自我一致性的基线相比,不同实例样本下的绝对准确率提高情况)。

实验结果还表明,DoT在推理时间和性能之间的权衡方面具有灵活性(下图)。对于简单任务,DoT和DoTMP已经能够在较少的推理步骤下达到100%的准确率,而对于更复杂的任务,DoT和DoTMP的性能可以通过允许更多的推理步骤来持续提高。这表明,DoT可以在某些场景下牺牲性能以换取效率。总体而言,DoT允许我们灵活控制不同难度级别任务的效率和性能之间的权衡。

DoT的优势分析:速度提升与推理性能的平衡

1. DoT在计算效率上的优势

DoT是一种为扩散模型量身定制的内在思维链方法。与传统的自回归语言模型相比,DoT在计算效率上展现出显著优势。传统模型在生成文本时,通常是从左到右、逐个令牌地进行决策,而DoT则允许推理步骤随着扩散过程的进行而扩散,从而提供了更大的灵活性。在实验中,DoT在多位数乘法任务上展现出了显著的速度优势,与基线模型相比,DoT在保持类似性能的情况下,速度提升超过了27倍。

2. DoT在推理性能上的表现

DoT不仅在计算效率上表现出色,其推理性能也同样令人瞩目。在处理复杂的数学问题时,DoT展现出了与GPT-2相当的推理能力,这表明DoT在文本扩散模型中具有解决复杂问题的潜力。此外,DoT还能够利用自回归模型中的推理增强技术,如自洽性解码,进一步提升其推理能力。

DoT的自我修正能力:错误纠正与推理步骤的扩散

1. DoT的自我修正机制

DoT的自我修正能力是其独特的优势之一。这种能力源自于扩散模型的多步去噪过程,使得DoT能够更加稳健地纠正由先前或当前推理步骤产生的错误。为了进一步提高自我修正能力,DoT设计了一个计划采样机制,使得在训练阶段就能够暴露并纠正自生成的错误思维。这种机制有助于模型在生成过程中从错误中恢复,而不是仅依赖于左侧令牌。

2. 自我修正在推理任务中的应用案例

在数学问题解决任务中,DoT的自我修正能力得到了有效的应用。例如,在处理一个复杂的数学问题时,DoT能够在推理过程的不同时间步骤中产生正确的推理路径。即使在推理过程的早期步骤中产生了错误的思维,DoT也能够在后续步骤中进行修正,并最终得出正确的答案。这种自我修正的能力使得DoT在处理需要精确令牌(例如数字)的数学推理任务时表现出色。

DoT的灵活性:在推理时间与性能之间的权衡

1. DoT在不同复杂度任务上的表现

DoT作为一种新型的推理方法,其在不同复杂度的任务上展现出了显著的性能。在实验中,DoT在多位数乘法和小学数学问题上的表现尤为突出。例如,在四位数乘法任务中,DoT从头开始训练就能达到100%的准确率,同时保持了较高的吞吐量(62.5个实例/秒)。这一结果表明,DoT在精确数学计算建模方面表现良好,并且从计算效率上受益。

2. 如何通过调整DoT来平衡效率和性能

DoT提供了在计算(推理时间)和性能之间权衡的灵活性。对于更复杂的问题,可能需要增加推理过程中的计算量。DoT通过在推理过程中逐步更新表示思考的潜在变量,允许推理步骤随时间扩散,从而实现灵活的权衡。在实践中,DoT通过在每个扩散时间步上迭代地施加高斯噪声,然后训练去噪模型从噪声数据中恢复干净数据。通过调整扩散时间步T,可以灵活控制生成时间与质量之间的权衡。此外,DoT的自我纠错能力也为减少错误累积提供了新的视角,这是自回归模型固有的问题。

面向未来的DoT发展:从预训练到指令调整的潜力

1. 预训练扩散语言模型的现状与挑战

预训练扩散语言模型,如Plaid 1B,已经在文本生成能力上取得了显著进展。尽管这些模型尚未达到现有专有自回归大语言模型(如GPT-4)的规模和能力,但它们已经展示了与GPT-2相当的性能。然而,预训练扩散语言模型在直接与参数规模大数百倍的大语言模型竞争方面仍面临挑战。我们的研究强调了它们在复杂推理能力上的可能性,并突出了发展超越自回归范式的大语言模型的巨大潜力。

2. DoT在未来语言模型发展中的潜在作用

DoT在未来语言模型的发展中可能扮演重要角色。DoT的提出是基于扩散模型在文本处理中的成功和其相对于自回归模型的独特建模优势。DoT通过在扩散时间步中分布推理表示,允许推理步骤随时间扩散,从而为语言模型的推理能力提供了新的方法。此外,DoT还展示了在指令调整和扩展后,扩散模型能够处理复杂任务的潜力。随着研究社区的努力,预训练扩散语言模型如Plaid已经在文本生成能力上取得了显著进展,这表明通过进一步的指令调整和扩展,DoT在未来的语言模型发展中可能发挥更大的作用。

总结:DoT作为推理能力提升的新途径及其未来前景

1. DoT的优势

DoT是一种新颖的推理方法,它将连续扩散模型与链式推理CoT相结合。与传统的自回归语言模型不同,DoT通过扩散过程中的时间步骤来逐步更新代表思考的潜在变量,从而允许推理步骤随时间扩散。这种方法提供了在计算量和推理性能之间进行权衡的更大灵活性,并且通过多步去噪过程,DoT内在地具有自我纠错的能力,这为解决自回归模型中的错误累积问题提供了新的视角。

2. 实验结果与应用

在多位数乘法和小学数学问题的实验中,DoT展示了其有效性。特别是在处理复杂的问题解决任务时,DoT表现出了与GPT-2相似的性能,并且能够从诸如自我一致性解码等推理增强技术中受益。这些发现为在扩散语言模型中推理能力的理解和发展做出了贡献。

3. 灵活性与自我纠错能力

DoT在推理时间和性能之间的权衡方面展现出了灵活性。复杂问题可能需要更多的计算来进行推理,而DoT提供了在这些方面进行调整的可能性。此外,DoT的自我纠错能力允许模型更稳健地纠正由于先前或当前推理步骤产生的错误,这是传统自回归模型所不具备的。

4. 未来前景

尽管目前预训练的扩散语言模型在参数规模上还无法与更大的自回归语言模型(如GPT-4)直接竞争,但我们的研究强调了它们在复杂推理能力上的可能性,并突出了开发超越自回归范式的大语言模型的巨大潜力。未来,随着预训练扩散模型的进一步发展和规模扩大,我们预期DoT将能够实现与自回归语言模型相当或更好的泛化能力,同时消除对专门训练的需求。此外,本文中使用的扩散训练技术是通用的,可以应用于数学推理之外的其他任务。将我们的扩散语言模型训练方法扩展到更大规模的设置,例如多任务指令调整,是未来研究的一个有趣方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/424547.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue开发实例(九)动态路由实现左侧菜单导航

之前在【Vue开发实例(六)实现左侧菜单导航】文中实现了菜单的导航,本篇是在那个基础上改造的。 动态路由实现左侧菜单导航 一、动态菜单创建二、根据菜单数据来创建路由三、添加路由已加载标记,省的每次点击菜单都要加载 一、动态…

开源项目:图像分类算法在保险行业的创新应用与实践

一、引言 在当今数字化时代,保险行业正经历着前所未有的变革。传统保险公司面临着新兴科技的挑战,被迫重新思考其业务模式和营销策略。在这种背景下,我有幸参与了一个项目,该项目旨在通过整合多种销售渠道和技术手段,提…

【蓝桥杯】错误票据

今天是2024年3月1号,蓝桥杯比赛还有一个月的时间,虽说自己不指望拿奖吧,但是还是有些莫i名的焦虑,这道题目都做不出来,感觉自己真的有点菜啊!但是还好啦,我觉得是因为我没有题感,慢慢…

DDS数据分发服务——提升汽车领域数据传输效率

1.引言 随着智能化技术的快速发展,汽车行业正经历着一场革命性的变革。如今的分布式系统变得越来越复杂且庞大,对网络通信基数要求在功能和性能层面越来越高。数据分发服务(DDS)作为一项先进的数据传输解决方案,在汽车…

Redis-基础篇

Redis是一个开源、高性能、内存键值存储数据库,由 Salvatore Sanfilippo(网名antirez)创建,并在BSD许可下发布。它不仅可以用作缓存系统来加速数据访问,还可以作为持久化的主数据存储系统或消息中间件使用。Redis因其数…

【大数据架构(3)】Lambda vs. Kappa Architecture-选择你需要的架构

文章目录 一. Data Processing Architectures1. Lambda Architecture1.1. 架构说明a. Data Ingestion Layerb. Batch Layer (Batch processing)c. Speed Layer (Real-Time Data Processing)d. Serving Layer 1.2. Lambda Architecture的优缺点1.3. 使用案例 2. Kappa Architect…

数据分析-Pandas数据的探查面积图

数据分析-Pandas数据的探查面积图 数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律? 数据表&…

MyBatis 面试题

什么是MyBatis? MyBatis 是一个开源、轻量级的数据持久化框架,是 JDBC 和 Hibernate 的替代方案。MyBatis 内部封装了 JDBC,简化了加载驱动、创建连接、创建 statement 等繁杂的过程,开发者只需要关注 SQL 语句本身。 MyBatis 支…

静态时序分析:SDC约束命令set_case_analysis详解

相关阅读 静态时序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 目录 指定值 指定端口/引脚列表 简单使用 set_case_analysis命令用于对电路进行特定模式的设定,例如对于一个工作在正常模式下的芯片,…

08 yum和git

什么是软件包 安装软件,一个通常的办法就是下载程序的源代码进行编译。这种太麻烦,于是一些人把常用软件编译好,做成软件包放在服务器上,通过包管理器可以很方便的得到这个软件包安装,就好比手机上的应用商店 yum&am…

美梦从舒适开始,康姿百德床垫为睡眠健康护航

在当今社会,高质量的睡眠已成为人们对生活品质的追求,对床垫的选择也变得越来越讲究。在我们繁忙的生活中,一张优质的床垫不仅是我们舒适休息的保障,更是保持健康生活方式的重要部分。康姿百德床垫,作为市场上的佼佼者…

14-Linux部署Hadoop集群

Linux部署Hadoop集群 简介 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2)主要解决,海量数据的存储和海量数据的分析计算问题。 Hadoop HDFS 提供分布式海量数据存储能力 Hadoop YARN 提供分布式集群资源管理能力 Hadoop…

R语言使用dietaryindex包计算NHANES数据多种健康饮食指数 (HEI等)(1)

健康饮食指数 (HEI) 是评估一组食物是否符合美国人膳食指南 (DGA) 的指标。Dietindex包提供用户友好的简化方法,将饮食摄入数据标准化为基于指数的饮食模式,从而能够评估流行病学和临床研究中对这些模式的遵守情况,从而促进精准营养。 该软件…

【C++】string 类 ( 上)

标准库中的string类 注意: 1. string是表示字符串的字符串类 2. 该类的接口与常规容器的接口基本相同,再添加了一些专门用来操作string的常规操作。 比特就业课 3. string在底层实际是:basic_string模板类的别名,typedef basi…

RFID(Radio Frequency Identification)技术笔记

一、RFID的介绍 RFID,全称为Radio Frequency Identification,即射频识别技术,也常被称为电子标签或无线射频识别。它是一种非接触式的自动识别技术,通过射频信号自动识别目标对象并获取相关数据,识别过程无需人工干预&…

LeetCode 刷题 [C++] 第45题.跳跃游戏 II

题目描述 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。换句话说&#xff0c;如果你在 nums[i] 处&#xff0c;你可以跳转到任意 nums[i j] 处: 0 < j < nums[i]i j < n 返回到达 nums[n …

金融行业专题|期货超融合架构转型与场景探索合集(2023版)

更新内容&#xff1a; 更新 SmartX 超融合在期货行业的覆盖范围、部署规模与应用场景。新增 CTP 主席系统实践与评测、容器云资源池等场景实践。更多超融合金融核心生产业务场景实践&#xff0c;欢迎下载阅读电子书《SmartX 金融核心生产业务场景探索文章合集》。 面对不断变…

【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)

本系列文章跟随《MetaGPT多智能体课程》&#xff08;https://github.com/datawhalechina/hugging-multi-agent&#xff09;&#xff0c;深入理解并实践多智能体系统的开发。 本文为该课程的第四章&#xff08;多智能体开发&#xff09;的第四篇笔记。今天我们来完成第四章的作…

深度学习需要掌握哪些数学基础?

《深度学习的数学》这本书再合适不过了。作者罗纳德.T.纽塞尔&#xff08;Ronald T. Kneusel&#xff09;&#xff0c;拥有超过 20年的机器学习行业经验。 本书适合有一定深度学习基础、了解Python编程语言的读者阅读&#xff0c;也可作为用于拓展深度学习理论的参考书。 为什么…

SQL 术语:Join 中的 Build 和 Probe 是什么意思?

博主历时三年精心创作的《大数据平台架构与原型实现&#xff1a;数据中台建设实战》一书现已由知名IT图书品牌电子工业出版社博文视点出版发行&#xff0c;点击《重磅推荐&#xff1a;建大数据平台太难了&#xff01;给我发个工程原型吧&#xff01;》了解图书详情&#xff0c;…