今日arXiv最热NLP大模型论文:无需提示也能推理!Google DeepMind新研究揭示AI内在推理能力

在人工智能领域,大语言模型(LLMs)已经在各种复杂的推理基准测试中展现出了令人瞩目的性能。传统上,这些推理能力是通过精心设计的提示技术来激发的,例如少量示例提示(few-shot prompting)或零示例提示(zero-shot prompting)。然而,这些方法往往涉及到手动密集的提示工程,限制了它们在不同任务中的通用性。

本项工作探索了一个不同的视角,提出了一个关键的问题:LLMs能否在没有特定提示的情况下有效地进行推理?研究发现一令人惊讶的结果,通过简单地改变解码过程,可以从预训练的LLMs中自然地激发出链式推理(CoT)路径。这种解码修改绕过了CoT提示,并且是完全无监督的,不需要模型调整。

研究还揭示了预训练语言模型固有的推理能力,这一发现与之前侧重于改进提示以促进推理的研究形成了鲜明对比。研究发现,当模型在其解码路径中存在CoT时,对其最终答案的信心增加。利用这种增加的信心,研究者提出了CoT解码方法,以选择更可靠的解码路径,从而在各种推理基准测试中显著提高了模型性能。

实验结果表明,CoT解码在解码过程中自然地揭示了CoT推理路径,显著提高了模型的推理能力,超越了贪心解码。此外还观察到这些路径在预训练数据中频繁出现的任务中更为普遍,而在复杂的合成任务中则不那么常见,在这些任务中,可能仍然需要高级提示技术来触发这些推理路径。

这与McCoy等人(2023年)和Prystawski等人(2023年)的发现一致。在这些场景中还发现,少量CoT示例在指导模型如何解决任务方面发挥了更大的“教学”作用,模型主要模仿这些提示的格式来生成准确的推理路径。

总之,研究表明,通过改变解码策略,可以有效地从LLMs中激发出推理能力,而无需依赖于特定的提示技术。这一发现不仅为理解LLMs的内在推理能力提供了新的视角,而且为未来的研究提供了新的方向,即如何利用这些模型固有的推理能力来解决更广泛的问题。

论文标题:Chain-of-Thought Reasoning Without Prompting

公众号「夕小瑶科技说」后台回复“Chain”获取论文PDF!

CoT-decoding的新视角:无需提示即可激发推理

1. CoT-decoding方法介绍

CoT-decoding是一种新的解码方法,它能够从预训练的大语言模型(LLMs)中激发出推理能力,而无需依赖于传统的提示技术。这种方法通过探索解码过程中的替代top-𝑘令牌,揭示了模型在生成答案时内在的推理路径(CoT路径)。这种方法的关键在于,它不仅避免了提示带来的混淆因素,而且允许我们更准确地评估LLMs的内在推理能力

图片

(图为CoT解码示意图,这些模型在解码最终答案时往往显示出更高的可信度)

2. 预训练LLM中的CoT路径发现

研究发现,即使在没有明确提示的情况下,预训练的LLMs在解码过程中也能自然地展现出CoT推理模式。

  • 例如,在数学推理任务中,当模型不是简单地贪心解码,而是考虑top-𝑘令牌时,CoT路径就会自然出现。

这表明,预训练的LLMs在其解码轨迹中固有地包含了推理能力,这与以往依赖于提示技术来激发推理能力的研究形成了鲜明对比。

3. CoT路径与模型答案置信度的关联

CoT-decoding的另一个关键发现是,当解码过程中存在CoT路径时,模型在解码其最终答案时表现出更高的置信度。这种置信度可以通过模型在每个解码步骤中对top两个令牌的概率差异来衡量。

研究表明,CoT路径的存在通常会导致最终答案的解码更加自信,这一点通过模型对最终答案的概率评分显著高于非CoT路径的情况得到了证实。利用这一现象,研究者们开发了一种方法来筛选出最可靠的解码路径,即CoT-decoding,从而在各种推理基准测试中显著提高了模型的推理能力。

图片

(图为通过考虑不同解码步骤的替代标记分析解码路径。虽然某些任务可能存在多个分支位置,但所有都通向正确推理路径)

实验设置:评估CoT-decoding的有效性

实验方法与模型选择

在评估CoT-decoding的有效性时,研究者们采用了一种新颖的解码方法,即考虑在解码过程中的top-𝑘备选词汇,而不是仅依赖于贪心解码路径。实验中使用的模型是预训练的PaLM-2大模型,与标准的贪心解码路径(𝑘 = 0)进行比较,其中𝑘 > 0表示在第一步解码时选择的第𝑘个词汇。此外,还探讨了Mistral-7B模型,包括预训练和指令调优(instruction-tuned)变体。

图片

数学推理任务的实验结果

数学推理任务中,CoT-decoding显著提高了模型的推理能力,与贪心解码相比,在不同规模的PaLM-2模型上均有一致的提升。

  • 例如,在GSM8K数据集上,CoT-decoding在PaLM-2大型模型上实现了比贪婪解码高出26.7%的绝对准确率。值得注意的是,CoT-decoding甚至可以提高经过指令调优的模型的性能

图片

自然语言推理任务的实验结果

自然语言推理任务中,研究者们探讨了“年份奇偶性”任务,发现即使是最先进的模型,如GPT-4,在直接提示的情况下也只能达到几率水平的准确率(约50%)。然而,通过CoT-decoding,模型能够在大多数情况下恢复CoT推理路径,并实现超过90%的准确率

  • 错误分析表明,大多数错误源自模型检索错误的出生年份,而生成的CoT路径在奇偶性和模型检索的年份之间保持高度一致。

    图片

符号推理任务的实验结果

符号推理任务中,CoT-decoding的收益随着任务复杂性的增加而减小。

  • 模型在高度合成的任务中,即那些在预训练分布中缺乏显著表示的任务,无法生成准确的CoT路径。

这些任务包括需要准确状态跟踪的任务,如Coin-Flip和Web-of-Lies,以及多步算术任务。在这些任务中,CoT提示技术在教导模型如何解决任务方面发挥了更大的“教学”作用。

图片

通过这些实验,研究者们展示了预训练语言模型在解码过程中固有的推理能力,并通过CoT-decoding显著提高了各种推理基准测试中的模型性能。

CoT-decoding与传统方法的比较

1. CoT-decoding与贪心解码的对比

CoT-decoding方法与传统的贪心解码(greedy decoding)有显著的不同。在贪心解码中,大语言模型(LLMs)通常会直接生成一个答案,而不会展示出解决问题的思考过程(chain-of-thought,CoT)。这种方法在处理简单问题时可能效果不错,但在需要复杂推理的任务上,模型往往会直接给出错误答案

  • 例如,在数学问题GSM8K中,贪心解码可能会直接给出“$60.00”作为答案,而不展示计算过程。

相比之下,CoT-decoding方法通过考虑解码过程中的top-𝑘个备选词,能够揭示出隐藏在解码轨迹中的CoT推理路径。这种方法不需要显式的提示(prompting),也不需要模型训练或指令调整。实验表明,CoT-decoding能够自然地揭示出CoT路径,并显著提高模型在各种推理基准测试中的表现。

  • 例如,在同一个GSM8K问题中,CoT-decoding能够在𝑘=9的路径中找到正确的计算过程,并给出正确答案“$64”。

此外,CoT-decoding方法还能够通过模型在解码过程中的置信度来区分CoT和非CoT路径。这一现象可以用于从多个解码路径中筛选出更可靠的输出。即:当CoT路径存在时,模型在解码最终答案时表现出更高的置信度。

2. CoT-decoding与CoT提示方法的对比

CoT-decoding与CoT提示方法如few-shot CoT prompting和zero-shot CoT prompting)相比,提供了一种不依赖于显式提示的推理能力激发方式。

  • CoT提示方法通常需要手动设计针对特定任务的提示,这不仅耗时而且限制了方法的通用性。

  • CoT-decoding则通过修改解码过程,允许评估LLMs的内在推理能力,而无需依赖于特定的提示设计。

实验结果显示,CoT-decoding在没有特定提示的情况下,能够与few-shot CoT prompting和zero-shot CoT prompting方法相媲美,甚至在某些情况下表现更好。

  • 例如,在处理GSM8K数据集的数学问题时,CoT-decoding生成的CoT与few-shot CoT提示方法相比,展现出更自由形式的推理过程。

这表明CoT-decoding能够更好地揭示LLMs在解决问题时的内在策略,而不受外部提示可能引入的偏见影响

图片

(图为PaLM-2大模型的GSM8K数据集上的CoT解码精度,显示出与解码中使用了多少top-𝑘令牌有关)

总的来说,CoT-decoding为我们提供了一种新的视角,通过简单地改变解码策略,就能有效地激发出模型的推理能力,这一发现对于未来LLMs的研究和应用具有重要意义。

讨论:CoT-decoding的计算成本与未来方向

CoT-decoding,即链式推理解码,是一种新颖的方法,它通过改变解码过程来从预训练的大语言模型(LLMs)中引出推理能力,而无需特定的提示技术。这种方法的优势在于它能够揭示模型在生成答案时的内在推理路径,同时避免了提示技术可能引入的混淆因素,更准确地评估模型的固有推理能力。

然而,CoT-decoding的一个主要挑战是计算成本。由于它涉及到在解码过程中考虑多个备选的top-𝑘令牌,因此需要更多的计算资源来探索和评估这些备选路径。

未来的研究方向可能包括利用CoT-decoding路径来微调模型,以增强其推理能力。此外,目前的探索主要集中在第一个令牌的分支上,因为这样可以产生高度多样化的解码路径,但未来的工作可以探索在任何令牌上进行分支,并在解码阶段搜索最佳路径。尽管这将大幅增加计算成本,如何在搜索过程中可靠地识别最佳令牌将是一个值得探索的方向。

总结:CoT-decoding在LLM推理中的潜力展望

1. CoT-decoding的发现和意义

研究表明,通过改变解码过程,即使没有显式提示,预训练的大语言模型(LLM)也能自然地产生链式思考(CoT)推理路径。这种方法被称为CoT-decoding,它通过考虑解码过程中的顶部-k个代替令牌,揭示了CoT路径通常是这些序列中的固有部分。CoT-decoding不仅绕过了提示的混淆因素,而且还允许我们评估LLM的内在推理能力。

2. CoT-decoding与模型信心的关联

研究观察到,当解码路径中存在CoT时,模型在解码其最终答案时表现出更高的信心。这种信心度量有效地区分了CoT路径和非CoT路径。在各种推理基准测试中的广泛实证研究表明,所提出的CoT-decoding方法显著优于标准的贪心解码

3. CoT-decoding在不同任务中的表现

在数学推理、自然语言推理和符号推理任务中,CoT-decoding都显示出了显著的性能提升。特别是在那些在预训练数据中频繁出现的任务上,CoT-decoding能够自然地揭示CoT路径,而在复杂的合成任务中,可能仍然需要高级提示来触发这些推理路径。

公众号「夕小瑶科技说」后台回复“Chain”获取论文PDF!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/404192.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【高德地图】Android搭建3D高德地图详细教

📖Android搭建3D高德地图详细教程 📖第1章 高德地图介绍✅了解高德地图✅2D地图与3D地图 📖第2章 搭建3D地图并显示✅第 1 步:创建 Android 项目✅第 2 步:获取高德Key✅第 3 步:下载地图SDK✅第 4 步&…

【常用】添加作者传记,部分期刊需要例如IEEE ACCESS TCVSVT

1 添加在下面位置 \begin{IEEEbiography} [{\includegraphics[width1in,height1.25in,clip,keepaspectratio]{moumouxu.png}}] {Moumou Xu} is currently a full professor at the School of Computer and Software, Nanjing University of Information Science and Technolo…

最新版opencv4.9安装介绍,基本图像处理详解

文章目录 一、什么是OpenCV ?二. OpenCV 安装1. 下载地址2.安装命令:pip install opencv-python 三、图像基础1. 基本概念2. 坐标系3. 基本操作(彩色图片)(1)读取图片:cv2.imread( )&#xff08…

rt-thread 目录结构

移植适配可能需要修改的部分用红色标记,蓝色表示还需继续调查,绿色会在bring up后修改

arcmap行政区划空缺修复

拿到手的行政区划空间数据中间有空缺,可利用拓扑工具进行修复。 选择自定义》工具条》拓扑 选择拓扑 点击图标 选择需要修补的数据,点击即可 修补完成后

【前端素材】推荐优质后台管理系统Minia平台模板(附源码)

一、需求分析 后台管理系统是一种用于管理网站、应用程序或系统的工具,它通常作为一个独立的后台界面存在,供管理员或特定用户使用。下面详细分析后台管理系统的定义和功能: 1. 定义 后台管理系统是一个用于管理和控制网站、应用程序或系统…

【深度学习:计算机视觉】计算机视觉的最佳数据集 [行业细分]

【深度学习:计算机视觉】计算机视觉的最佳数据集 [行业细分] 什么是机器学习数据集 (ML)?什么是分类数据集?我应该使用合成数据来训练我的机器学习和计算机模型吗?在哪里可以找到机器学习的数据集&#xff…

Spring Boot application.properties和application.yml文件的配置

在Spring Boot中,application.properties 和 application.yml 文件用于配置应用程序的各个方面,如服务器端口、数据库连接、日志级别等。这两个文件是Spring Boot的配置文件,位于 src/main/resources 目录下。 application.properties 示例 …

分享一个我爱工具网源码优化版

应用介绍 本文来自:分享一个我爱工具网源码优化版 - 源码1688 前几天在网上看到了一个不错的工具网源码,但是源码存在一些问题,遂进行了修改优化。 主要修改内容有: 1、后台改为账号密码登录,上传即用,不…

matlab|电动汽车充放电V2G模型

目录 1 主要内容 1.1 模型背景 1.2 目标函数 2 部分代码 3 效果图 4 下载链接 1 主要内容 本程序主要建立电动汽车充放电V2G模型,采用粒子群算法,在保证电动汽车用户出行需求的前提下,为了使工作区域电动汽车尽可能多的消纳供给商场基础…

并发编程之深入理解Java线程

并发编程之深入理解Java线程 线程基础知识 线程和进程 进程 程序由指令和数据组成、但这些指令要运行,数据要读写,就必须要将指令加载至CPU、数据加载至内存。在指令运行过程中还需要用到磁盘、网络等设备。进程就是用来加载指令、管理内存、管理IO的…

SQL库操作

1、创建数据库 概念 创建数据库:根据项目需求创建一个存储数据的仓库 使用create database 数据库名字创建 数据库层面可以指定字符集:charset/character set 数据库层面可以指定校对集:collate 创建数据库会在磁盘指定存放处产生一个文件夹 创建语法 create …

用户体验设计师如何在 2024抢占先机?

01. 严峻的经济形势和就业市场 我们生活在一个通货膨胀的时代。就从超市抓几个苹果、卷心菜、鸡蛋,看看价格吧!我不得不多次检查收据,因为我简直不敢相信。外出就餐费用上涨了 10-20%,现在 Spotify 和 YouTube 要求收取更高的订阅…

深入理解 v-for 中 key 的重要性

查看本专栏目录 关于作者 还是大剑师兰特:曾是美国某知名大学计算机专业研究生,现为航空航海领域高级前端工程师;CSDN知名博主,GIS领域优质创作者,深耕openlayers、leaflet、mapbox、cesium,canvas&#x…

OR-806A固态继电器SSR光耦,可替代AQW212

OR-806A 固态继电器 VL60V输出端击穿电压光耦 高隔离电压 60 至 600V 输出耐受电压 工业温度范围:-40 to 85℃ 高灵敏度和高速响应 特征 输入和输出之间的高隔离电压 (Viso:5000 V rms)。 控制低电平模拟信号 高灵敏度和…

springboot网站开发02-接入持久层框架mybatisPlus

springboot网站开发02-接入持久层框架mybatisPlus!经过上一小节内容分享,我们的项目嵌套模式框架搭建好了,下面就是开始编辑具体的业务代码了,我们使用到了持久层框架是mybatisPlus插件。下面是一些具体的植入框架的操作步骤。 第…

post请求向服务器发送JSON格式数据设置Content-Type

情景:与后台联调接口时,后台要求传递JSON格式的数据。 处理:我们进行XHR请求时需要设置请求头的Content-Type值为application/json,如下图所示。 浏览器查看具体请求与参数格式(形式)如下:

查找库文件中是否包含某个函数,库文件是否包含某个全局变量,库文件是否包含某个文件

strings 指令 释义:在对象文件或二进制文件中查找可打印的字符串: 用法:需要结合 grep 指令;可以把库文件直接文本打开看下,有字符串的内容,都是可以搜到的 库文件文本方式打开示例 使用示例 # 查找函…

切换分支时候IDEA提示:workspace associated with branch feature has been restored

切换分支时候IDEA提示:workspace associated with branch feature has been restored 这个消息是指与"feature"分支关联的工作区已经恢复。在Git中,工作区是指你当前正在进行修改和编辑的文件和目录。当你切换分支时,Git会自动将工…

编程学习线上提问现场解答流程,零基础学编程从入门到精通

编程学习线上提问现场解答流程 一、前言 之前给大家分享的一款中文编程工具,越来越多的学员使用这个工具学习编程。 在学习中有疑难问题寻求解答流程 1、可以在本平台留言或发私信联系老师 2、可以在群提问及时解答问题 3、通过线上会议的方式,电脑…