论文浅尝 | 从最少到最多的提示可在大型语言模型中实现复杂的推理

3c67bb606b9fd5d114c8a6b091391f46.png

笔记整理:王泽元,浙江大学博士

链接:https://openreview.net/forum?id=WZH7099tgfM

1. 动机

尽管深度学习已经取得了巨大的成功,但它与人类智慧仍然存在一些明显差距。这些差距包括以下几个方面:1)学习新任务:人类可以通过很少的示例快速学会新任务,而机器学习通常需要大量已标记的数据来完成相同的任务。2)逻辑解释:人类能够清晰地解释他们的思维过程,但机器学习似乎像一个黑盒,我们难以理解其中的工作原理。3)处理复杂问题:人类能够解决比以前遇到的更具挑战性的问题,而机器学习在训练和测试上遇到的难度大致相等。为了克服这些问题,研究人员提出了一种称为“从最少到最多提示”的方法。这个方法包括两个关键步骤:1)将复杂任务分解成一系列更简单的子任务,然后2)按照顺序逐一解决这些子任务。这有助于模型逐渐理解和解决整个复杂任务。在这两个阶段中,使用了很少的提示来指导模型,而不需要对模型进行大规模的微调。

2. 贡献

提出了基于学习简单任务来解决复杂任务的提示学习方法。该方法在如符号操纵、成分概括、数学推理上证明了其解决复杂问题的能力。

1fac50a3b2efd4f7a4600746ef0e04a1.png

3. 方法

它包含了两个阶段:

(1)分解:这个阶段的提示是固定的,描述了如何将一个具体的任务分解

(2)子任务解决:这个阶段的提示包含了三个部分:固定的例子说明如何解决子问题;一个可能为空的列表包含了先前回答的子问题和生成的解决方案;下一个要被回答的问题

4. 结果

符号操纵:最后字母拼接任务(输入一系列单词,输出是每个单词最后一个字母的拼接)

90e3fb6c0aaa6bf72a059de8858583fa.png

4332c43285f5368282f7b23096276c38.png

实验结果显示普通的提示在所有的测试中都失败了,思维连提示显著的提升了效果但仍与从最少到最多提示方法有差距。特别的,当序列长度增加时,思维链提示效果快速下降。

成分概括:将自然语言命令转换为行动序列

3c801c8a6ddbed17146fba4bd67cee17.png

b7909c2cf6c44357b889c93a96edefb6.png

成分概括数据以行动序列长度划分,从最少到最多提示达到了99.7%的准确率,一个有趣的发现是code-davinci-002优于text-davinci-002不论是使用哪种提示方法。在失败的例子中,有6个是因为没有正确理解“around”后面的“twice”和“thrice”,7个是因为错误地将“after”解释为“and”。

数学推理:作者用解决数学问题需要的步骤数量作为评价数学问题的难度

3f4383fd65ddba49a24485789bfd3470.png

3f5d3a2454f13e92f0fe1ea64e052d0c.png

b68d391e6c1af594afd22fbb6bccd3f4.png

从实验结果中可以看出,与思维链相比,当推理步骤数目大于5时,从最少到最多提示方法显著地提升了模型回答数学问题的准确性。作者发现在GSM8K中失败的问题,可以通过人为手工分割任务,让模型回答正确。这表明解决问题中最关键的一步是分解问题。

5. 总结

作者引入了从最少到最多的提示,使语言模型能够解决比提示中的问题更难的问题。这种方法需要两个过程:自上而下的问题分解和自下而上的解决方案生成。作者的实证研究结果包括符号操纵、构图概括和数学推理,表明从最不重要到最重要的提示明显优于标准提示和思维链提示。一般来说,提示可能不是教授大型语言模型推理技能的最佳方法。提示可以被视为一种单向交流形式,在这种形式中,我们指导语言模型而不考虑其反馈。一个自然的进展是将提示发展为完全双向的对话,从而能够立即反馈到语言模型,从而促进更高效和有效的学习。从最少到最多的提示技术代表了通过这种双向交互指导语言模型的一大进步。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

a3a7b4b55deda24cb7837c11c3505fdb.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/772934.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

损失函数篇

损失函数 1、边界框损失函数/回归损失函数bbox_loss 2、分类损失函数cls_loss 3、置信度损失函数obj_loss YOLOv8损失函数 1、概述 通过YOLOv8-训练流程-正负样本分配的介绍,我们可以知道,经过预处理与筛选的过程得到最终的训练数据: a…

11 UDP的可靠传输协议QUIC

1.如何做到可靠性传输 2.UDP与TCP,我们如何选择 3.UDP如何可靠,KCP协议在哪些方面有优势 4.KCP协议精讲(重点讲解 5.OUIC时代是否已经到来 UDP如何做到可靠传输 ACK机制重传机制 重传策略序号机制(后发的包可能先到) 3 2 1-> 2 3 1重排机制 2 3 1-> 3 2 1窗口机制 流…

谷粒商城笔记-03-分布式基础概念

文章目录 一,微服务二,集群、分布式三,远程调用四,负载均衡五,服务注册、服务发现、注册中心六,配置中心七,服务熔断、服务降级1,服务熔断2,服务降级3,区别 八…

Spring框架的学习前言

1.注意事项 1.在接下来的学习中我们会将jdk的版本升级到17。 2.引入maven仓库用来存储依赖 3.在后面的javaSpring框架中要第一个项目的创建要选javaweb和lombook这两个依赖 2.Maven的主要功能 (1)maven的主要功能是引入依赖和管理依赖,在…

基于SpringCloud的分布式架构网上商城

基于SpringCloud的分布式架构网上商城的主要使用者管理员功能:首页、个人中心、用户管理、商品信息管理、商品分类管理、系统管理、订单管理等功能。 💕💕作者:Weirdo 💕💕个人简介:擅长Java、C…

【SkiaSharp绘图15】SKPath属性详解:边界、填充、凹凸、类型判断、坐标、路径类型

文章目录 SKPath 构造函数SKPath 属性Bounds 边界(宽边界)TightBounds紧边界FillType填充方式IsConcave 是否凹/ IsConvex 是否凸IsEmpty是否为空IsLine是否为线段IsRect是否为矩形IsOval是否为椭圆或圆IsRoundRect是否为圆角矩形Item[] 获取路径的坐标LastPoint最后点的坐标Po…

基于香橙派AIpro搭建的车牌识别系统

引言 本人正有学习嵌入式的想法,正好碰到机会让我搞了块OrangePi AIpro(香橙派AIpro)开发板,正合我意,直接上手进行体验,顺便给大家分享下我的实践过程。 开发板介绍与初次启动 OrangePiAIPro开发板是香…

WPF UI InkCanvas 导师演示画板 演示 笔记 画笔 识别

<Grid><InkCanvas Name"inkCanvas"/><Button Content"识别" Click"Button_Click" VerticalAlignment"Bottom"/></Grid> 引用内库 Ink ink new Ink(); private void Button_Click(object sender, RoutedEvent…

基于STM32F103C8T6的同步电机驱动-CubeMX配置与IQmath调用

基于STM32F103C8T6的同步电机驱动-CubeMX配置与IQmath调用 一、功能描述: 上位机通过CAN总线实现对电机的运动控制,主要包含三种模式:位置模式、速度模式以及力矩模式。驱动器硬件核心为STM32F103C8T6,带相电压采集电路以及母线电压采集电路。其中供电电压12V。 PWM中心对…

Android-卷积神经网络(Convolutional Neural Network, CNN)

一个复杂且在Android开发中常见的算法是图像处理中的卷积神经网络(Convolutional Neural Network, CNN)。CNN被广泛用于图像识别、物体检测和图像分割等任务,其复杂性在于需要处理大量的图像数据、复杂的神经网络结构和高效的计算。 1. 卷积操作(Convolution) 数学原理:…

企业级监控系统Zabbix

文章目录 Zabbix介绍Zabbix架构Zabbix serverZabbix agentZabbix proxy Zabbix Server的安装Zabbix Agent的安装监控主机流程zabbix_get自定义模板和监控项实战用户登录数监控1.指定监控项命令2.重启Agent服务3.在Server上创建监控项4.测试监控项5.查看监控项图形 触发器定义触…

字符设备驱动程序

简单做个模板框架 字符设备开发流程 确定设备号dev_t&#xff0c;动态分配 alloc_chrdev_region() 或静态分配 register_chrdev_region()定义file_opeartion 结构体*fops *&#xff0c;在结构体成员中实现对应的 *open()、read()*等函数。cdev_init() 将 fops 与 cdev 绑定&…

STM32学习历程(day2)

GPIO解释 GPIO(General-purpose input/output) 可以配置为八种输入输出模式 引脚电平 0V-3.3V 部分引脚可容忍5v 输出模式可控制端口输出高低电平 用以驱动LED、控制蜂鸣器、模拟通信协议输出时序 输入模式可读取端口的高低电平或电压&#xff0c;用于读取按键输入、外界…

firefly rk3588 sdk安装问题记录

目录 一、python版本不对 1.1 下载python2.6 1.2 安装python2.6 1.3 安装遇到问题 二、安装hashlib 三、更新3588 SDK代码 一、python版本不对 我的环境的python版本是python3.7。初次安装的时候执行命令报错&#xff0c;说是版本不对导致 fuhdell:rk3588_sdk$ .repo/rep…

centos通过官网下载安装最新版mysql方案

官网下载步骤&#xff1a; 点击DOCUMENTATION mysql的yum仓库Using the MySQL Yum Repository 向下翻&#xff0c;查看安装命令 点击下载mysql安装包 下载对应的版本 不注册&#xff0c;直接下载社区版 下载好的安装包 安装步骤&#xff1a; 把rpm包导入到服务器…

AI 驱动的数据中心变革与前景

文章主要探讨了AI计算时代数据中心的转型&#xff0c;涉及计算技术的多样性、规格尺寸和加速器的发展、大型语言模型&#xff08;LLM&#xff09;的发展、功耗和冷却趋势、基准测试的重要性以及数据中心的发展等方面。为大家提供深入了解AI基础设施发展的视角。 计算技术的多样…

​浅谈 Linux 中的 core dump 分析方法

在 Linux 系统开发领域中&#xff0c;core dump&#xff08;核心转储&#xff09;是一个不可或缺的工具&#xff0c;它为我们提供了在程序崩溃时分析程序状态的重要线索。当程序因为某种原因&#xff08;如段错误、非法指令等&#xff09;异常终止时&#xff0c;Linux 系统会尝…

spring boot + vue3+element plus 项目搭建

一、vue 项目搭建 1、创建 vue 项目 vue create vue-element说明:创建过程中可以选择路由,也可也可以不选择,可以通过 npm install 安装 vue 项目目录结构 说明:api 为自己创建的文件夹,router 选择路由模块会自动创建 router下的index.js文件(配置路由的文件) im…

泰国内部安全行动司令部数据泄露

BreachForums 论坛的一名成员宣布发生一起重大数据泄露事件&#xff0c;涉及泰国内部安全行动司令部 (ISOC)&#xff0c;该机构被称为泰国皇家武装部队的政治部门。 目前&#xff0c;我们无法准确确认此次泄露的真实性&#xff0c;因为该组织尚未在其网站上发布有关该事件的任…

微信开发者工具报错 Error: module ‘xxx.js‘ is not defined, require args is ‘xxx.js‘

背景 报错如下 检查 代码逻辑和写法都是ok的重新打开项目又是可以的 解决方案 先确保微信开发者工具和uniapp的将js编译成es5都开着&#xff08;这个是默认开的&#xff09; 然后把微信开发者工具关了重开 一般做这一步就会好了&#xff0c;但是只是临时解决 &#xff08…