《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》【大模型思维链】

目录

  • 前言
  • 一、思维链介绍
    • 1-1、指令
    • 1-2、逻辑依据
    • 1-3、示例
  • 二、Cot一般分类
    • 2-1、Zero-Shot-CoT
    • 2-2、Few-Shot-CoT
  • 三、Cot的好处&缺陷&适用
    • 3-1、Cot的好处
    • 3-2、Cot的缺陷
    • 3-3、Cot的适用
  • 四、变体
    • 4-1、自我验证(self-consistency checking)
  • 总结


前言

思维链,是一系列中间推理步骤,可以显著提高大语言模型执行复杂推理的能力。

一、思维链介绍

思维链:一种简单的提示方法,通过一系列的中间推理步骤,可以大大提高大语言模型执行复杂推理的能力。下图为使用标准提示词和使用思维链提示词的输出的区别:

在这里插入图片描述
与传统Prompt的区别: 传统Prompt的流程是直接从输入到输出的映射,而Cot则是输入——思维链——输出。

一个完整的包含Cot的Prompt往往由指令、逻辑依据、示例三部分组成。一般来说,指令用于描述问题并且告知大模型的输出格式;逻辑依据指的是Cot的推理过程(一般包含问题的解决方案、中间推理步骤以及外部知识);示例指的是以少样本的方式为大模型提供输入输出对的基本格式,每一个示例都包含:问题、推理过程与答案。以下为更详细的介绍。

下图为COT实例:《输入——思维链——输出》
在这里插入图片描述

1-1、指令

指令 (Instruction)

  • 作用:明确告知模型需要解决的问题或执行的任务,以及期望的输出格式。
  • 重要性:指令帮助模型理解任务的具体需求,确保输出的相关性和准确性。

示例:

问题:解释什么是光合作用?
指令:简要描述光合作用的过程,并列出它的主要作用。

1-2、逻辑依据

逻辑依据 (Rationale)

  • 作用:包括解决问题的中间步骤、相关知识的引入或理由的阐述。
  • 重要性:逻辑依据帮助模型展现推理过程,使答案更具解释性和可靠性。

示例

问题:解释什么是光合作用?
逻辑依据:光合作用是植物、藻类和某些细菌使用阳光将二氧化碳和水转化为氧气和葡萄糖的过程。这是一个复杂的多步骤过程,涉及到光反应和暗反应等阶段,主要作用是产生氧气和为生物提供能量。

1-3、示例

示例 (Exemplars)
作用:提供具体的问题、推理过程和答案实例,作为模型处理类似问题的参考。
重要性:示例可以帮助模型学习如何格式化其回答,理解问题的深层含义,以及如何引入适当的推理来支持其结论。

示例

问题:解释什么是蒸馏?
推理过程:蒸馏是一种分离混合物的技术,常用于分离液体或提纯物质。在这个过程中,混合物加热至沸点,使最易挥发的组分蒸发,然后通过冷凝再将其分离出来。
答案:蒸馏是利用物质之间沸点的差异来分离它们的过程。

二、Cot一般分类

以是否包含示例为区分,可以将Cot分为Zero-Shot-CoT 与 Few-Shot-CoT。如下图所示:

在这里插入图片描述

2-1、Zero-Shot-CoT

Zero-Shot-CoT (零样本CoT)

  • 定义:在这种模式下,没有提供具体的示例来引导模型的行为。指令通常包括“Let’s think step by step”这样的语句来激励模型展开逐步推理。(进阶:Let’s first understand the problem and devise a plan to solve the problem. Then, let’s carry out the plan and solve the problem step by step)
  • 应用:Zero-Shot-CoT适用于那些模型已经有足够知识理解和解答的情况,不需要通过额外的示例来学习如何回答。
  • 优点:能够快速部署,无需额外准备示例,节省时间。
  • 局限:可能不如Few-Shot-CoT准确,特别是在处理非常复杂或专业性强的问题时。

案例如下所示:
在这里插入图片描述

2-2、Few-Shot-CoT

Few-Shot-CoT (少样本CoT)

  • 定义:在指令中添加具体的示例(案例),这些示例显示了问题、推理过程和答案。这样做可以让模型模仿这些示例来提高解决问题的能力。
  • 应用:Few-Shot-CoT适用于需要模型理解特定格式或复杂问题的场景,特别是在模型原本不太可能准确回答的领域。
  • 优点:通过提供具体示例,模型可以学习特定的回答风格和推理方法,通常能够产生更准确和相关的输出。
  • 局限:需要花费更多的时间来准备有效的示例,且依赖于这些示例的质量。

案例如下所示:

在这里插入图片描述

三、Cot的好处&缺陷&适用

3-1、Cot的好处

Cot的具体优点如下:

  • 增强大模型的推理能力: 通过将复杂问题分为多个子问题,显著提高了模型的推理能力。
  • 增强了大模型的可解释性: 相比于没有使用思维链,Cot可以向我们展示过程,让我们可以知道大模型的执行流程到底是怎样的,增加了可解释性。
  • 增强了大模型的可控性: 通过让大模型一步一步输出步骤,我们通过这些步骤的呈现可以对大模型问题求解的过程施加更大的影响,避免大模型成为无法控制的“完全黑盒”;

3-2、Cot的缺陷

Cot的缺陷如下:

  • 模型的规模太小会导致Cot失效
  • 只有对复杂任务才是有用的。
  • 示例不正确会带偏大模型。

如下图所示(使用Cot的PaLM 540B模型在GSM8K基准上表现出极高的性能):
在这里插入图片描述

3-3、Cot的适用

Cot的适用场景如下:

  • 需要使用大模型,规模太小的不适用(20B以下)
  • 复杂任务场景,如编程
  • 增加模型参数无法使模型性能得到提升。
  • 模型的训练数据针对于任务问题有较强的关联性。

四、变体

4-1、自我验证(self-consistency checking)

自我验证(self-consistency checking)是Chain of Thought (CoT) 推理中的一个重要概念。这种方法不仅在推理过程中寻找问题的答案,而且还要检查和验证这些推理过程的逻辑一致性和正确性。自我验证的目的是提高答案的可靠性和准确性,确保模型在解答复杂问题时能够自我纠正潜在的错误或不一致之处。

如何实施自我验证
在CoT框架中,自我验证通常涉及以下几个步骤:

  • 推理生成:首先,生成一个详细的推理过程,这通常包括对问题的分析、相关信息的整合以及逐步推导出答案的逻辑链。
  • 验证步骤:在得到初步答案之后,模型会重新审视整个推理过程,检查是否存在逻辑断裂、信息错误或不一致的地方。
  • 调整和改进:基于自我验证的结果,模型可能需要调整其推理链。这可以涉及修正错误的事实信息、重新评估逻辑关系或添加缺失的逻辑步骤。
  • 最终输出:完成自我验证和必要的调整后,模型输出最终的、经过验证的答案。

应用场景

  • 自我验证特别适用于需要高度准确性的应用场景,如医学诊断、法律推理、科技问题解答等领域。在这些领域,错误的信息或推理可能导致严重的后果。通过自我验证,模型能够提供更加可靠和精确的答案。

self-consistency checking 案例如下图所示:

在这里插入图片描述

参考文章:
Chain-of-Thought Prompting Elicits Reasoning
in Large Language Models论文地址.
一文读懂:大模型思维链 CoT(Chain of Thought)


总结

那女孩对我说,说我保护她的梦💤

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/566671.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【剪映专业版】03立体自动翻页

【剪映专业版】立体自动翻页制作 1.导入素材,图片或视频均可 2.将素材2拖动至素材1的上方,点击蒙版,选择线性蒙版,并旋转为90度。 3.复制素材1,并拖动到素材2上方,分割并删除后半部分,点击蒙版…

WebGL绘制和变换三角形

1、绘制多个点 构建三维模型的基本单位是三角形。不管三维模型的形状多么复杂,其基本组成部分都是三角形,只不过复杂的模型由更多的三角形构成而已。 gl.vertexAttrib3f()一次只能向顶点着色器传入一个顶点,而绘制三角形、矩形和立方体等&am…

【MySQL 数据宝典】【磁盘结构】- 005 Undo log 撤销日志

一、基本介绍 ​ 每当我们要对一条记录做改动时(这里的改动可以指 INSERT 、 DELETE 、 UPDATE ),都需要留一手 -> 把回滚时所需的东西都给记下来 ​ 你插入一条记录时,至少要把这条记录的主键值记下来,之后回滚的…

【Redis】set 数据类型

文章目录 常用命令sadd & smemberssismember & scardspopsmove & srem 多个集合间的交互命令交集 & sinter & sinterstore并集 & sunion & sunionstore差集 & sdiff & sdiffstore 内部编码 集合类型也是保存多个字符串类型的元素的&#x…

【电控笔记5.6】Butterworth滤波器

Butterworth滤波器 需求:在增益交越频率拥有最小的相位滞后 波器经常被使用原因是 Butterworth 滤波器对于给定阶数,拥有最倾斜的衰减率而在伯德图又不会产生凸峰,同时在低频段的相位滞后小,因此本节将为各位介绍 Butterworth 低…

基于SSM的在线家教管理系统(含源码+sql+视频导入教程)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1 、功能描述 基于SSM的在线家教管理系统1拥有三种角色 管理员:学生管理、老师管理、发布管理、留言管理、回复管理、订单管理等教师:我的订单、我的关注、查看回复留言、登录注…

使用 Docker 部署 Draw.io 在线流程图系统

1)介绍 Draw.io GitHub:https://github.com/jgraph/drawio Draw.io 是一款开源的绘制流程图的工具,拥有大量免费素材和模板。程序本身支持中文在内的多国语言,创建的文档可以导出到多种网盘或本地。无论是创建流程图、组织结构图…

手拿滑块撕瑞数,我叫超弟你记住!腾讯滑块2024.4.23最新版,高复用,看到就是赚到,珍惜资源首次公开!!!

众所周知,腾讯阿里系安全属于国内天花板,让很多同行望眼欲穿,却束手无策,我们小团队因业务需要,一直都有现成的解决方案,有需求的朋友可以私信,后续准备办一个商学院,完全分享行内超…

基于java,SpringBoot和HTML实验室预约管理系统设计

摘要 本研究旨在设计并实现一个基于Java, Spring Boot和HTML的实验室预约管理系统,以解决实验室资源分配不均、管理混乱和预约流程繁琐等问题。系统采用B/S架构设计,后端使用Spring Boot框架进行开发,前端使用HTML进行页面设计,实…

AI大模型实现软件智能化落地实践

1、什么是大模型 大型语言模型(Large Language Model,LLM;Large Language Models,LLMs)。 大语言模型是一种深度学习模型,特别是属于自然语言处理(NLP)的领域,一般是指包含数干亿&…

【前后端】django前后端交互

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、django是什么二、django前后端交互指引三、总结 前言 随着开发语言及人工智能工具的普及,使得越来越多的人会主动学习使用一些开发语言&#x…

前端框架技术革新历程:从原生DOM操作、数据双向绑定到虚拟DOM等框架原理深度解析,Web开发与用户体验的共赢

前端的发展与前端框架的发展相辅相成,形成了相互驱动、共同演进的关系。前端技术的进步不仅催生了前端框架的产生,也为其发展提供了源源不断的动力。 前端的发展 前端,即Web前端,是指在创建Web应用程序或网站过程中负责用户界面…

LangChain4j

文章目录 关于 LangChain4j特性2 levels of abstractionLibrary StructureTutorials (User Guide)Integrations and Models免责声明 Highlights定义由LLM提供支持的声明性 AI Services:使用 LLM 分类从非结构数据中提取结构化信息 Getting started兼容性 支持的 LLM…

JVM学习笔记(五)内存模型

与【java 内存结构】不同,【java 内存模型】是Java Memory Model(JMM)的意思。前三章主要介绍java内存结构(组成)、垃圾回收、字节码技术、类加载器,与内存模型这一章关联更多的是多线程,与前面…

C语言进阶课程学习记录-第48课 - 函数设计原则

C语言进阶课程学习记录 - 函数设计原则 本文学习自狄泰软件学院 唐佐林老师的 C语言进阶课程,图片全部来源于课程PPT,仅用于个人学习记录

虚拟化+Docker基本管理

一、虚拟化简介 1、云端 华为云、谷歌云、腾讯云、阿里云、亚马逊、百度云、移动云、天翼云、西部数码云等 1.国内云 华为云、阿里云、腾讯云、天翼云(私有云) 2.国外云 谷歌云、亚马逊 2、云计算的服务模式是分层的 IaaS:Infrastructure(基础设…

Ansys学生版安装教程

Ansys学生版安装 安装包下载 进入官网Ansys学生版下载,这里选择Ansys Electronics Desktop学生版。 解压安装包 将下载好的安装包解压,内容如下 打开AnsysEMSV文件夹,有以下内容 安装 双击点击setup.exe文件,依次按以下流程走…

社区奶柜的便捷与创新

在快节奏的现代生活中,无人零售技术如自动售货机已成为一种普遍现象,为消费者提供便捷的购物体验。社区奶柜,作为这一趋势中的一部分,不仅优化了日常购物流程,而且还在提升社区服务质量上发挥了重要作用。 1. 社区奶柜…

政企宣传邀请媒体的作用?

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 政企宣传邀请媒体的作用主要体现在以下几个方面: 提升品牌知名度:通过媒体广泛报道活动内容、亮点及企业形象,可以提升企业或政府的品牌知名度。增加…

安卓原生项目工程结构说明

.gradle 和 .idea (自动生成) .gradle 是gradle下载好的缓存,如果有配置好的 下载好的缓存 直接会拿来用 没有会下载 生成 .idea 是编辑器的配置 app 代码主逻辑 目录 项目中的代码 资源都会在里面 工作的时候的核心目录 gradle 下载安卓的构建器gradle相关的配置信…