自我对比: 通过不一致的解决视角更好地进行反思

一、写作动机:

LLM 在自我评价时往往过于自信或随意性较大,提供的反馈固执或不一致,从而导致反思效果不佳。为了解决这个问题,作者提倡 "自我对比": 它可以根据要求探索不同的解决角度,对比差异,并将这些差异总结为一个检查表,用于重新检查和消除差异。作者的方法能让 LLM 从不同的角度来缓解顽固的偏见。

二、主要贡献:

1)通过综合实验揭示了反思表现不佳的瓶颈在于 LLM 无法准确评估之前的反应。它通常表现为过度自信或反馈不一致,从而阻碍了自我反思的有效性。

2)提倡自我对比: 学习者可以从多个角度解决问题,以获得不同的结果,从而减少因单一提示而产生的过度自信的偏差。然后,从不同角度的对比中汲取灵感,LLM 总结出更准确的检查指导,以解决差异并加强反思。

3)从经验上看,与虚构的反思相比,自我对比在数学推理和具有挑战性的翻译场景中都有显著的改进和稳定性。

三、对大模型内在反思的评估:

3.1反思前后的变化:

3.2反馈分析:

1- 有效反思(Valid):错误回复被改正确。

2- 无效反思(Invalid):错误没有被改正。

3- 有毒反思(Toxic):刚开始正确的回复被反而被改错。

作者发现 feedback 主要存在两种情况:

1) 过于顽固的 feedback:初次回复中明明是存在明显的错误,但是 LLM 自我评估时候坚持认为没有任何问题。

2)多次自我评估的 feedback 不一致:对于同一个回复,多次自我评估产生的 feedback 非常不一致。

四、自我对比反思:

自我对比包括三个步骤: 创建不同视角、对比视角间差异和消除差异。在 "创建不同视角"中,鼓励LLM根据用户的要求自主创建各种提示,每种提示都提供了解决问题的独特视角,例如不同的思维方式、不同的身份、个性或偏好。这些不同的视角会促使 LLM 产生不同的回复。在第二阶段,LLM 会对比每对回应之间的差异。最后,为了消除差异,将这些差异归纳为一份详细的核对表,以供重新检查。该清单指导 LLM 仔细检查差异的原因,包括随机误差或内在偏差,这些都会导致不同观点的结果不一致。

五、实验设置:

5.1benchmarks:

使用 GSM8K、SVAMP 和 CommonMT 基准的数学推理和创意翻译。

5.2评估指标:

对于数学推理,评估的是逐步推理后最终答案的精确度。对于翻译任务,采用 BLEURT1 分数作为自动指标。

5.3LLM 模型和提示:

使用 GPT-3.5-Tubor-0613 和 GPT- 4-0613 API 以及具有三个参数范围(7B、13B 和 70B)的 Llama2-Chat 模型进行了实验。为了进行公平比较,将所有实验的温度统一设置为 0.2。对于标准提示和自我反省基线,我们使用不同的提示对其进行了 10 次评估,并对其在零样本场景下的结果进行了平均。

5.4baseline:

Standard CoT Prompt, Self-Reflection (Shinn et al., 2023),Multi-Agent Debate , ExpertPrompt , Hint-Prompt , Math-Prompt.

三种形式的自一致性:SC-Vote, SC-Select, SC-Reflect.

六、实验结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/431541.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

并发编程并发安全性之Lock锁及原理分析

ReentrantLock 用途:锁是用来解决线程安全问题的 重入锁-> 互斥锁 满足线程的互斥性意味着同一个时刻,只允许一个线程进入到加锁的代码中。多线程环境下,满足线程的顺序访问 锁的设计猜想 一定会涉及到锁的抢占,需要有一个标记来实现互…

论文学习—Model-based Adversarial Meta-Reinforcement Learning

Model-based Adversarial Meta-Reinforcement Learning Abstract1. Introduction2. Related work3 Preliminaries基于模型的强化学习(MBRL):区别和联系: 4 Model-based Adversarial Meta-Reinforcement Learning4.1 Formulation 4.2 Computin…

java实现文件上传到本地

很多时候我们都需要进行文件上传和下载的操作,具体怎么实现网上的代码其实也是挺多的,刚好我的项目中也遇到了文件上传和下载的需求,本篇博文具体讲解上传操作,下篇博文讲解下载操作。 我们具体来想一想要将一个从前端传来的文件…

【原理图PCB专题】Allegro模块化移动器件报...has the LOCKED property怎么解锁?

在模块化原理图时,PCB也需要做一个模块.mdd文件。这时需要先画好图纸然后再制作模块化文件。 修改文件时会发现模块化器件报错,无法编辑模块内部器件和走线,器件和走线都被LOCKED,如下所示报错内容: Symbol "U1" Selected Cannot edit Symbol "U1". M…

磁性机器人在医学领域取得进展

磁性医疗机器人利用磁场梯度来控制设备的运动,并最终以高精度进入体内的目标组织。这些磁性机器人可以采用导管和微型或纳米机器人的形式,并由磁导航系统操纵。磁性机器人最近取得了一些进展,为临床诊断和治疗用途开辟了新的可能性。在本期的…

数据结构与算法:堆排序和TOP-K问题

朋友们大家好,本节内容来到堆的应用:堆排序和topk问题 堆排序 1.堆排序的实现1.1排序 2.TOP-K问题3.向上调整建堆与向下调整建堆3.1对比两种方法的时间复杂度 我们在c语言中已经见到过几种排序,冒泡排序,快速排序(qsor…

2024.3.5

作业1、使用select实现tcp服务器端&#xff0c;poll实现tcp客户端 服务器端&#xff1a; #include <myhead.h> #define SER_IP "192.168.199.131" //服务端IP #define SER_PORT 8888 //服务端端口号int main(int argc, const char *argv[])…

星瑞格数据库管理系统

一. 产品介绍 随着信息化的到来&#xff0c;数据安全成为保障信息化建设的一个关键问题&#xff1b;数据库作为信息化系统的基础软件其自身安全以及对数据的保障是至关重要。现阶段国内重要部门的信息系统存放着大量敏感数据&#xff0c;为了保障其数据的安全性&#xff0c;使用…

Mathcad tips_table相关

1. 可以插入表格&#xff0c;或者2. 从excel 文件导入 选择列 选择其中一行的数值

Batch Normalization和Layer Normalization和Group normalization

文章目录 前言一、Group normalization二、批量规范化(Batch Normalization)三、层规范化&#xff08;Layer Normalization&#xff09; 前言 批量规范化和层规范化在神经网络中的每个批次或每个层上进行规范化&#xff0c;而GroupNorm将特征分成多个组&#xff0c;并在每个组内…

HarmonyOS创建项目和应用—设置数据处理位置

项目和应用介绍 关于项目 项目是资源、应用的组织实体。资源包括服务器、数据库、存储&#xff0c;以及您的应用、终端用户的数据等。在您使用部分服务时&#xff0c;您是数据的控制者&#xff0c;数据将按照您设置的数据处理位置来存储在指定区域。 通常&#xff0c;您不需…

Mybatis实现分页查询数据(代码实操讲解)

在MyBatis中实现分页查询的常见方式有两种&#xff1a;使用MyBatis内置的分页插件如PageHelper&#xff0c;或者手动编写分页的SQL语句。下面我将为你提供两种方式的示例代码。 使用PageHelper分页插件 首先&#xff0c;确保你的项目中已经添加了PageHelper的依赖。在Maven项…

ZYNQ--关于一些SDK调试问题记录

Debug configuaration中没有debug applicaton 问题如下图&#xff1a; 解决方法&#xff1a; 在Target Setup中的Debug Type中选择如下即可 注意选完之后application中必须勾选运行内核&#xff0c;否则不运行main文件。

Java项目:36 springboot图书个性化推荐系统的设计与实现003

作者主页&#xff1a;源码空间codegym 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 springboot003图书个性化推荐系统的设计与实现 管理员&#xff1a;首页、个人中心、学生管理、图书分类管理、图书信息管理、图书预约管理、退…

2195. 深海机器人问题(网络流,费用流,上下界可行流,网格图模型)

活动 - AcWing 深海资源考察探险队的潜艇将到达深海的海底进行科学考察。 潜艇内有多个深海机器人。 潜艇到达深海海底后&#xff0c;深海机器人将离开潜艇向预定目标移动。 深海机器人在移动中还必须沿途采集海底生物标本。 沿途生物标本由最先遇到它的深海机器人完成采…

vue3基础教程(2)——创建vue3+vite项目

博主个人微信小程序已经上线&#xff1a;【中二少年工具箱】。欢迎搜索试用 正文开始 专栏简介1. 前言2.node版本检测3.创建vue项目 专栏简介 本系列文章由浅入深&#xff0c;从基础知识到实战开发&#xff0c;非常适合入门同学。 零基础读者也能成功由本系列文章入门&#x…

循环队列:一道使数据结构萌新知道什么是“愁滋味“的题目

这破题目肝了我一天半才搞明白,也正是因为这道题目,我才豁然明白了李煜所说的"剪不断,理还乱...别是一般滋味在心头"到底是什么"滋味".在完全搞明白之前,真的是放有放不下,理也理不清... 但是理解之后你会发现,嘛い---,也就那么个回事嘛O(∩_∩)O 目录 1…

【DreamTalk】源码部署

安装 # 下载源码 git clone https://github.com/ali-vilab/dreamtalk cd dreamtalkconda create -n dreamtalk python3.10 conda activate dreamtalkconda install -c conda-forge yacs0.1.8 conda install -c conda-forge numpy1.21.5 conda install -c conda-forge av10.0.0…

如何使用宝塔面板部署MySQL数据库,并结合内网穿透实现固定公网地址远程连接

文章目录 前言1.Mysql服务安装2.创建数据库3.安装cpolar3.1 开放局域网端口3.2 创建HTTP隧道 4.远程连接5.固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 宝塔面板的简易操作性,使得运维难度降低,简化了Linux命令行进行繁琐的配置,下面简单几…

为什么Spring Cloud 应用程序中,应用程序的加载配置必须写在bootstrap.yaml这个配置文件中,是在哪里规定的?

在 Spring Cloud 应用程序中&#xff0c;bootstrap.yaml&#xff08;或bootstrap.properties&#xff09;的使用并非强制性的&#xff0c;但它扮演着一个特定的角色&#xff0c;主要是因为 Spring Cloud 的设计和工作流程。 背景和设计 Spring Cloud 构建在 Spring Boot 之上…