GLoRE:大型语言模型的逻辑推理能力探究

e45b9c516745c16c92284f788ace7386.png

最新研究揭示,尽管大语言模型LLMs在语言理解上表现出色,但在逻辑推理方面仍有待提高。为此,研究者们推出了GLoRE,一个全新的逻辑推理评估基准,包含12个数据集,覆盖三大任务类型。

实验对比发现,GPT-4在逻辑推理上的表现远超ChatGPT,但与人类表现和有监督的微调相比,仍有提高空间。

为此,研究者提出了自我一致性探测方法(self-consistency probing method)来进一步提升ChatGPT的准确性,并通过微调策略,进一步增强大型语言模型的逻辑推理能力。

让我们一起看看这篇研究吧!

e1a7b49284b8c47a8b4a05e17e5b4ddc.png

深度学习自然语言处理 原创
作者:Winnie

Paper: GLoRE: Evaluating Logical Reasoning of Large Language Models  
Link: https://arxiv.org/abs/2310.09107

->辅导界的小米带你冲刺ACL2024

GLoRE基准

逻辑推理,作为人类智能的核心,长期以来都是AI研究的热点。为了更好地评估LLMs在自然语言中处理复杂信息的能力,研究人员推出了通用逻辑推理评估(GLoRE)基准。与众所周知的GLUE和Super-GLUE评估自然语言理解能力类似,GLoRE汇集了多个逻辑推理数据集。

GLoRE主要包括三大任务:

  • 多项选择阅读理解:系统给定段落和问题,目的是从答案中选择正确的选项。特别地,GLoRE包括五个此类数据集,如LogiQA、ReClor、AR-LSAT等。

  • 自然语言推断(NLI):确定假设与前提之间的逻辑关系。包括ConTRoL、HELP、TaxiNLI等数据集。

  • 真或假问题(TF):如FraCaS、RuleTaker和ProofWriter等数据集。

ae5f5aa8b4c4acd7fb0b567dff383e52.png

这些数据集涵盖了从简单到复杂的各种逻辑推理情境,为我们评估大型语言模型的逻辑推理能力提供了合适的平替。其中,多项选择阅读理解深入探讨了逻辑MRC问题,而NLI任务关注文本分类中的蕴涵关系。而真或假问题主要测试了模型在多前提上下文的蕴涵问题上的处理能力。

实验设置

在这篇研究中,研究人员针对开源的LLMs和基于封闭API或UI的模型进行了评估,考虑了7种评估场景:

  • zero-shot评估:模型通过模板转换得到提示,并生成语言化的答案。

  • few-shot评估:LLMs使用带有答案的示例作为上下文进行推断。

  • 指令调整:LLMs被训练以遵循自然语言指令,进行任务特定的微调。

  • 自我一致性评估:模型需要全面了解上下文中的逻辑关系。

  • 思维链评估:模型进行一步一步的逻辑思考。

  • 聊天UI评估:基于GPT-4的手动聊天UI测试,更真实地反映用户与模型的互动。

  • 生成响应的评估:对模型生成的响应进行质量评估,包括连贯性、完整性、正确性和相关性。

在实验中采用了RoBERTa-base作为基线,对比了数个LLMs如Falcon-40b-instruct和LLaMA-30b-supercot,以及OpenAI的ChatGPT和GPT-4。

评估指标主要以分类精度得分为指标,并设立人类基线,对于LogiQA22数据集特邀五名合著者进行测试。

主要结果

Zero-shot任务

下表展示了主要的zero-shot任务上的实验结果。

a80e87717855056e07aacc96e6bec19f.png

我们主要可以得出以下发现:

  • 人类准确率: 人类在大多数逻辑推理任务上的平均准确率超过80%,尤其是在ReClor和AR-LSAT上,平均准确率分别为63.00%和56.00%。

  • RoBERTa-base表现: 该模型在多数逻辑推理任务上的表现落后于平均人类表现,但在特定的ProofWriter任务上有55.92%的准确率,显示出处理特定逻辑推理任务的潜力。

  • 开源模型对比: LLaMA和Falcon在多数逻辑推理任务上的表现都不如微调的RoBERTa-base,特别是在MRC任务上。

  • ChatGPT和GPT-4: 两种模型在多数MRC基准测试中超过了RoBERTa-base。GPT-4在处理一些逻辑MRC数据集上展现出了显著的能力。

  • LogiQA 2.0深度分析: ChatGPT和GPT-4在分类推理上都展现出了超高的准确率,但在处理涉及析取的前提上面临挑战。

Few-shot任务

下表展示了不同模型在few-shot任务上的实验结果。GPT-4在与zero-shot相比的few-shot场景中获得了超过9个百分点的准确率提升。

4dbd9072d79f59719dd43d8a120c35a3.png

推理任务

下表展示了不同推理类型的统计分析。02732a3ec174a035babb59e0bb2c40ae.png

  • ChatGPT和GPT-4在分类推理上表现出了超高的准确率,分别为83.83%和95.04%。

  • 两模型在涉及析取的前提上面临挑战,可能是因为这些逻辑结构的固有复杂性和潜在的模糊性。

  • 社区模型在分类推理上没有展现出特别强的表现,连词推理和析取推理对它们来说仍然是个挑战。

指令微调的有效性

使用Alpaca的指令进行微调后,所有任务的性能都得到了显著提高,证明了指令调整的强大效果。这种改进主要归因于模型增强的一般指令理解能力。

44c7747498909955cc3074316946b79c.png

经过调整的LLaMA-7B模型明显优于基线的LLaMA-7B模型和Alpaca。在LogiQA 2.0数据集上,模型的准确率从18.04%增加到52.74%,高于微调后的RoBERTa-base的48.76%。

尽管微调仅使用了LogiQA 2.0的训练数据集,但经过调整的模型成功地将其能力推广到其他数据集。在ReClor数据集上,经过调整的模型达到了55.20%的准确率,比Alpaca高出32.82个百分点。

Self-Consistency Probing评估

逻辑推理任务通常涉及处理一系列相关的陈述或事实,然后根据这些信息进行推断。这些任务需要理解不同信息之间的相互作用,而不是独立地处理它们。这意味着,即使事实的顺序或句子的结构发生变化,真正的逻辑结论也应该保持不变。因此,研究人员在实验中通过打乱句子为ChatGPT引入多样性,特别是对于那些固有地不是顺序的数据集。e1d677fdeb20affe16f4008a50c1d0cb.png

由表可观察到,投票模型在多数数据集上优于单一模型。在LogiQA 2.0 zh数据集上,单一模型有更高的准确率,可能因为中文语言结构的特殊性。

打乱文本不会对ChatGPT的性能产生负面影响。在某些情况下,打乱的文本甚至提高了性能。类似的趋势也出现在其他CoT数据中,其中CoT序列的扰动对整体效率的影响很小。

CoT评估

下表展示了在GLoRE上使用/不使用CoT的结果。

7273621d93661d37e3cb64b5fd2b84fb.png

除此之外,实验还计算了GPT-4结果的混淆矩阵。所有模型在使用CoT提示时都有性能提升,范围在2%到3%之间。混淆矩阵进一步说明了使用CoT提示提高性能的重要性。

899368886f9cde6c801fd5d7ecdaecee.png

GPT4的Chat UI评估

实验还对GPT-4模型在Chat UI界面上的性能进行了深入探索,并通过案例研究揭示了其在回答和推理上的特点。

f83731fb9d2fa00f847c24ff926c6392.png

实验结果表明,没有观察到基于UI的输出和基于API的输出之间的明显质量差异。基于UI的评估结果在大多数数据集上略高于基于API的结果。评估指标可能是造成这种差异的一个原因。

案例研究主要有以下发现:

  • GPT-4在一些情况下能够正确地回答和推理,例如通过选择新证据来解决专家观点和证据之间的矛盾。

  • GPT-4有时会生成不正确的答案,如对人类起源的问题的回答。

  • 在某些情况下,提供上下文示例可以帮助GPT-4更准确地回答问题。

  • CoT推理过程通过为GPT-4提供更相关的上下文来工作,但也可能依赖于表面的模式而不是深入的抽象。

人工评估

实验对模型的表现进行了人工评估,GPT-4在所有指标上都稳定地排名第一,ChatGPT紧随其后。评注者之间的一致性良好,Cohen's Kappa值为0.79。

7990ed8cf51e2ff51e34308347893830.png
  • 连贯性: GPT-4得分最高,为4.52,表现出其逻辑连贯输出的能力。ChatGPT紧随其后,得分为4.00。

  • 完整性: ChatGPT和GPT-4并列第一,得分均为4.81,展示了其详尽的回应能力。

  • 正确性: GPT-4得分为4.51,领先于其他模型,其回应准确率高。

  • 相关性: GPT-4略微领先,得分为4.89,与ChatGPT得分4.72相当接近。

此外,使用GPT-4 API作为评估器对LLaMA-30-supercot模型进行了实验,其评估得分与人工评估得分相近,为逻辑推理任务的自动评估提供了信心。

结语

在这项研究中,研究团队提出了一个名为GLoRE的数据集,专门用于评估LLMs在处理多种逻辑推理任务上的表现。研究发现ChatGPT和GPT-4在大部分逻辑推理基准测试上都显著超越了传统的微调方法。尽管商业模型在GLoRE测试中的表现相对较弱,但通过对相似数据进行指令调整,模型的性能得到了显著提高。此外,通过监督微调、上下文学习和投票技术,研究团队成功地实现了更为出色的结果。在对模型进行量化和定性评估后,该团队指出,现有的LLMs在解决逻辑推理任务时,似乎更多地依赖于表面模式。因此,他们认为,对底层推理机制进行深入研究和增强,将是一个有益的方向。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

3bc233b599a2d7c6ae595e16a5015a13.png

id:DLNLPer,记得备注呦

d45b9225dacff03f4cadc0c28678ab9f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/109291.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

后门程序分析1

临时补充一个内容,这是一个后门程序,通过IDA分析,之后把里面收集的信息点全部整理出来(包括:反虚拟机,系统信息等等)pass:guet 用IDA打开先看看主函数的样子 查阅一些这些API InternetOpenA&…

【机器学习合集】模型设计之网络宽度和深度设计 ->(个人学习记录笔记)

文章目录 网络宽度和深度设计1. 什么是网络深度1.1 为什么需要更深的模型浅层学习的缺陷深度网络更好拟合特征学习更加简单 2. 基于深度的模型设计2.1 AlexNet2.2 AlexNet工程技巧2.3 VGGNet 3. 什么是网络宽度3.1 为什么需要足够的宽度 4. 基于宽度模型的设计4.1 经典模型的宽…

EM算法解析+代码

大纲 数学基础:凸凹函数,Jensen不等式,MLEEM算法公式,收敛性HMM高斯混合模型 一、数学基础 1. 凸函数 通常在实际中,最小化的函数有几个极值,所以最优化算法得出的极值不确实是否为全局的极值&#xff…

初学编程入门基础教学视频,中文编程开发语言工具箱之豪华编辑构件,免费版中文编程软件下载

初学编程入门基础教学视频,中文编程开发语言工具箱之豪华编辑构件,免费版中文编程软件下载 构件的其中一个属性、方法,查找内容,替换内容。 构件工具箱非常丰富,其中该构件在 文本件构件板菜单下。 编程系统化课程总目…

web - 前段三剑客

目录 前言 一. HTML 常用标签演示 图片标签 ​编辑 表格标签(重点) ​编辑 表单标签 (重点) 布局标签 其余标签 二. CSS 2.1 . css的三种引入方式 2.2 . 三大选择器 2.3 . css样式 - 浮动 2.4 . css样式 - 定位 1.static 2.absolute(绝对位置) 3.relavite(相…

【设计模式】第13节:结构型模式之“享元模式”

一、简介 所谓“享元”,顾名思义就是被共享的单元。享元模式的意图是复用对象,节省内存,前提是享元对象是不可变对象。 实现:通过工厂模式,在工厂类中,通过一个Map或者List来缓存已经创建好的享元对象&am…

LeetCode 415 字符串相加 简单

题目 - 点击直达 1. 415 字符串相加 简单1. 题目详情1. 原题链接2. 题目要求3. 基础框架 2. 解题思路1. 思路分析2. 时间复杂度3. 代码实现 1. 415 字符串相加 简单 1. 题目详情 给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和并同样以字符串形式返回。…

LeetCode题:88合并两个有序数组,283移动零,448找到所有数组中消失的数字

目录 88合并两个有序数组 1、题目要求 2、解题思路 (1)、暴力解法: (2)、双指针,使用第三数组的解法: 3、代码展示 (1)、暴力解法: (2&am…

画时钟(turtle库)

思路: 总体来看,分为两个部分:固定的表盘,和不断刷新的指针(和时间显示) 固定的表盘 我的表盘长这个样子: 分为三个部分:60个dot点(分、秒),12条…

漏洞复现--用友 畅捷通T+ .net反序列化RCE

免责声明: 文章中涉及的漏洞均已修复,敏感信息均已做打码处理,文章仅做经验分享用途,切勿当真,未授权的攻击属于非法行为!文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直…

树莓派基金会近日发布了新版基于 Debian 的树莓派操作系统

导读树莓派基金会(Raspberry Pi Foundation)近日发布了新版基于 Debian 的树莓派操作系统(Raspberry Pi OS),为树莓派单板电脑带来了新的书虫基础和一些重大变化。 新版 Raspberry Pi OS 的最大变化是它现在基于最新的…

竞赛选题 深度学习图像修复算法 - opencv python 机器视觉

文章目录 0 前言2 什么是图像内容填充修复3 原理分析3.1 第一步:将图像理解为一个概率分布的样本3.2 补全图像 3.3 快速生成假图像3.4 生成对抗网络(Generative Adversarial Net, GAN) 的架构3.5 使用G(z)生成伪图像 4 在Tensorflow上构建DCGANs最后 0 前言 &#…

《数字图像处理-OpenCV/Python》连载(33)使用掩模图像控制处理区域

**本书京东优惠购书链接:https://item.jd.com/14098452.html** **本书CSDN独家连载专栏:https://blog.csdn.net/youcans/category_12418787.html** 第 5 章 图像的算术运算 在OpenCV中,图像是以Numpy数组格式存储的,图像的算术运…

大数据Flink(一百零三):SQL 表值聚合函数(Table Aggregate Function)

文章目录 SQL 表值聚合函数(Table Aggregate Function) SQL 表值聚合函数(Table Aggregate Function) Python UDTAF,即 Python TableAggregateFunction。Python UDTAF 用来针对一组数据进行聚合运算,比如同一个 window 下的多条数据、或者同一个 key 下的多条数据等,与…

grafana InfluxDB returned error: error reading influxDB 400错误解决

问题: 如图提示错误解决 确认自己的docker容器是否配置了以下3个字段 DOCKER_INFLUXDB_INIT_USERNAMExxx DOCKER_INFLUXDB_INIT_PASSWORDyyy DOCKER_INFLUXDB_INIT_ADMIN_TOKENzzz 如果有,在grafana中需要添加header配置Header: Authorization , Value…

docker应用部署---nginx部署的配置

1. 搜索nginx镜像 docker search nginx2. 拉取nginx镜像 docker pull nginx3. 创建容器,设置端口映射、目录映射 # 在/root目录下创建nginx目录用于存储nginx数据信息 mkdir ~/nginx cd ~/nginx mkdir conf cd conf# 在~/nginx/conf/下创建nginx.conf文件,粘贴下…

VScode 调试 linux内核

VScode 调试 linux内核 这里调试的 linux 内核是通过 LinuxSD卡(rootfs)运行的内核 gdb 命令行调试 编辑 /home/tyustli/.gdbinit 文件,参考 【GDB】 .gdbinit 文件 set auto-load safe-path /home/tyustli/code/open_source/kernel/linux-6.5.7/.gdbinit在 lin…

C笔记:引用调用,通过指针传递

代码 #include<stdio.h> int max1(int num1,int num2) {if(num1 < num2){num1 num2;}else{num2 num1;} } int max2(int *num1,int *num2) {if(num1 < num2){*num1 *num2; // 把 num2 赋值给 num1 }else{*num2 *num1;} } int main() {int num1 0,num2 -2;int…

【AD9361 数字接口CMOS LVDSSPI】D 串行数据之SPI

【AD9361 数字接口CMOS &LVDS&SPI】D部分 接续 【AD9361 数字接口CMOS &LVDS&SPI】A 并行数据之CMOS 串行外设接口&#xff08;SPI&#xff09; SPI总线为AD9361的所有数字控制提供机制。每个SPI寄存器的宽度为8位&#xff0c;每个寄存器包含控制位、状态监视…

进阶设计一(DDR3)——FPGA学习笔记<?>

一.简介 DDR3 SDRAM&#xff0c;以其单位存储量大、高数据带宽、读写速度快、价格相对便宜等优点 吸引了大批客户&#xff0c;占领市场较大份额。同时&#xff0c;作为内存条中不可缺少的一部分&#xff0c;DDR3 SDRAM 在计算机领域也占有一席之地。 要掌握 DDR3 SDRAM…