研表究明,文字的序顺并不定一能响影GPT-4读阅

深度学习自然语言处理 原创
作者:yy

6ce4444a6059e054c24382844817c420.png

很多年前,你一定在互联网上看过这张图,展示了人脑能够阅读和理解打乱顺序的单词和句子!而最近东京大学的研究发现,大语言模型(LLMs) 尤其是 GPT-4,也可以读懂打乱顺序的单词,甚至是在人脑都难以分辨的情况下

接下来就让我们来具体介绍一下这个违反直觉的发现吧!3ea34e56077bdc98ec196ec1d765f1d2.png

论文:Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text

地址:https://arxiv.org/pdf/2311.18805.pdf

代码:https://github.com/ccqq77/unnatural-error-correction.

前言

Typoglycemia” 这个词曾在互联网上风靡一时,它是由“打字错误(Typo)”和“低血糖(Hypoglycemia)” 这两个单词拼凑而成。通俗地讲,”Typoglycemia“ 指一个有趣的现象:只要每个单词的首尾字母正确,即使中间的字母顺序是完全打乱的,也不影响人类的正常阅读与理解。

而这篇研究发现,大多数强大的 LLMs 都具备类似于 “typoglycemia” 的超能力。更令人惊讶的是,作者发现,即使每个单词中的所有字母都是乱序, 仍有且并仅有 GPT-4 能近乎完美地从乱序中恢复原始句子,将编辑距离减少 95%!尽管乱码文本对输入 tokenization 造成了严重破坏,但 LLMs 仍能表现出如此强大的恢复能力!

任务设计

为了评估 LLMs 处理乱序文本的能力,作者提出了 Scrambled Bench ,包含两个任务(如图所示)。

9e36bc0762ba93f47a3606fe95e3c2b9.png

1. 乱序句子恢复(ScrRec)

提供包含乱序词的句子,要求LLMs恢复出原始句子。这项任务可以直接评估 LLMs 识别和重建句子中乱序词的能力。

2. 乱序问题解答(ScrQA)

如果模型在 ScrRec 任务中表现不佳,可能有两个原因:

(1) 模型难以遵循指令;

(2) 模型无法恢复句子。

为了区分这两种情况,作者设计了 ScrQA 任务来评估模型在乱序语境下完成标准任务(即 QA )的能力。具体而言,作者将包含了回答问题所需基本信息的文本打乱,并根据模型表现的差异对其进行评估。

数据集构建

RealtimeQA(2022年)

RealtimeQA 是一个动态的问题解答数据集,每周都会公布有关近期新闻的问题。为了缓解数据污染,作者从 RealtimeQA 中收集最近的数据(2023/03/17-2023/08/04),并对证据句进行加扰处理,以构建 ScrRec 和 ScrQA 任务的样本。

DREAM(2019年)

DREAM 是一个基于对话的多选阅读理解数据集。作者对每个问题的对话部分进行了加扰处理。

AQuARAT(2017年)

AQuA-RAT 是一个数学单词问题数据集,需要多步推理才能解决。作者采用了 few-shot Chain of Thought(CoT),并对主问题和示例问题都加入扰动。

对于每个数据集,作者使用不同的扰动类型和比例生成扰动文本。

1. 随机扰动(RS)

对于每个句子,随机选择一定比例(20%、50%、100%)的单词,并随机扰乱每个选定单词中的所有字母(阿拉伯数字保持不变)。

2. 保留第一个字母(KF)

保持每个单词的第一个字母不变,并随机扰乱其他位置的字母。

3. 保留首尾字母(KFL)

保持每个单词的第一个和最后一个字母不变,并随机扰乱其他位置的字母。

评价指标

Recovery Rate (RR)

对于 ScrRec 任务,原始句子与恢复句子之间的平均编辑距离(ED)是一种自然的性能度量指标。

此外,作者还定义了 Recovery Rate(RR)来衡量 ED 在恢复的句子中所占的比例,从而可以更简明地比较不同设置下模型的性能:

Relative Performance Gain (RPG)

对于 ScrQA 而言,accuracy 是衡量性能的一个自然指标。但是由于不同模型在处理原始问题时的能力存在差异,很难比较不同模型的性能。

因此,作者引入了 Relative Performance Gain(RPG),将评估重点放在与原始文本相比,模型理解扰动文本的能力上:

实验设置

作者评估了最强大的闭源 LLM,包括 text-davinci-003、GPT-3.5-turbo 和 GPT-4,以及 Falcon 系列、Llama-2 系列、MPT 系列、UL2 系列、T5 系列等开源模型。对于各数据集和任务,采取了以下设置:

  • RealtimeQA

    • ScrRec:zero-shot + few-shot

    • ScrQA:zero-shot

  • DREAM

    • ScrQA :zero-shot

  • AQuA

    • ScrQA :few-shot COT

结果分析

由于篇幅等原因,仅展示性能最好的五种 LLM(即 GPT4、GPT-3.5-turbo、text-davinci-003、Falcon-180b 和 Llama-2-70b)的结果。

结果 1:扰动类型

实验结果表明,在 KFL 设置下,各模型之间的性能差距不大。然而,除 GPT-4 外,随着扰动类型难度的增加(KFL ➡ KF ➡ RS),模型性能明显下降。相比之下,GPT-4 的性能始终保持在较高水平,而与扰动类型无关。在 ScrRec 任务上,GPT-4 的 RR 在所有设置下都保持在 95% 以上。在 ScrQA 任务上,GPT-4 的表现一直优于其他模型,即使扰动的难度增加,也能保持较高的准确率。

5e161448b36e531d3c8b3d0653a6aa7a.png

结果 2:扰动比例

随着扰动比例的增加,text-davinci-003、Falcon-180b 和 Llama-2-70b 的 RR 会降低。GPT-3.5-turbo 和 GPT-4 的 RR 变化不大。GPT-4 的表现远远优于其他模型,大多数设置下的 RR 都高于 95%(20% 扰动率除外)。

所有模型的 RPG 都随着扰动比例的增加而下降但 GPT-4 即使在 100%加扰证据的情况下,仍能保持 87.8% 的原有性能。随着扰动比例的增加,不同模型之间的性能差距也越来越大。

6854ee8aab8f07723655d2f5cb9e8fe4.png

结果 3:其他数据集

在加扰的 DREAM 数据集上,除了评估整体性能,作者还评估了不同类别问题的性能。结果显示,GPT-4 与其他模型间的差异比在 RealtimeQA 上更加突出,这可能由于 DREAM 需要对较长文本进行深层次理解。与其他类别相比,模型在算术问题上的表现往往更容易受到乱序文本的影响,即使是 GPT-4 也是如此。

8db73ca654aa74440e2af7b2af4cac33.png

下表展示了在加扰的 AQuA-RAT 数据集上进行 4-shot CoT 设置的实验结果。结果表明,加扰示例的影响相对较小。但当主问题的加扰率达到 100%时,GPT-3.5-turbo 和 text-davinci-003 的性能明显下降,而 GPT-4 基本保持了最初的性能

70b7d9a29818394e516ca87485ccbbf4.png

结论

本研究提出了 Scrambled Bench 来衡量 LLMs 处理乱序文本的能力,包括两个任务(乱序句子恢复 ScrRec 和乱序问题解答 ScrQA),并基于 RealtimeQA、DREAM 和 AQuA-RAT 构建了乱序数据集。尽管乱序文本显著改变了 tokenization,大多数强大的 LLMs 仍能在不同程度上处理乱序文本,不过它们在面对极端乱序的文本时会显得力不从心。在这两项任务中,GPT-4 都表现出了良好的性能,显著优于其他模型。

未来的改进空间也很大。首先,对于 LLMs,还有多种方法可以破坏单词的 tokenization(如插入字母、替换字母等)。其次,ScrRec 和 ScrQA 这两项任务适用于多种数据集且易于扩展分析。最后,由于无法直接访问闭源模型,作者没有总结出 LLMs 能够处理这些任务的具体原因。特别地,GPT-4 可以近乎完美地完成任务,其背后的原因值得深究!


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

e71b4e86be2e04d14a19fcd8ef9afda0.png

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/234661.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32 标准外设SPL库、硬件抽象层HAL库、低层LL库区别?

1、STM32 之一 HAL库、标准外设库、LL库_ZCShou的博客-CSDN博客_ll库(仔细阅读) 2、STM32标准外设库、 HAL库、LL库 - King先生 - 博客园 3、STM32 之 HAL库_戈 扬的博客(仔细阅读) 4、STM32 LL 为什么比 HAL 高效&#xff1…

文档或书籍扫描为 PDF:ScanPapyrus Crack

ScanPapyrus 可让您快速轻松地将文档或书籍扫描为 PDF,批处理模式使扫描过程快速高效,自动处理书籍并将其拆分为单独的页面 用于快速扫描文档、书籍或打印照片的扫描仪软件 快速扫描文档 使用此扫描仪软件,您无需在扫描仪和计算机之间来回移动…

架构LNMP

目录 1.安装Nginx服务 2.安装 MySQL 服务 3.安装配置 PHP 解析环境 4.部署 Discuz!社区论坛 Web 应用 1.安装Nginx服务 实验准备 systemctl stop firewalld systemctl disable firewalld setenforce 0 安装依赖包 yum -y install pcre-devel zlib-devel gcc…

【Python】Selenium自动化测试框架

设计思路 本文整理归纳以往的工作中用到的东西,现汇总成基础测试框架提供分享。 框架采用python3 selenium3 PO yaml ddt unittest等技术编写成基础测试框架,能适应日常测试工作需要。 1、使用Page Object模式将页面定位和业务操作分开&#xff0…

Gilisoft Video Editor——迈出剪辑的第一步

今天博主分享的是又一款剪辑软件——视频剪辑手(GiliSoft Video Editor),对剪辑视频感兴趣的小伙伴千万不要错过。这是一款专门用于视频剪辑的软件,功能比较简单,相比于专业的pr是比不了的,但是制作一些简单…

C/C++ 编程规范总结

目录 前言 一、编程规范的作用 二、规范的三种形式 三、规范的内容 1. 基本原则 原则1-1 原则1-2 原则1-3 原则1-4 原则1-5 原则1-6 原则1-7 2. 布局 规则2-1-1 规则2-1-2 规则2-1-3 规则2-1-4 规则2-1-5 规则2-1-6 规则2-2-1 规则2-2-2 规则2-2-3 建议2…

掌握iText:轻松处理PDF文档-基础篇

关于iText iText是一个强大的PDF处理库,可以用于创建、读取和操作PDF文件。它支持PDF表单、加密和签署等操作,同时支持多种字体和编码。maven的中央仓库中的最新版本是5.X,且iText5不是完全免费的,但是基础能力是免费使用的&…

pWnOS v2.0

该靶机绑定了静态IP地址 10.10.10.100,所以这里需要修改我们的网络配置!整个网段修改为10.10.10.0/24 信息收集 主机存活探测 arp-scan -l 端口信息探测 nmap -sT --min-rate 10000 -p- 10.10.10.100 (只开放了22 80端口) 服务…

2023-12-10 LeetCode每日一题(爬楼梯)

2023-12-10每日一题 一、题目编号 70. 爬楼梯二、题目链接 点击跳转到题目位置 三、题目描述 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 示例 1: 示例 2: 提…

【Python】手把手教你用tkinter设计图书管理登录UI界面(三)

上一篇:【Python】手把手教你用tkinter设计图书管理登录UI界面(二)-CSDN博客 下一篇: 紧接上一篇文章,继续完善项目功能:用户登录。由于老王的注册部分有亿点点复杂,还没完成,但是…

期末速成数据库极简版【分支循环函数】(4)

目录 全局变量&局部变量 局部变量定义declare 局部变量赋值select 局部变量赋值select 【1】分支结构IF 【2】分支结构CASE 简单CASE语句 搜索CASE语句 【3】循环结构While 【4】系统函数 常用字符串函数 时间函数 【5】自定义函数—标量函数 函数创建 函…

oops-framework框架 之 Excel转Json

引擎: CocosCreator 3.8.0 环境: Mac Gitee: oops-plugin-excel-to-json 注: 作者dgflash的oops-framework框架QQ群: 628575875 配置 作者dgflash在oops-framework的框架中,提供了关于Excel数据表转换为Json和TypeSc…

typora中显示除号的问题

问题 在latex中“除号( \div )” 通常用 \div。但在typora中写数学公式时,却发现 “除号” 如果使用 \div 并没有显示为 “ \div ”,而是 “ ∇ ⋅ \nabla \cdot ∇⋅ ”。 原因 typora中,\div 显示为 ∇ ⋅ \…

Html转PDF,前端JS实现Html页面导出PDF(html2canvas+jspdf)

Html转PDF,前端JS实现Html页面导出PDF(html2canvasjspdf) 文章目录 Html转PDF,前端JS实现Html页面导出PDF(html2canvasjspdf)一、背景介绍二、疑问三、所使用技术html2canvasjspdf 四、展示开始1、效果展示…

Java第21章网络通信

网络程序设计基础 网络程序设计编写的是与其他计算机进行通信的程序。Java 已经将网络程序所需要的元素封 装成不同的类,用户只要创建这些类的对象,使用相应的方法,即使不具备有关的网络支持,也可 以编写出高质量的网络…

pyinstaller 常用命令参数

PyInstaller是一个用于将Python程序打包成独立的可执行文件的工具。它可以将Python代码和所有依赖的库、资源文件等打包成一个单独的可执行文件,方便在不安装Python解释器的环境中运行。PyInstaller提供了许多参数,用于配置打包过程和生成的可执行文件的…

NSS [NSSCTF 2022 Spring Recruit]babyphp

NSS [NSSCTF 2022 Spring Recruit]babyphp 考点&#xff1a;PHP特性 开局源码直接裸奔 <?php highlight_file(__FILE__); include_once(flag.php);if(isset($_POST[a])&&!preg_match(/[0-9]/,$_POST[a])&&intval($_POST[a])){if(isset($_POST[b1])&&…

java--Date、SimpleDateFormat时间类,JDK8之前的

1.Date 代表的是日期和时间 2.SimpleDateFormat 代表简单日期格式化&#xff0c;可以用来把日期对象、时间毫秒值格式化成我们想要的形式。 3.时间格式常见符号 4.SimpleDateFormat解析字符串时间成为日期对象

Redis之IO多路复用模型

Redis之IO多路复用模型 多路复用要解决的问题 解决同步阻塞IO模型下大量线程创建导致资源的浪费问题 同步阻塞IO模式的特点就是用一个进程来处理一个网络连接(一个用户请求)&#xff0c;比如一段典型的示例代码如下。 直接调用 recv 函数从一个 socket 上读取数据。 int main…

语义分割 简介及数据集简介

参考文章 MS COCO数据集介绍以及pycocotools简单使用-CSDN博客