【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark

论文:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

⭐⭐⭐⭐

arXiv:1804.07461, ICLR 2019

Site: https://gluebenchmark.com/

文章目录

    • 一、论文速读
    • 二、GLUE 任务列表
      • 2.1 CoLA(Corpus of Linguistic Acceptability)
      • 2.2 SST-2(The Stanford Sentiment Treebank)
      • 2.3 MRPC(The Microsoft Research Paraphrase Corpus)
      • 2.4 STSB(The Semantic Textual Similarity Benchmark)
      • 2.5 QQP(The Quora Question Pairs)
      • 2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)
      • 2.7 QNLI(Qusetion-answering NLI)
      • 2.8 RTE(The Recognizing Textual Entailment datasets)
      • 2.9 WNLI(Winograd NLI)

一、论文速读

GLUE benchmark 包含 9 个 NLU 任务来评估 NLP 模型的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks,语言均为英语。

二、GLUE 任务列表

下图是各个任务的一个统计:

在这里插入图片描述

2.1 CoLA(Corpus of Linguistic Acceptability)

单句子分类任务。每个 sentence 被标注为是否合乎语法的单词序列,是一个二分类任务。

样本个数:训练集 8551 个,开发集 1043 个,测试集 1063 个。

label = 1(合乎语法) 的 examples:

  • She is proud.
  • she is the mother.
  • Will John not go to school?

label = 0(不合乎语法) 的 examples:

  • Mary wonders for Bill to come.
  • Yes, she used.
  • Mary sent.

注意到,这里面的句子看起来不是很长,有些错误是性别不符,有些是缺词、少词,有些是加s不加s的情况,各种语法错误。但我也注意到,有一些看起来错误并没有那么严重,甚至在某些情况还是可以说的通的。

2.2 SST-2(The Stanford Sentiment Treebank)

单句子分类任务:给定一个 sentence(电影评论中的句子),预测其情感是 positive 还是 negative,是一个二分类任务。

样本个数:训练集 67350 个,开发集 873 个,测试集 1821 个。

label = 1(positive)的 examples:

  • two central performances
  • against shimmering cinematography that lends the setting the ethereal beauty of an asian landscape
  • a better movie

label = 0(negative)的 examples:

  • so pat it makes your teeth hurt
  • eastwood 's dirty harry period .
  • faced with the possibility that her life is meaningless , vapid and devoid of substance , in a movie that is definitely meaningless , vapid and devoid of substance

注意到,由于句子来源于电影评论,又有它们情感的人类注释,不同于CoLA的整体偏短,有些句子很长,有些句子很短,长短并不整齐。

2.3 MRPC(The Microsoft Research Paraphrase Corpus)

相似性和释义任务:给定两个 sentence(来自于在线新闻),判断两个句子在语义上是否等效。

样本个数:训练集 3668 个,开发集 408 个,测试集 1725 个。

label = 1(正样本,两个 sentence 语义相同)的 examples:

  • Example 1:
    • The largest gains were seen in prices, new orders, inventories and exports.
    • Sub-indexes measuring prices, new orders, inventories and exports increased.
  • Example 2:
    • Trading in Loral was halted yesterday; the shares closed on Monday at $ 3.01.
    • The New York Stock Exchange suspended trading yesterday in Loral, which closed at $ 3.01 Friday.

label = 2(负样本,两个 sentence 语义不同)的 examples:

  • Example 1:
    • Earnings per share from recurring operations will be 13 cents to 14 cents.
    • That beat the company 's April earnings forecast of 8 to 9 cents a share.
  • Example 2:
    • He beat testicular cancer that had spread to his lungs and brain.
    • Armstrong, 31, battled testicular cancer that spread to his brain.

本任务的数据集,包含两句话,每个样本的句子长度都非常长,且数据不均衡,正样本占比 68%,负样本仅占 32%。

2.4 STSB(The Semantic Textual Similarity Benchmark)

相似性和释义任务。预测两个 sentence 的相似性得分,评分为 0~5 的一个 float。

样本个数:训练集 5749 个,开发集 1379 个,测试集 1377 个。

  • Example 1:
    • A plane is taking off.
    • An air plane is taking off.
    • score:5.000
  • Example 2:
    • A man is playing a large flute.
    • A man is playing a flute.
    • score:3.800

整体句子长度适中偏短,且均衡。

2.5 QQP(The Quora Question Pairs)

相似性和释义任务。预测两个 question 在语义上是否等效,是二分类任务。

样本个数:训练集 363,870 个,开发集 40,431 个,测试集 390,965 个。

label = 1(positive,等效)的 Examples:

  • Example 1:
    • How can I improve my communication and verbal skills?
    • What should we do to improve communication skills?
  • Example 2:
    • What has Hillary Clinton done that makes her trustworthy?
    • Why do Democrats consider Hillary Clinton trustworthy?

label = 0(negative,不等效):

  • Example 1:
    • Why are you so sexy?
    • How sexy are you?
  • Example 2:
    • Which programming languages are common to develop in the area of gamification?
    • Who is the worst Director in the history of MNIT/MREC?

任务类似于 MRPC,这个任务的正负样本也不均衡,负样本占 63%,正样本是 37%,而且这个训练集、测试集都非常大,这里的测试集比其他训练集都要多好几倍。

2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)

自然语言推断任务。给定 premise 和 hypothesis 两个 sentence,预测两者关系:entailment or condradiction or neutral。

样本个数:训练集392, 702个,开发集dev-matched 9, 815个,开发集dev-mismatched9, 832个,测试集test-matched 9, 796个,测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本,所以又分为了matched和mismatched两个版本的数据集,matched指的是训练集和测试集的数据来源一致,mismached指的是训练集和测试集来源不一致。

  • Example 1:
    • premise:The man is playing a guitar.
    • hypothesis:The man is singing while playing the guitar.
    • label:neutral
    • 前提描述了一个男人正在弹吉他,而假设则进一步提出这个男人在弹吉他的同时还在唱歌。由于前提没有提及唱歌这一行为,所以我们不能从前提直接推断出假设是正确的(非蕴含),同时也不能断定它是错误的(非矛盾)。因此,这个文本对的关系被标记为中立。

总体训练集很充足,GLUE 论文作者使用并推荐 SNLI 数据集作为辅助训练数据。

2.7 QNLI(Qusetion-answering NLI)

自然语言推断任务。给定一个 question 和来自 Wikipedia 的 sentence,判断两者关系:蕴含 or 不蕴含。

数据是从 SQuAD 1.0(The Stanford Question Answering Dataset)中转换而来。

样本个数:训练集104, 743个,开发集5, 463个,测试集5, 461个。

Example:

  • Which collection of minor poems are sometimes attributed to Virgil?
  • A number of minor poems, collected in the Appendix Vergiliana, are sometimes attributed to him.
  • label: 1(蕴含)

总体就是问答句子组成的问答对,一个是问题,一个是句子信息,后者包含前者的答案就是蕴含,不包含就是不蕴含,是一个二分类。

2.8 RTE(The Recognizing Textual Entailment datasets)

自然语言推断任务。判断两个 sentence 是否互为蕴含,二分类任务。

数据来源于一系列的年度文本蕴含挑战赛。

样本个数:训练集2, 491个,开发集277个,测试集3, 000个。

Example:

  • Herceptin was already approved to treat the sickest breast cancer patients, and the company said, Monday, it will discuss with federal regulators the possibility of prescribing the drug for more breast cancer patients.
  • Herceptin can be used to treat breast cancer.
  • label: 1(蕴含)

2.9 WNLI(Winograd NLI)

自然语言推断任务。预测两个句子对是否有关(蕴含、不蕴含),二分类任务。

数据来源于指代消解比赛。训练集两个类别是均衡的,测试集是不均衡的,65% 是不蕴含。

样本个数:训练集635个,开发集71个,测试集146个。

Example:

  • Bill passed the half-empty plate to John because he was hungry.
  • Bill was hungry.
  • label: 0(不愿韩)

这个数据集是数量最少,训练集600多个,测试集才100多个。同时目前GLUE上这个数据集还有些问题。

参考文章:

  • GLUE 基准数据集介绍 | 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/756896.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

pandas合并,拆分excel

目录 一:按照列进行拆分 二:将某几列的数据写入新excel 三:合并两个sheet数据到一个excel的一个sheet中 我们以商品销售明细为例,说明下excel的数据拆分和合并,我们的原始数据如下: 一:按照列进行拆分 现在我们需要统计下是否配送和支付方式为维度进行分组以后得数据…

【名企专访】|格行自有格行的骄傲,格行骄傲在哪?格行随身wifi火爆出圈的真实内幕!

最近刷视频在一个随身wifi的帖子下边看到,有个网友这样回复:“随身wifi行业真的该整治了,到处是跑路的,夸大宣传的,本来在线上买就是图个方便,现在搞得不敢买。本来利民的产品,被搞得乌烟瘴气&a…

【推荐】Prometheus+Grafana企业级监控预警实战

新鲜出炉!!!PrometheusGrafanaAlertmanager springboot 企业级监控预警实战课程,从0到1快速搭建企业监控预警平台,实现接口调用量统计,接口请求耗时统计…… 详情请戳 https://edu.csdn.net/course/detai…

Clonable接口和拷贝

Hello~小伙伴们!本篇学习Clonable接口与深拷贝,一起往下看吧~(画图水平有限,两张图,,我真的画了巨久,求路过的朋友来个3连~阿阿阿~~~) 目录 1、Clonable接口概念 2、拷贝 2、1浅拷贝 2、2深拷贝 1、Clon…

生命在于学习——Python人工智能原理(2.3.3)

三、Python的数据类型 3.2 Python的组合数据类型 特点:表示多个元素的组合,可以包含不同类型的元素,甚至是其他的组合数据类型。 在内存中通常需要额外的空间来存储元素间的关系。 组合数据类型能够将多个同类型或不同类型的数据组织起来&a…

MAS0902量产工具分享,MAS0902A开卡教程,MAS0901量产工具下载

MAS0902和MAS1102都是基于SATA3.2技术开发的DRAM-less SSD控制芯片,简单来说就是SATA协议无缓存主控。下面是我摸索的麦光黑金300 240G SSD开卡修复简易教程,也就是MAS0902量产过程: 注意:开卡转接线必须要用ASM1153E或JMS578主控…

Linux部署Java项目至云服务器

文章目录 1.服务器环境2.发布部署过程2.1 执行SQL脚本2.2 修改代码中数据源的配置2.3 修改配置中的日志级别与日志文件路径2.4 打包Java程序2.5 上传到服务器2.6 后台运行2.7 服务器开放对应的端口2.8 访问验证 1.服务器环境 要将我们的项目部署到云服务器上我们就需要先有一个…

独一无二的设计模式——单例模式(python实现)

1. 引言 大家好,今天我们来聊聊设计模式中的“独一无二”——单例模式。想象一下,我们在开发一个复杂的软件系统,需要一个全局唯一的配置管理器,或者一个统一的日志记录器;如果每次使用这些功能都要创建新的实例&…

SpringCloud中复制模块然后粘贴,文件图标缺少蓝色方块

再maven中点击+号,把当前pom文件交给maven管理即可

【UE 网络】RPC远程过程调用 入门篇

目录 0 引言1 RPC基本概念1.1 定义1.2 分类 2 RPC的使用2.1 Client RPC2.2 Server RPC2.3 Multicast RPC 🙋‍♂️ 作者:海码007📜 专栏:UE虚幻引擎专栏💥 标题:【UE 网络】RPC远程过程调用 入门篇❣️ 寄语…

汇聚荣拼多多运营好吗?

在当前电商行业竞争激烈的背景下,拼多多凭借其独特的商业模式和市场定位迅速崛起,成为众多商家和品牌争相入驻的平台。对于“汇聚荣拼多多运营好吗?”这一问题,答案是肯定的。拼多多不仅提供了一个广阔的市场空间,还通过其创新的…

如何在 SQL 中删除一条记录?

如何在 SQL 中删除一条记录? 在 SQL 中,您可以使用DELETE查询和WHERE子句删除表中的一条记录。在本文中,我将向您介绍如何使用DELETE查询和WHERE子句删除记录。我还将向您展示如何一次从表中删除多条记录 如何在 SQL 中使用 DELETE 这是使…

【多维动态规划】Leetcode 97. 交错字符串【中等】

交错字符串 给定三个字符串 s1、s2、s3,请你帮忙验证 s3 是否是由 s1 和 s2 交错 组成的。 两个字符串 s 和 t 交错 的定义与过程如下,其中每个字符串都会被分割成若干 非空 子字符串 子字符串 是字符串中连续的 非空 字符序列。 s s1 s2 … snt…

40V 60V 80V 100V 400V高压LDO三端稳压器选择,技术参数

40V 60V 80V 100V 400V高压LDO三端稳压器选择,技术参数

网页如何快速被收录?

其实就是要要吸引搜索引擎爬虫更快地抓取你的网页,想让爬虫爬取网页,首要做的自然是创建并提交站点地图。站点地图是搜索引擎了解你网站结构的重要工具。它可以帮助爬虫更快地发现和抓取你网站上的所有重要页面。通过Google Search Console提交站点地图&…

Webpack: 构建微前端应用

Module Federation 通常译作“模块联邦”,是 Webpack 5 新引入的一种远程模块动态加载、运行技术。MF 允许我们将原本单个巨大应用按我们理想的方式拆分成多个体积更小、职责更内聚的小应用形式,理想情况下各个应用能够实现独立部署、独立开发(不同应用甚…

Unity保存玩家的数据到文件中(Unity的二进制序列化)

文章目录 文章运行环境什么是二进制序列化读写文件构造函数 自定义二进制序列化 文章运行环境 Unity2022 什么是二进制序列化 Unity中的二进制序列化是一种将游戏对象或数据结构转换为二进制格式的过程,以便于存储或网络传输。这使数据能够以高效的方式保存&…

鸿蒙开发设备管理:【@ohos.geolocation (位置服务)】

位置服务 说明: 本模块首批接口从API version 7开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import geolocation from ohos.geolocation;geolocation.on(‘locationChange’) on(type: ‘locationChange’, request: L…

容器进程

一、容器进程和宿主机进程的关系 容器在进程空间上和宿主机是隔离的,每创建一个容器,该容器都有一个独属的进程空间简称PID NameSpace。但是容器本质也是一个进程,自然是由其父进程创建的,这个可以使用ps aux命令验证。 | 容器视…

Leetcode - 133双周赛

目录 一,3190. 使所有元素都可以被 3 整除的最少操作数 二,3191. 使二进制数组全部等于 1 的最少操作次数 I 三,3192. 使二进制数组全部等于 1 的最少操作次数 II 四,3193. 统计逆序对的数目 一,3190. 使所有元素都…