EMNLP2023 | 基于显式证据推理的few-shot关系抽取CoT

c2575ba60aebe92ac5b8a2138fa3a204.png

深度学习自然语言处理 原创
作者:wkk

论文:Chain of Thought with Explicit Evidence Reasoning for Few-shot Relation Extraction
地址:https://arxiv.org/abs/2311.05922

摘要

Few-shot关系提取涉及使用有限数量的注释样本识别文本中两个特定实体之间的关系类型。通过应用元学习和神经图技术,已经出现了对这个问题的各种解决方案,这些技术通常需要训练过程进行调整。

最近,上下文学习策略已被证明在没有训练的情况下显示出显著的结果。很少有研究利用上下文学习进行zero-shot信息提取。不幸的是,推理的证据在思维链提示的构建过程中没有被考虑或隐式建模。

本文提出了一种使用大型语言模型进行Few-shot关系提取的新方法,称为CoT-ER,具有显式证据推理的思维链。特别是,CoT-ER首先诱导大型语言模型使用特定任务和概念级知识生成证据。然后将此证据明确纳入思维链提示以进行关系提取。实验结果表明,在FewRel 1.0和FewRel 2.0数据集上,与完全监督(具有100%训练数据)的最先进方法相比,本文的CoT-ER方法(具有0%训练数据)实现了具有竞争力的性能。

简介

关系提取(Relation Extraction, RE)旨在基于上下文语义信息识别两个给定实体之间的关系。

当标记的数据不足时,RE模型的性能往往会显著下降。few-shot关系提取任务需要使用有限数量的注释训练数据。最近,许多研究人员通过使用元学习和神经图技术来解决这个问题,通过在大型数据集上对模型进行元训练或结合外部知识,取得了令人满意的结果。

近年来,预训练的LLMs,如GPT系列模型,已经显示出显著的上下文学习(LLM可以有效地执行各种任务,而无需参数优化,这一概念被称为上下文学习)能力,在许多NLP任务中取得了出色的结果。在上下文学习的范式中,LLM在许多NLP任务中表现出与标准的完全监督方法相比的竞争性能,即使只提供了几个示例作为提示中的few-shot示例。

思维链(Chain-of-Thought, CoT)提示方法在数学问题和常识推理中从LLM引出令人印象深刻的推理能力。在RE任务中,存在指导LLM确定关系标签的推理过程。然而,缺乏填补这一空白的研究。尽管GPT-RE引入了一种标签诱导推理方法,通过提示LLM仅基于给定的标签生成合适的推理过程。与特定的few-shot示例检索方法相比,自动生成推理过程的性能改进微乎其微。

本文为FSRE(Few-shot Relation Extraction, FSRE)任务提出了一种新的思想链提示方法:具有显式证据推理的思想链,与FewRel 1.0和FewRel 2.0上的最先进结果相比,获得了具有竞争力的结果。本文的方法采用三步推理方法来解决上述问题。在第一步和第二步中,CoT-ER要求LLM输出与头部和尾部实体相对应的概念级实体,这是RE特定推理的基础。在第三步中,CoT-ER提示LLM提取相关的上下文跨度作为明确建立这两个实体之间特定关系的证据。通过将头部实体、尾部实体和关系标签组合成连贯的句子,LLM可以更语义地确定两个给定实体之间的关系标签,解决了提示方法中关系标签的语义模糊问题。下图展示了Auto-CoT和CoT-ER之间的差异。

1db4e982127bf605e4de8b528ca223a4.png

相关工作

Few-shot Relation Extraction

few-shot关系提取旨在基于有限数量的注释数据预测给定实例中指示的头部和尾部实体之间的语义关系。FewRel是Han等人引入的一个大规模数据集,是第一个在关系提取中探索few-shot学习的数据集。许多方法在缺乏训练数据的情况下,结合外部知识来提高性能。FSRE的另一条研究路线仅依赖于输入文本和提供的关系描述信息,而不包含外部知识。以前的大多数方法通常采用复杂的神经网络设计或引入外部知识,这在现实场景中可能是劳动密集型的。

In-context Learning

GPT-3在上下文学习(In-context Learning, ICL)中已成为NLP中的一种新范式,与微调模型相比,它在各种任务中表现出了竞争力。通过将相关文本信息纳入提示中,将先验知识引入LLM要容易得多。此外,ICL是一种无需训练的方法,直接提示LLM,这意味着它是一种现成的方法,只需在提示中进行一些演示即可轻松应用于各种任务。

最近,大多数研究人员专注于ICL的示例设计,以提高NLP任务的性能,并逐渐发展为两类。演示设计的第一类试图通过从数据集中选择实例并对所选演示实例进行排序来寻求提示中的少量示例的最佳安排。另一类示例设计旨在发现一种有效的提示方法,以释放LLM的潜力。此外,有研究人员通过在给出答案之前手动添加中间推理步骤,揭示了LLM的推理能力,这被称为思维链。

尽管CoT提示方法在许多NLP任务中取得了很好的结果,但它仍然缺乏对RE的相关探索。因此,本文提出了一种新的CoT提示法CoT-ER来填补这一空白。

CoT-ER

本文提出的CoT-ER的概述如下图所示,它由3个组件组成:

  1. Human-Instructed Reasoning Module:旨在通过用人工注释数据提示LLM,将推理过程与支持集中的每个实例相关联。

  2. Similarity Based KNN Retrieval Module:基于相似性的KNN检索模块将根据与查询实例的相似性从支持集中选择具有推理过程的实例,这些实例在最终提示中被视为few-shot示例。

  3. Inference Module:推理模块通过最终提示指示LLM来预测查询实例的关系标签,最终提示将任务指令、few-shot示例和关于实例的问题连接起来。

6cfa4da4c6d7830d4ec9e8d2ee8bd39b.png

Human-Instructed Reasoning Module

由于LLM具有上下文学习的能力,本文提出了一种人工指导的方法来指导LLM使用最少的注释数据执行准确的推理。

CoT-ER设计:为了充分利用LLM中存储的知识并促进逐步推理,引入了一种新的具有概念级知识和明确证据的三步推理框架。在步骤1中,LLM推断与头部实体相关的概念级知识,而步骤2对尾部实体进行同样的操作。通过这些步骤,LLM可以很容易地排除概念实体不正确的选项。步骤3:为了找出在给定的上下文中哪一个关系标签最适合这对实体,明确强调相关的文本跨度作为证据,然后构建一个连贯的表达式,将两个实体和关系标签结合在一起。为了进一步说明三步推理过程,下图中的几个shot示例演示了该推理过程的模板。

9fd2fa49383c912033d2424d291011a8.png

CoT-ER生成:为数据集中的每个关系类注释了一个CoT-ER推理示例作为种子示例。然后,设计了一个适当的提示,使用注释的示例作为few-shot示例演示,以指导LLM为每个支持实例生成类似的推理步骤。每个具有CoT-ER推理步骤的支持实例都将附加到候选集合中。上图显示了为人工指导推理模块设计的类似提示。

Retrieval Module

有研究表明,基于相似性选择few-shot示例会大大改善上下文学习。由于LLM的输入tokens有限,在给定N路K-Shot任务的情况下,单个提示可能无法容纳所有支持实例。在本文中,遵循基于相似性的方法来选择few-shot示例。为了获得特定关系的相似性表示,首先通过合并实体级信息,将输入文本重构为“上下文:[文本]给定上下文,“[头部实体]”和“[尾部实体]”之间的关系是什么?”。然后,利用GPT系列模型“text-embedding-ad-002”作为编码器来获得语义嵌入。随后,计算候选集合中的每个实例与查询实例之间的欧几里得距离。最后,基于候选集合中的M个实例到查询实例的较低欧几里得距离,选择它们作为few-shot示例。

Inference Module

为了创建最终提示,只需将一条任务指令、few-shot示例和一个针对查询实例定制的问题连接起来,使用具有CoT-ER推理的支持实例作为few-shot示例。值得注意的是,LLM在一般情况下有很强的错误输出NULL的倾向。本文中强制LLM选择所提供的关系标签之一,因为没有考虑FewRel数据集中的“无上述”场景示例。

实验

Datasets

有两个标准的few-shot关系提取数据集:FewRel 1.0和FewRel 2.0。

  1. FewRel 1.0由维基百科构建,维基百科由70000个句子组成,注释有100个关系标签,这100个关系标记被分为64/16/20个部分,用于训练/验证/测试集。

  2. FewRel2.0通过引入医学领域的额外验证和测试集扩展了FewRel 1.0,其中包括分别具有1000个实例的10个关系标签和具有1500个实例的15个关系标签。

实验细节

在现实场景中,直接使用固定的、手动注释的示例执行RE任务是合理的,作为每个关系标签的少量镜头演示。为此,通过从预先确定的人工注释CoT-ER数据集中选择few-shot示例来评估性能,该数据集表示为手动CoT-ER。在此设置中,few-shot示例独立于支持集,这意味着LLM将使用较少的注释数据执行RE任务。相反,Auto-CoT-ER利用自动生成的CoT-ER推理过程作为人工指导推理模块中描述的支持集的few-shot示例。

对比模型

本文考虑FSRE任务的两类方法。

100% 训练数据的方法:MTB、CP、HCPR、FAEA、GTPN、GM_GEN和KEFDA。通常,这些方法在FewRel 1.0训练集上训练模型,并在FewRel 1.0、2.0验证和测试集上评估其性能。

0% 训练数据的方法:应用Vanilla-ICL和Auto-CoT作为基线提示格式化方法。这些方法利用一些示例作为演示,并提示LLM执行NLP任务。Vanilla-ICL设计了一个直接结合文本和关系标签的模板,例如“上下文:[文本],给定上下文,[头部实体]和[尾部实体]之间的关系就是[关系标签]”。Auto-CoT通过自动生成的推理步骤扩展了Vanilla-ICL。

在整个实验中,注意到是否要求LLM在最后的回答阶段进行推理可能会导致不一致的结果,如下表所示。此外,利用预先训练的BERT基本模型6和GPT系列模型text-embedding-ada-002作为编码器,直接获得输入文本的表示。对于每个N路K-shot任务,我们通过对属于该类的K instance进行平均来获得每个类的原型。然后,将查询实例的预测标签分配给其原型与查询实例具有最接近欧几里得距离的类。将这两种方法称为Bert-proto和GPT-proto。

5f0f1ffc917ea0eabfa1977503e25796.png 7689d59085ac9b36d816f3ba85ff1b96.png

结果与分析

结果

  1. 与Vanilla-ICL相比,在few-shot场景中,Auto-CoT没有表现出显著的改进。这可能归因于推理过程的低质量,以及由于最大token限制,few-shot演示中的实例数量减少。此外,当涉及到在最终答案中生成推理过程时,具有推理的Auto-CoT优于在FewRel 1.0上直接生成关系标签的版本。然而,在FewRel 2.0上得出了相反的结论。原因可能为:FewRel 1.0从维基百科中提取实例,通常需要常识来进行推理,而FewRel 2.0需要医学相关专业知识,与常识相比,在预训练语料库中所占比例较小。因此,LLM在执行医学领域的推理任务时遇到困难。

  2. 手动CoT-ER和Auto-CoT-ER都优于无训练基线,在few-shot演示中使用的实例更少。表明有必要设计一种针对RE任务的特定CoT提示方法,以便在few-shot场景中获得更好的性能。

  3. CoT-ER提示方法在FewRel 1.0和FewRel 2.0上都比最先进的完全监督方法具有竞争力,并以最少的人工超过了大多数完全监督方法。这表明,当提供高质量的关系信息和精心设计的推理过程时,GPT系列LLM有可能击败以前的完全监督方法。

消融CoT-ER

合并实体信息是否对CoT-ER有显著好处?本文进行了消融实验,以证明三步推理过程的必要性。在这个实验中,去掉了第一步和第二步,并将性能与Auto-CoT reasoning进行了比较。出于公平考虑,使用Auto-CoT-ER实现了这个实验,它还采用了LLM自动生成的推理过程。由于最大输入和输出token的限制,将消融实验的few-shot演示中的实例数量设置为13。结果如下图所示。

442fc3b77987c2bbb93c7e7e9403bf06.png

结果表明:

  1. 除第一步和第二步后,Auto-CoT-ER的性能显著下降,在FewRel 1.0和FewRel 2.0上的精度分别降低了3.4、2.2、1.8、2.9和5.2、6、5.3、7.6。这意味着实体类型的更高层次抽象,特别是概念级实体,有利于LLM在few-shot场景中执行RE任务。

  2. CoT-ER的第三步是将支持实例与Auto-CoT相比更简单的推理过程配对,但它在某些具有挑战性的场景中实现了卓越的性能。这一发现表明,关系标签提供的语义信息比低质量的推理信息更有利于LLM。

CoT-ER稳定性实验

本文对提出的CoT-ER进行了两项稳定性实验。

  1. Different Random Seeds for Task Sampling:由于“text-davinci-003”的成本很高,本文对数量相对较少的查询进行了采样测试,特别是每个N路K-Shot任务的查询数量为100×N。为此,使用8个随机种子对CoT-ER和Vanilla-ICL进行了评估,用于N路K-Shot任务采样。下表中显示了FewRel 2.0的平均值±标准偏差的实验结果。值得注意的是,CoT-ER在所有N路K-shot设置中始终以较低的标准差优于Vanilla-ICL。

5aff891da99235f9948e2d90fbfbf043.png 134507c98d8b1d06726f10dcd812fbb3.png
  1. Different Number of Few-shot Instances:为了研究所选演示数量如何有助于CoT-ER的性能,在5-Way,5-Shot 设置下进行了实验。单个提示在最坏的情况下可以保持13个CoT-ER推理演示,而所有支持实例(25)都可以附加到Vanilla-ICL中的提示。结果如下表所示。

50c5ae09d1c94d865710e9a623aa71d3.png

观察到CoT-ER和Vanilla-ICL都可以受益于更多的few-shot示例,然而,随着示例数量的增加,Vanilla-ICL的性能迅速下降。CoT-ER可以有效地利用来自提供实例的信息,即使实例数量减少,也能保持强大的性能。这表明当few-shot实例的数量发生变化时,CoT-ER表现出比Vanilla-ICL更大的稳定性。

下表展示了CoT-ER和Auto-CoT方法的案例分析。

13fc2f7c8f247522e460db7e00add011.png

结论

本文探索了LLM上下文内学习在few-shot关系提取方面的潜力。为了提高低质量自动生成推理过程所带来的总体性能,引入了CoT-ER,这是一种专门用于few-shot关系提取的提示方法。核心思想是促使LLM使用存储在其预训练阶段的特定任务和概念级别的知识来生成证据。LLM将在RE任务中使用这些证据,并促进推理过程。此外,设计了一种标签描述技术,通过将实体和关系标签集成到一个连贯的表达式中。该技术解决了关系标签的语义歧义,这是在上下文学习中使用关系提取时遇到的常见挑战。FewRel 1.0和FewRel 2.0的实验结果优于所有无训练基线,证明了本文提出的方法的有效性。此外,实现与最先进的完全监督方法相当的结果表明,上下文学习范式有望成为few-shot关系提取任务的新解决方案。

尽管CoT-ER在FewRel 1.0和FewRel 2.0上取得了不错的结果,但仍有未来改进的潜力。由于最大长度的限制,本文提出的方法在处理较大的数据集时并没有充分利用所有实例。尽管采用了基于相似性的KNN检索来为few-shot演示选择优越的实例,结果发现,与其他在有大量候选集可用时表现良好的方法相比,它在few-shot设置中并不有效。由于通过GPT-3的API使用合理所需ICL的成本很高,本文尚未在具有更长最大输入token和更大规模的高级LLM上评估CoT-ER。有限的预算也限制了种子示例构建的优化。可以通过更具信息性和适当的设计来提高性能。

这篇论文刚撤稿了,期待新的版本:

An error example is in Table 14 on Page 18. Need to carefully correct and evaluate the error


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

2b974b360d978847f0a2461a347c231b.png

id:DLNLPer,记得备注呦

776876360db99fd1c69795eb79296fe0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/164971.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构与算法之美学习笔记:22 | 哈希算法(下):哈希算法在分布式系统中有哪些应用?

目录 前言应用五:负载均衡应用六:数据分片应用七:分布式存储解答开篇 & 内容小结 前言 本节课程思维导图 今天,我们再来看剩余三种应用:负载均衡、数据分片、分布式存储。你可能已经发现,这三个应用都…

gitlab环境准备

1.准备环境 gitlab只支持linux系统,本人在虚拟机下使用Ubuntu作为操作系统,gitlab镜像要使用和操作系统版本对应的版本,(ubuntu18.04,gitlab-ce_13.2.3-ce.0_amd64 .deb) book100ask:/$ lsb_release -a No LSB modules are available. Dist…

YARN,ZOOKEERPER--学习笔记

1,YARN组件 1.1YARN简介 YARN表示分布式资源调度,简单地说,就是:以分布式技术完成资源的合理分配,让MapReduce能高效完成计算任务。 YARN是Hadoop核心组件之一,用于提供分布式资源调度服务。 而在Hadoop …

公司内部网络架设悟空CRM客户管理系统 cpolar无需公网IP实现内网,映射端口外网访问

1、什么是内网穿透? 内网穿透,即内网映射,内网IP端口映射到外网的过程。是一种主动的操作,需要本人一些内网的权限。比如在公司自己电脑,将办公OA发布到互联网,然后提供外网在家或出差在外连接访问。 可以…

【信息安全】浅谈三种XSS(跨站脚本攻击)的攻击流程与防御措施

银狼美图镇楼 XSS 跨站脚本攻击(Cross-Site Scripting,简称XSS)是一种常见的Web安全漏洞,攻击者通过在Web应用中注入恶意脚本,使得浏览器在解析页面时执行该脚本,从而实现攻击目的。 类型 存储型XSS&…

Ubuntu中apt-get update显示域名解析失败

第一步 检查主机->虚拟机能否ping成功 ping 红色框中的IPv4地址 能通,表示虚拟机ip配置成功;否则,需要先配置虚拟机ip 第二步 检查是否能ping成功百度网址 ping www.baidu.com 若不成功,可能原因 虚拟机没联网,打开火狐浏览器…

leetcode刷题日记:190. Reverse Bits(颠倒二进制位)和191. Number of 1 Bits( 位1的个数)

190. Reverse Bits(颠倒二进制位) 题目要求我们将一个数的二进制位进行颠倒,画出图示如下(以8位二进制为例): 显然对于这种问题我们需要用到位操作,我们需要将原数的每一位取出来然后颠倒之后放进另一个数。 我们需要…

CHM文件阅读必备:CHM Viewer Star 免激活

CHM Viewer Star for Mac是一款针对Mac系统的CHM文件查看器,具有以下功能特点: 快速打开和加载CHM文件:采用高效的解码引擎,可以快速打开和阅读CHM文件,同时系统资源占用少,用户可以流畅地阅读大型CHM文件…

文本向量化

文本向量化表示的输出比较 import timeimport torch from transformers import AutoTokenizer, AutoModelForMaskedLM, AutoModel# simcse相似度分数 def get_model_output(model, tokenizer, text_str):"""验证文本向量化表示的输出:param model: 模型的…

分组交换技术

目录 一、新型计算机网络的基本特点 二、电路交换 1、回顾电路交换的原理 2、使用交换机连接许多部电话 3、电路交换举例 4、电路交换的三个阶段 5、电路交换的特点 三、分组交换 1、因特网有边缘部分与核心部分组成 2、分组交换的原理 3、分组交换的优点 4、存储转…

RepVgg: 网络结构重参化

CVPR2021 截至目前1004引 论文连接 代码连接 文章提出的问题 大多数的研究者追求的是设计一个好的网络结构,这种“好”体现在网络具有复杂的网络设计,这种网络虽然比简单的网络收获了更加高的准确率,但是网络结构中的大量并行分支,导致模型的难以应用和自定义,主要体现…

支付、结算、对账流程

1、支付过程概览 2、微信支付流程 以微信支付为例,用户使用北京银行,商户收款银行为工行银行,列出机构名 用户在商户处选购商品或服务,选择使用微信支付进行付款。用户打开微信支付,输入支付密码或进行指纹识别等身份验证。微信支付系统将支付请求发送给北京银行。北京银行…

【Spring】之注解存取Bean对象

在本系列的上一篇文章中,我们已经了解了Spring的一些核心概念,并且还学习了Spring存取。但是我们发现在存取的过程中还是比较复杂,接下来我们将学习更为简单的Spring存取,其中涉及到的主要内容就是注解。并且在Spring家族的学习过…

kubenetes-服务发现和负载均衡

一、服务发布 kubenetes把服务发布至集群内部或者外部,服务的三种不同类型: ClusterlPNodePortLoadBalancer ClusterIP是发布至集群内部的一个虚拟IP,通过负载均衡技术转发到不同的pod中。 NodePort解决的是集群外部访问的问题,用户可能不…

FL Studio2024免费编曲音乐制作软件

用FL Studio编曲,让音乐成为你的翅膀,飞翔在无尽的创作海洋中吧! FL Studio作为一款功能强大且备受赞誉的音乐制作软件,为你提供了一个独特的创作平台。通过FL Studio,你可以自由地创作、编曲,制作属于自己…

IDEA 搭建 SpringCloud 项目【超详细步骤】

文章目录 一、前言二、项目搭建1. 数据库准备2. 创建父工程3. 创建注册中心4. 服务注册5. 编写业务代码6. 服务拉取 一、前言 所谓微服务,就是要把整个业务模块拆分成多个各司其职的小模块,做到单一职责原则,不会重复开发相同的业务代码&…

Jenkins测完通知到人很麻烦?一个设置配置钉钉消息提醒!

Jenkins 作为最流行的开源持续集成平台,其强大的拓展功能一直备受测试人员及开发人员的青睐。大家都知道我们可以在 Jenkins 中安装 Email 插件支持构建之后通过邮件将结果及时通知到相关人员。但其实 Jenkins 还可以支持钉钉消息通知,其主要通过 DingTa…

【Linux】动静态库的使用与软链接的结合

文章目录 前言一、静态库1.静态库的创建2.静态库的链接3.将库进行打包4.链接方法:1.直接链接2.拷贝到系统路径里面3.采用软链接方法 二、动态库1.解决加载找不到动态库的方法1.直接拷贝2.建立软链接3.建立自己的动态路径配置文件 2.为什么动态库权限需可执行而静态库…

【WSL/WSL2-Ubuntu】突破界限:不使用服务器在一台Windows搭建Nginx+FastDFS

打造超级开发环境:Nginx和FastDFS在WSL中的完美结合 前言 随着软件开发领域的快速发展,跨平台的开发环境变得日益重要。Windows Subsystem for Linux(WSL)和WSL 2为开发者提供了在Windows操作系统上体验Linux环境的便捷途径。本…