【论文速递】ACL 2022 - 查询和抽取:将事件抽取细化为面向类型的二元解码

【论文速递】ACL 2022 - 查询和抽取:将事件抽取细化为面向类型的二元解码

【论文原文】:Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding

【作者信息】:Wang, Sijia and Yu, Mo and Chang, Shiyu and Sun, Lichao and Huang, Lifu

论文:https://arxiv.53yu.com/pdf/2110.07476.pdf
代码:https://github.com/VT-NLP/Event_Query_Extract

博主关键词:事件抽取,二元解码

推荐论文:无

摘要

事件抽取通常被建模为一个多分类问题,其中事件类型和论元角色被视为原子符号。这些方法通常仅限于一组预定义的类型。我们提出了一种新颖的事件抽取框架,该框架使用事件类型和论元角色作为自然语言查询,从输入文本中抽取候选触发词和论元。通过查询中的丰富语义,我们的框架受益于注意力机制,可以更好地捕获事件类型或论元角色与输入文本之间的语义相关性。此外,查询-抽取公式(query-and-extract formulation)允许我们的方法利用来自各种本体的所有可用事件标注作为统一模型。在ACE和ERE上的实验表明,我们的方法在每个数据集上都达到了最先进的性能,并且在零样本事件抽取上显著优于现有方法。

1、简介

事件抽取(Grishman, 1997; Chinchor and Marsh, 1998; Ahn, 2006)是一项从自然语言文本中识别和分类事件触发词和参与者的任务。如图1所示,marriedleft分别是MarryTransport事件类型的两个事件提到的触发词。left事件提到了两个论元:she is an Artifact, and Irap is the Destination.

传统研究通常将事件抽取建模为多类分类问题(McClosky et al, 2011; Li et al, 2013; Chen et al, 2015; Yang and Mitchell, 2016; Nguyen et al, 2016; Lin et al, 2020),其中首先定义了一组事件类型,然后有监督的机器学习方法将检测并将每个候选事件提到或论元分类为其中一个目标类型。但是,在这些方法中,每个事件类型或论元角色都被视为原子符号,忽略了它们丰富的语义。一些研究通过利用事件类型结构(Huang et al, 2018),种子事件提及(Bronstein et al, 2015; Lai and Nguyen, 2019),或问题回答(QA)(Du and Cardie, 2020; Liu et al, 2020)。然而,这些方法仍然是为单个目标事件本体设计的,因此仅限于单个目标事件本体,例如ACE (Consortium, 2005)或ERE (Song et al, 2015)。

随着多个本体的存在和处理新出现的事件类型的挑战,有必要研究可泛化的事件抽取方法,并且可以使用来自不同事件本体的所有可用训练数据。

为此,我们提出了一个遵循查询-抽取范式的新的事件抽取框架。我们的框架将事件类型和论元角色表示为具有丰富语义的自然语言查询。然后,通过利用我们提出的注意力机制来捕获它们与输入文本的交互,查询用于抽取相应的事件触发词和论元。具体来说,(1)对于触发词检测,我们根据每个事件类型的类型名和原型触发词的简短列表将每个事件类型化为一个查询,并根据每个token的查询感知嵌入对其进行二元解码(binary decoding)。(2)对于论元抽取,我们将每个事件类型下定义的所有论元角色放在一起作为一个查询,然后采用多路注意力机制对每个事件提及的所有论元进行一次性编码(one-time encoding),每个论元预测为二元解码(binary decoding)

与之前的研究相比,我们的方法可以自然地将各种本体作为统一模型处理(Nguyen and Grishman, 2016; Wadden et al, 2019; Lin et al, 2020),我们的二元解码机制直接适用于表示为自然语言查询的任何事件类型或论元角色,从而有效地利用跨本体事件标注并进行零样本预测。此外,与基于QA的方法相比(Du and Cardie, 2020; Liu et al, 2020; Li et al, 2020a)也可以进行零样本论元抽取,我们的方法不需要为论元角色单独创建高质量的问题,也不需要为不同的论元角色单独创建多次编码,因此更加准确和高效

我们在两个公共基准数据集ACE和ERE上评估了我们的方法,并在标准监督事件抽取和具有挑战性的迁移学习设置中展示了最先进的性能,这些设置可以推广到新的事件类型和本体。值得注意的是,在零样本迁移到新事件类型时,我们的方法在触发词检测方面优于强基线16%,在论元检测方面优于强基线26%。我们工作的总体贡献是:

  • 我们将事件抽取细化为查询和抽取范式,这比以前的自顶向下分类或基于QA的方法更一般化和高效。
  • 我们设计了一个新的事件抽取模型,利用事件类型和论元角色的丰富语义,提高了准确性和泛化性。
  • 我们在有监督和零样本事件抽取方面建立了ACE和ERE的最新性能,并演示了我们的框架作为跨本体迁移的有效统一模型。

2、方法

如图2所示,给定一个输入句子,我们首先通过将其作为对句子的查询来确定每个事件类型的候选触发词。每个事件类型(如Attack)都用自然语言文本表示,包括其类型名称和原型触发词的短列表,如入侵(invaded)和空袭(airstrikes),这些触发词是从训练示例中选择的。然后,我们将输入句子与事件类型查询连接起来,用预训练好的BERT编码器对它们进行编码(Devlin et al, 2019),计算每个输入token在事件类型查询的顺序表示上的注意力分布,最后将每个token分类为一个二元标签,表明它是否是特定事件类型的候选触发词。

为了抽取每个候选触发词的论元,我们遵循类似的策略,并将其对应事件类型的预定义论元角色集作为对输入句子的查询。我们使用另一个BERT编码器来学习输入句子的上下文表示和论元角色的查询。然后,将输入句子中的每个实体作为候选论元,计算实体与候选论元角色之间的多向注意力语义相关性,最后根据每个论元角色将每个实体划分为一个二元标签。

3、实验

监督的事件抽取

零样本事件抽取

在这里插入图片描述

跨本体迁移

消融实验

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/4940.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

IP地址规划方法

一、IP地址规划的基本步骤: (1)判断用户对网络以及主机数的需求; (2)计算满足用户需要的基本网络地址结构; (3)计算地址掩码; (4)…

React Three Fiber动画入门

使用静态对象和形状构建 3D 场景非常酷,但是当你可以使用动画使场景栩栩如生时,它会更酷。 在 3D 世界中,有一个称为角色装配的过程,它允许你创建称为骨架的特殊对象,其作用类似于骨骼和关节系统。 这些骨架连接到一块…

2023-03-24:音视频mp3和h264混合(muxer)编码为mp4,用go语言编写。

2023-03-24:音视频mp3和h264混合(muxer)编码为mp4,用go语言编写。 答案2023-03-24: 这是一个使用FFmpeg库将MP3和H.264混合编码为MP4的Go语言程序。程序的大体过程如下: 1.设置FFmpeg库路径和环境变量。…

ChatGPT来了,让我们快速做个AI应用

你好,我是徐文浩。 过去的两讲,我带着你通过OpenAI提供的Embedding接口,完成了文本分类的功能。那么,这一讲里,我们重新回到Completion接口。而且这一讲里,我们还会快速搭建出一个有界面的聊天机器人来给你…

五分钟了解支付、交易、清算、银行等专业名词的含义?

五分钟了解支付、交易、清算、银行等专业名词的含义?1. 支付类名词01 支付应用02 支付场景03 交易类型04 支付类型(按通道类型)05 支付类型(按业务双方类型)06 支付方式07 支付产品08 收银台类型09 支付通道10 通道类型…

Unity Avatar Cover System - 如何实现一个Avatar角色的智能掩体系统

文章目录简介变量说明实现动画准备动画状态机State 状态NoneStand To CoverIs CoveringCover To Stand高度适配高度检测脚部IK简介 本文介绍如何在Unity中实现一个Avatar角色的智能掩体系统,效果如图所示: 初版1.0.0代码已上传至SKFramework框架Package…

【Nginx】Nginx的学习(3.Nginx命令和nginx配置文件)

1. Nginx命令 1.1 启动nginx systemctl start nginx1.2 停止nginx systemctl stop nginx1.3 重载nginx # 重新加载配置文件 systemctl reload nginx1.4 查看nginx服务端口 netstat -anpl | grep nginx1.5 查看nginx进程 ps aux | grep nginx2. nginx的配置文件 2.1 查看…

git拉取github上的项目

git拉取github上的项目测试创建bash公钥,拉取代码1.先创建github账号和项目;系统安装git程序2.先配置ssh公钥,为了避免每次远程访问需要输密码,将使用ssh登陆。ssh应该与本机信息绑定,查看自己电脑 C:\Users\lenovo\.ssh 目录下是…

预训练语言模型(GPT,BERT)

文章目录GPT 模型预训练语言模型模型和学习BERT 模型去噪自编码器模型和学习模型特点References在自然语言处理中事先使用大规模语料学习基于 Transformer 等的语言模型,之后用于各种任务的学习和预测,称这种模型为预训练语言模型。代表性的模型有 BERT …

STA环境 - 时钟

目录1. 指定时钟create_clock1.1. 时钟延迟set_clock_latency 1.2. 时钟不确定度(时钟抖动)set_clock_uncertainty 1.3. 时钟过渡时间set_clock_transition 2. 衍生时钟create_generated_clock3. 划定时钟域set_clock_groupsSTA环境配置中对时钟如何约束…

【总结】爬虫4-selenium

爬虫4-selenium 1. selenium 基本操作 在使用selenium之前必须先配置浏览器对应版本的webdriver。才可以控制浏览器打开网页 1.1 创建浏览器对象 b Chrome()1.2 打开网页 (需要哪个网页数据,就打开那个网页对应的网页地址) b.get(https…

git 001--建本地仓库和远程仓库和拉代码

要使用Git对我们的代码进行管理,首先需要获得Git仓库。 获取Git仓库通常有两种方式: 在本地初始化Git仓库(不常用) 从远程仓库克隆(常用) 一.建本地仓库 方法一: 在自己电脑的任意目录下创建一个空目录…

字节测试总监,让我们用这份《测试用例规范》,再也没加班过

经常看到无论是刚入职场的新人,还是工作了一段时间的老人,都会对编写测试用例感到困扰?例如: 固然,编写一份好的测试用例需要:充分的需求分析能力 理论及经验加持,作为测试职场摸爬打滚的老人&…

为什么企业需要一个“企业办公浏览器”?

目前,大多数企业还在用着传统的Web浏览器,它是各行业企业办公最常用到的应用程序,搜索资料、打开其他应用工具、打开文档等等,企业员工几乎每天都在用它做这些工作。 但实际上,Web浏览器并不是一个企业专用的办公应用软…

炒黄金所需的k线图基础知识(上)

炒金,一般是指对杠杠式的黄金电子合约(如伦敦金、黄金期货)进行短线的多空操作,从中赚取波动价差的行为。无论投资者从事内盘还是外盘交易,K线图都是基础的、必备的知识。 1、什么叫K线图? K线图源于日本的…

计算机网络名词解释和简答题总结

名词解释 CSMA/CD(载波监听多点接入/碰撞检测协议) CSMA/CD是一种基于冲突检测的载波监听多路访问技术。CSMA/CD协议要求站点在发送数据之前先监听信道。如果信道空闲,站点就可以发送数据;如果信道忙,则站点不能发送…

使用CookieJar提取cookie信息

首先,推荐几个帖子,大伙可以先看看。国内通过cookiejar主要获取cookie的方法,大致都是如此的。 http.cookiejar库之CookieJar_pigYanYan的博客-CSDN博客 Python编程:cookiejar的使用_彭世瑜的博客-CSDN博客 再推荐一个资料帖&a…

Linux权限

Linux下有两种用户:超级用户(root)、普通用户。超级用户(root):可以在linux系统下做任何事,不受限制,只有1个。普通用户:在linux系统下做有限的事,有N个。超级用户的提示符#;普通用户的提示符$切换用户的命令:su切换root时可以直接…

MQ之kafka

一 概念 Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需…

Visual Studio Code2023(VSCode2023)安装包下载及安装教程(最新版接入了chat GPT)

[软件名称]: Visual Studio Code2023 [软件大小]: 88.6 MB [安装环境]: Win11/Win10/Win7 [软件安装包下载]:https://pan.quark.cn/s/ee94a4aa2abc Visual Studio Code简称“VS Code”是Microsoft在2015年4月30日Build开发者大会上正式宣布一个运行于 Mac OS X、Windows和 Lin…