【ChatIE】论文解读:Zero-Shot Information Extraction via Chatting with ChatGPT

文章目录

    • 介绍
    • ChatIE
      • Entity-Relation Triple Extration (RE)
      • Named Entity Recognition (NER)
      • Event Extraction (EE)
    • 实验
    • 结果
    • 结论

论文:Zero-Shot Information Extraction via Chatting with ChatGPT
作者:Xiang Wei, Xingyu Cui, Ning Cheng, Xiaobin Wang, Xin Zhang, Shen Huang, Pengjun Xie, Jinan Xu, Yufeng Chen, Meishan Zhang, Yong Jiang, Wenjuan Han
时间:2023

zero-shot information extraction 的目是从未注释的文本中构建信息提取(IE)系统,由于大模型发展迅速,其下游任务效果有了质的提升,文章中考虑采用prompt技巧进行信息提取,观察zero-shot 提取信息的可取性;

为此创建了一个二阶段的多回合问答框架ChatIE,并在三个IE任务上广泛地评估:整体关系三重提取、命名实体识别和事件提取。在两种语言的6个数据集上的经验结果表明,ChatIE取得了令人印象深刻的性能;

介绍

首先information extration 的目的是从非结构化的文本中提取出结构化的信息,并将结构化的信息转化为结构化的数据格式,信息提取主要由三块任务构成:三元组提取,实体命名识别,事件提取 entity-relation triple extract (RE), named entity recognition (NER), event extraction (EE);

在一般的处理工作中,以RE任务中PURE模型举例子[2010.12812] A Frustratingly Easy Approach for Entity and Relation Extraction (arxiv.org),首先识别出两个实体,然后再预测两个实体之间的关系,虽然说效果很好,但是这只适用于特别的任务并且是监督训练的,需要大量的标注数据;

由于一般IE方法的特殊性和昂贵性,这里转向研究ChatGPT的prompt来进行IE任务处理;

作者提出了一个两阶段的多轮问答框架,在第一阶段找出相应的元素类型,在第二阶段对每个元素类型进行链式信息提取;利用该框架进行信息提取的效果很明显;

ChatIE

这是一个两阶段框架:在第一阶段,目标是在三个任务中分别找出句子中的实体、关系或事件的现有类型。这样,我们就可以过滤掉不存在的元素类型,以减少搜索空间和计算复杂度,从而提取信息。然后在第二阶段,我们根据第一阶段提取的元素类型以及相应的任务特定方案,进一步提取相关信息。

如果没有提取任何内容,每个阶段都将生成无token的回答;

Entity-Relation Triple Extration (RE)

三元组提取任务也就是在文本中提取 ( s , r , o ) (s,r,o) (s,r,o):

这里的r指的是第一阶段提取到的关系,q1指第一阶段的问题,qr指根据第一阶段得到的关系提出的第二阶段的问题,也就得到 ( s , r , o ) (s,r,o) (s,r,o)

Named Entity Recognition (NER)

第一阶段我们先去获得实体类型,第二阶段根据实体类型获得实体的名字;

例如:第一阶段得到人物,地点,导演;第二阶段得到人物是谁,地点在哪,导演是谁;

Event Extraction (EE)

第一阶段我们先去获得事件类型并进行分类,第二阶段再根据每个类型的事件去获得类型;

实验

数据

RE数据:NYT11-HRL 包含12个预定义的关系类型,DuIE2.0 该行业中最大的基于模式的中国RE数据集,包含48种预定义的关系类型。三元组中的一些对象具有多个属性;

NER数据:The conllpp dataset conll2003的修改版本包含4种实体类型,MSRA 一个针对新闻字段的中文命名实体识别数据集,其中包含3种实体类型。

EE数据:DuEE1.0 百度发布的中文事件提取数据集,The ACE05 corpus 来自新闻通讯社和在线论坛等各种领域的文档和句子级别的事件注释。

评价指标

micro F1

结果

可以看到ChatIE的效果很突出;同时观察下表:

可以发现,基于聊天的Chat-based prompt 要比 一般的prompt得到的更准确;

结论

ChatIE 在 zero-shot information extration 任务中效果表现突出;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/391460.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【电源】POE系统供电原理(二)

转载本博客文章,请注明出处 ​ 上一篇文章中,有提到POE系统工作原理及动态检测机制,下面我们继续介绍受电端PD技术及原理。POE供电系统包含PSE、PD及互联接口部分组成,如下图所示。 图1 POE供电系统 PSE控制器的主要作用&#xff…

无人机基本知识,无人机遥控器功能详解与调试方法

无人机作为一种新兴的飞行器,近年来在各个领域得到了广泛的应用。而无人机遥控器则是控制无人机飞行的重要工具。 无人机遥控器是一种无线设备,通过它来远程控制无人机的飞行。遥控器通常包括一个或多个摇杆,用于控制无人机的各种动作&#x…

FL Studio 21中文破解激活版2024免费下载安装图文教程

FL Studio 21.2.1.3859中文破解激活版是我见过更新迭代最快的宿主软件,没有之一。FL Studio12、FL Studio20、FL Studio21等等。有时甚至我刚刚下载好了最新版本,熟悉了新版本一些好用的操作,Fl Studio就又推出了更新的版本,而且F…

【STM32 CubeMX】串口编程DMA+IDLE中断

文章目录 前言一、为什么要引入IDLE中断二、IDLE中断使用方式2.1 接收的三种情况2.2 函数的使用查询方式中断方式DMA方式分析一个问题 总结 前言 在嵌入式系统中,串口通信是一项关键的任务,而使用DMA(直接内存访问)结合IDLE中断进…

基于springboot特产销售平台源码和论文

“互联网”的战略实施后,很多行业的信息化水平都有了很大的提升。但是目前很多藏区特产销售信息仍是通过人工管理的方式进行,需要在各个岗位投入大量的人力进行很多重复性工作,使得对人力物力造成诸多浪费,工作效率不高等情况&…

【初始RabbitMQ】工作队列的实现

工作队列 工作队列(又称为任务队列)的主要思想是避免立即执行资源密集型任务,而不得不等待它完成。 相反我们安排任务在之后执行。我们把任务封装为消息并将其发送到队列。在后台运行的工作进 程将弹出任务并最终执行作业。当有多个工作线程…

电脑屏幕录制工具 Top10 榜单,免费无水印方法集

随着媒体行业的突飞猛进,不同服务之间对有效屏幕录制的竞争日益激烈。这导致市场上出现了质量参差不齐的屏幕录像机。特别是有些录屏器会自动给你录制的视频加上水印,给需要在公共场合使用的人留下不专业的印象。除此之外,它们甚至不能保护您…

【Google Bard】免费生成图像——功能和使用方法详解

Google Bard 关于Bard 图片生成功能打开Bard通过Bard来生成图片Bard Vs Bing Vs Dall-EBard的生成结果Bing的生成结果Dall-E 的生成结果 总结 关于Bard 图片生成功能 Google在2月1日(当地时间)宣布,其对话型AI“Bard”新增了图像生成功能。 …

Mysql——update更新数据的方式

注:文章参考: MySQL 更新数据 不同条件(批量)更新不同值_update批量更新同一列不同值-CSDN博客文章浏览阅读2w次,点赞20次,收藏70次。一般在更新时会遇到以下场景:1.全部更新;2.根据条件更新字段中的某部分…

MATLAB离线文档安装

MATLAB离线文档安装 来源于最全matlab安装离线文档教程只是对内容进行了精简,同时更方便查找 一、下载离线文档 我上传的2023b离线文档 提供本体属于违规行为,本体下载链接已删除 为方便已安装好软件的朋友想安装离线帮助文档,由于官网下载…

模型 IPO(输入、处理、输出)学习模型

系列文章 分享 模型,了解更多👉 模型_总纲目录。重在提升认知。信息转化与传递。 1 模型 IPO(输入、处理、输出)学习模型的应用 1.1 项目管理知识体系 PMBOK 中的IPO应用 在项目管理领域,PMBOK(Project Management Body of Know…

究极小白如何自己搭建一个自动发卡网站-独角数卡

本人从来没接触过建站,我之前都是在TB上花90叫别人给我搭建的网站,前几天这个TB店倒闭跑路了,而我的发卡网也打不开了,没办法,逼上梁山,自己捣鼓出来了!下面是2023/4/2自己建好的! …

STM32F1 - 系统时钟SysTick

SysTick 1> SysTick硬件框图2> SysTick的时钟源3> 1ms定时_中断方式4> 思考:无符号数 0 - 255 ?相关资料 1> SysTick硬件框图 SysTick属于Cotex-M3,是CPU外设; SysTick: 位宽24bit, 递减计数,自动重装…

《Go 简易速速上手小册》第2章:控制结构与函数(2024 最新版)

文章目录 2.1 条件语句:决策的艺术2.1.1 基础知识讲解2.1.2 重点案例:用户角色权限判断实现用户角色权限判断扩展功能实现代码功能扩展:添加或删除用户 2.1.3 拓展案例 1:成绩等级判断实现成绩等级判断功能实现代码扩展功能&#…

【开源图床】使用Typora+PicGo+Github+CDN搭建个人博客图床

准备工作: 首先电脑得提前完成安装如下: 1. nodejs环境(node ,npm):【安装指南】nodejs下载、安装与配置详细教程 2. Picgo:【安装指南】图床神器之Picgo下载、安装与配置详细教程 3. Typora:【安装指南】markdown神器之Typora下载、安装与无限使用详细教…

canal监听binlog记录业务数据的变更;canalAdmin对instance做web配置

概述 平时在开发中会通过logback打印一些开发日志,有时也会需要记录一些业务日志,简单的就直接用log记录一下,但是系统中需要记录日志的地方越来越多时,不能每个地方都写一套log记录; 由于平常用的大多都是mysql&…

Linux进程间通信(三)-----System V消息队列

消息队列的概念及原理 消息队列实际上就是在系统当中创建了一个队列,队列当中的每个成员都是一个数据块,这些数据块都由类型和信息两部分构成,两个互相通信的进程通过某种方式看到同一个消息队列,这两个进程向对方发数据时&#x…

【C++ QT项目2】——高仿安信可串口调试助手

【C QT项目2】——高仿安信可串口调试助手 1. 项目概述2. 项目UI设计3. 串口通信核心代码开发3.1 QSerialPort介绍及示例3.2 扫描系统串口3.3 数据的收发3.4 定时发送(QT定时器)3.5 HEX显示与发送 4. 串口调试助手功能的优化4.1 串口的实时扫描4.2 获取系…

2024.2.15 模拟实现 RabbitMQ —— 消息持久化

目录 引言 约定存储方式 消息序列化 重点理解 针对 MessageFileManager 单元测试 小结 统一硬盘操作​​​​​​​ 引言 问题: 关于 Message(消息)为啥在硬盘上存储? 回答: 消息操作并不涉及到复杂的增删查改消…

对比@Resource和@Autowired

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl Resource和Autowired概述 在Java的Spring框架中,Resource和Autowired都是用于实现依赖注入(Dependency Injection, DI)的重要注解。依赖…