论文笔记——chatgpt评估+

文章目录

  • 1. chatgpt 效果评估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness
    • 文章简介
    • 文章结论
  • 2. 事件抽取: OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction
    • 论文核心
    • 论文方法

1. chatgpt 效果评估:Evaluating ChatGPT’s Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness

文章简介

论文是从开放域和限定域两个角度对chatGPT的**performance、可解释性、校准性(calibration)和可信性(faithfulness)**进行了评估(assessment)。(performance、explainability、calibration、faithfulness四个维度进行测评的)
以上评估是杂7个细粒度知识抽取任务中进行的。

四个维度:

  1. performance(表现):chatgpt在不同任务下的性能表现。
  2. explainability(可解释性):chatgpt在self-check和human-check下的可解释性。

ChatGPT和领域专家高度认可ChatGPT给出的理由,大多数数据集在Standard-IE和OpenIE设置中获得了超过90%的合理分数
与人的评价相比,ChatGPT在为其预测提供的理由方面显示出很高的信心。ChatGPT displays a high level of confidence in the reasons provided for its predictions when compared with human evaluation
当ChatGPT为一个预测提供了合理的解释时,ChatGPT和人类的评价之间有很高的一致性。

  1. calibration(校准性):校准性是用来判断chatgpt性能的不确定性的评价手段。一个好的calibratedclassifier是应该能够预测模型给出的判断的准确性(A properly calibrated classifier should have predictive scores that accurately reflect the probability of correctness)

虽然ChatGPT在标准-IE设置中的表现比基于BERT的同类产品差,但它在正确和错误的预测中都表现出过度自信。
ChatGPT倾向于产生不容易代表真实概率的置信度。ChatGPT tends to produce confidences that do not represent true probabilities easily.

  1. faithfulness(可信性):ChatGPT的解释的忠实性对于确保其可信度非常重要 (The faithfulness of ChatGPT’s explanation is important to ensure its trustworthine)。

ChatGPT’s decision-making process primarily relies on the input of the original text. ChatGPT的决策过程主要依赖于原文的输入.

7个知识抽取任务

实体类型判断 命名实体识别 关系分类 关系抽取 事件检测 事件论元抽取 事件抽取

文章结论

  1. 在standard IE情况下,ChatGPT的性能在大多数情况下无法与基线模型和SOTA方法相比。
  2. ChatGPT在相对简单的IE任务中(实体类型判断)表现良好,但在更复杂和具有挑战性的任务中(关系抽取、事件抽取)却很吃力。
  3. chatgpt在standard IE知识抽取任务中,表现略差于在openIE任务中的表现。
  4. chatgpt可以用来辅助标注工作。(我们的研究结果表明,ChatGPT是一个合格的答案候选生成器,适用于标准-IE设置下的特定任务。Our findings suggest that ChatGPT is a competent answer candidate generator for a given task under the Standard-IE setting.)

2. 事件抽取: OneEE: A One-Stage Framework for Fast Overlapping and Nested Event Extraction

论文核心

论文将event extraction转化为了word-word relation recognition任务。(参考了relation extraction任务的方法)

论文面向任务是EE: EE任务的核心是需要抽取出trigger和event的arguments。
在解决EE任务时,将可能的关系定义为了以下几类:
S-T 表示head和tail boundary words of a trigger.
S-A 表示head和tail boundary words of a argument
R-S, R-O, R-T, and R-P 表示 trigger Word和argument Word之间的关系。(S表示subject、O表示object、T表示target、P表示proportion)——也就是事件论元和事件trigger之间的关系。

论文方法

方法上还是以tagging scheme 为主,是以table filling方式实现的event extraction。
在这里插入图片描述
注意公式中的字的写法

第一步是使用bert 得到sentence 的embedding

在这里插入图片描述

第二步使用attention module和 gate module 得到每种event type的contextual representation. (一个由注意模块和两个门融合模块组成的自适应事件融合层被用来为每个事件类型获得偶发的环境表征。)

  1. 先使用attention mechanism 得到了每个Word的 event type下的embedding。E表示event type的embedding。在这里插入图片描述
  2. 融合target event type的embedding和last gate module的output。
    在这里插入图片描述
    在这里插入图片描述

第三步,使用table filling实现relation的classification。是将argument和trigger作为的span,然后做了一次span 分类。然后,对argument做了span的分类,判断argument的role。 在计算Word-Word pair之间的关系得分时,使用的是** dot product**.
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/16999.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

UAD142A01 3BHE012551R0001使用以太网交叉电缆,您也可以直接连接。

​ UAD142A01 3BHE012551R0001使用以太网交叉电缆,您也可以直接连接。 如何将 MicroLogix PLC 连接到计算机并将程序下载到 MicroLogix 1100 MicroLogix PLC由美国罗克韦尔自动化旗下知名工业自动化厂商Allen-Bradley设计。MicroLogix 1100 主要用于小型工业。我们在…

山东专升本计算机第一章-计算机信息技术与计算机文化

计算机信息技术与计算机文化 计算机中的信息表示 数制及其转换 数制:用进位的原则进行计数数码:数制中表示基本数值大小的不同数字符号基数:一种数制所使用的数码个数位权:数码在不同位置的权值 数制的转换 • R进制转化为十进…

【五一创作】【远程工具】- Tabby 下载、安装、使用、配置【ssh/Serial】-免安装、解压即用

目录 一、Tabby 概述 二、Tabby 下载、安装 三、Tabby 的使用  👉3.1 使用SSH协议连接Linux开发主机  👉3.2 使用Serial(串口)协议连接开发板 一、Tabby 概述 在远程终端工具中,secureCrt 和 XShell 是两款比较有名的远程工具,但…

【计算机图形学】图形变换(以任意直线为对称轴的对称变换)

模块3-2 图形变换 一 实验目的 编写图形各种变换的算法 二 实验内容 1:任意直线的对称变换。要求将变换矩阵写在实验报告中,并与代码匹配。求对任意直线AxByC0的对称变换矩阵。 实验结果如下图所示: 1:预设图形初始化 2&#…

数据结构——链表(python版)

一、链表简介 链表是一种在存储单元上非连续、非顺序的存储结构。数据元素的逻辑顺序是通过链表中的指针链接次序实现。链表是由一系列的结点组成,结点可以在运行时动态生成。每个结点包含两部分:数据域与指针域。数据域存储数据元素,指针域…

TCP的三次握手和四次挥手

三次握手 既然我们文章要说的是TCP的三次握手,和四次挥手,那么肯定是说的连接,也不是说的不其他的。那么它这个连接的过程说的是什么呢? 我们还是从图中理解,这样比较好理解, TCP第一次握手:服…

gradle Task 详解

目录 Task定义和配置 Task的执行阶段 Task 的依赖 Task 指定执行顺序 Task 主gradle引入其他的gradle文件 将某一个task挂载到指定的task之后执行 gradle task官网:Task - Gradle DSL Task定义和配置 查看工程下所有的task,使用如下命令 gradle …

【Linux】浅谈eloop机制

目录 1.eloop 机制 2.eloop结构体 2.1.eloop_data结构体 2.2 Socket事件结构体 2.3 Timeout事件结构体 2.4 Signal事件结构体 3.eloop_init 4.eloop_run 4.1 signal事件 4.2 socket事件 4.3 timeout事件 1.eloop 机制 主线程中启动事件监听机制,对不同的…

深度学习模型压缩与优化加速

1. 简介 深度学习(Deep Learning)因其计算复杂度或参数冗余,在一些场景和设备上限制了相应的模型部署,需要借助模型压缩、系统优化加速、异构计算等方法突破瓶颈,即分别在算法模型、计算图或算子优化以及硬件加速等层…

如何优雅地停掉线程?

很久很久以前,在一个名为“Springboot”的村庄中,住着一群热爱编程的程序员。他们喜欢探索新技术、优化自己的代码,为了打造更好的软件而不断努力着。 在这个村庄中,有一个名叫小明的程序员,他是村庄中最优秀的程序员…

一文打通java中内存泄露

目录 前置知识 内存泄漏(memory leak) 内存溢出(out of memory) Java中内存泄露的8种情况 静态集合类 单例模式 内部类持有外部类 各种连接,如数据库连接、网络连接和IO连接等 变量不合理的作用域 改变哈希值 …

第二十八章 React脚手架配置代理

为了更好地理解如何在React应用程序中配置代理,我们需要先了解什么是代理。 代理是一种充当客户端和服务器之间中间人的服务器。当客户端向服务器发送请求时,代理服务器将接收请求并将其转发到服务器。服务器将响应发送回代理服务器,代理服务…

机器视觉工程师职场四点“心态>交流=思路>知行合一”

视觉人机器视觉团队,他们热爱机器视觉行业,爱学习,爱分享。这一路上,首先感谢粉丝们805天一如既往的支持。我想团队拥有这些粉丝,是富有的,也是我们一直创作的动力。 是否记得毕业季,自己的豪言壮语。希望你毕业三年后,无论结果如何,不忘初心,继续前行。 机器视觉工程…

Flutter 中使用 Widgetbook 管理你的组件

Flutter 中使用 Widgetbook 管理你的组件 前言 Flutter 界面开发中我们有几个痛点 : 与设计师协作复用一套设计规范(figma) 可视化的管理你的组件代码(基础组件、业务组件) 不同设备尺寸测试你的组件 实时修改你的测试…

python并发编程:什么是并发编程?python对并发编程有哪些支持?

Python并发编程是指同时执行多个任务的编程模式。Python提供了多种实现并发编程的方式,包括多线程、多进程、协程、异步IO等。 为什么要引入并发编程 假设以下两个场景: 场景一: 一个网络爬虫,按顺序爬取花了一个小时,采用并发…

spring-模型数据和视图---视图解析器的说明以及大量代码演示

目录 spring-模型数据 ● 说明 应用实例需求 创建后面所有代码执行成功之后跳转的vote_ok.jsp页面 方式 1: 通过 HttpServletRequest放入 request 域 创建 Master类 创建Pet类 创建model_data.jsp 修改 VoteHandler增加方法 创建vote_ok.jsp, 显示数据 完成测试(Post…

[LeetCode周赛复盘] 第 103 场双周赛20230429

[LeetCode周赛复盘] 第 103 场双周赛20230429 一、本周周赛总结2656. K 个元素的最大和1. 题目描述2. 思路分析3. 代码实现 2657. 找到两个数组的前缀公共数组1. 题目描述2. 思路分析3. 代码实现 2658. 网格图中鱼的最大数目1. 题目描述2. 思路分析3. 代码实现 2659. 将数组清…

Docker consul

目录 一、Docker consul的容器服务和发现 ①服务注册与发现的含义 ②什么是consul 二、服务部署 ①部署consul服务 (1)查看集群信息 (2)通过http api获取集群信息 ②部署registrator服务器 (1)安装…

计算机视觉毕业后找不到工作怎么办?怒刷leetcode,还是另寻他路?

文章目录 一、计算机视觉毕业后找不到工作怎么办?二、大环境:前两年的泡沫太大三、还是要把自己的基本功搞扎实,真正的人才什么时候都紧缺四、转换思路,另投他坑五、要有毅力,心态放平六、最后的建议 一、计算机视觉毕…

应急加固初试(windows sever 2008)

前言 红中(hong_zh0) CSDN内容合伙人、2023年新星计划web安全方向导师、 华为MindSpore截至目前最年轻的优秀开发者、IK&N战队队长、 吉林师范大学网安大一的一名普通学生、搞网安论文拿了回大挑校二、 阿里云专家博主、华为网络安全云享专家、腾讯云自媒体分享计划博主 …