20230530论文整理·1-课题组1

个人观点,现在的NLP文章,有些是在做积木,微创新,有些文章,是可以的,读起来很美,有些,太过逆了,吃起来没味道,反胃。

文章目录

  • 1.CODEIE: Large Code Generation Models are Better Few-Shot Information Extractors
  • PromptNER: A Prompting Method for Few-shot Named Entity Recognition via k Nearest Neighbor Search
  • Improving Contrastive Learning of Sentence Embeddings from AI Feedback
  • Word-Level Representation From Bytes For Language Modeling
  • SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking

1.CODEIE: Large Code Generation Models are Better Few-Shot Information Extractors

传统在解决知识抽取问题时,是把任务建模为text2text问题,比如使用GPT、bart、bert 等等模型。
这篇文章是认为: 代码形式的知识抽取效果优于text2text形式
模型对比图如下:
在这里插入图片描述
文章task: NER & RE and transform the task format as code generation format
用字典形式表示两个task的output,比如ner:{“text”: “Steve”, “type”: “person”}
RE:{“rel_type”: “work for”,
“ent1_type”: “person”, “ent1_text”: “Steve”,
“Steve”: “person” “Apple”: “organization” “ent2_type”: “organization”, “ent2_text”: “Apple”}

在这里插入图片描述
实验对比 在实验对比中,一个是采用open AI的code-davinci-002,一个是采用text-davinci-002
在这里插入图片描述
code prompts consistently outperform text prompts
在 error analyse中,一个是生成文本的structure ,一个是生成文本的semantic fidelity。前者是指output的形式不对,后者是指output中语义不对,比如预定义实体类型中不存在的实体类型。

在这里插入图片描述
在这里插入图片描述

PromptNER: A Prompting Method for Few-shot Named Entity Recognition via k Nearest Neighbor Search

在之前解决few-shot NER 问题时,是通过构建原型学习的方式。
Most of prototypical networks will utilize the entities from the support set to construct label prototypes and use the query set to compute span-level similarities and optimize these label prototype representations.

文中的few-shot NER 任务,是使用query中的relation type计算span-level similarity 然后优化label的prototypes

在这里插入图片描述
模型结构:
在training stage:

在预测实体span上,training 阶段是通过 Biaffine deooder 和prompt based 阶段完成的。

在这里插入图片描述

第一个baiffine decoder 使用ROPE编码,满足Ri^T Rj = Rj−i
在这里插入图片描述
第二个 classification with prompt
首先得到s-e的语义表示,是取的这些tokens的hidden state得到的representation
然后计算概率和损失函数:在这里插入图片描述

最后,在train 阶段的所有损失函数是:在这里插入图片描述
在inference stage: via KNN search

在这里插入图片描述
inference 阶段最终的prediction label of span是:
在这里插入图片描述

Improving Contrastive Learning of Sentence Embeddings from AI Feedback

使用大语言模型的feedback,构建pairs,用于模型训练。
a two-step sample pair generation method

在第一步,我们用不同的屏蔽率屏蔽句子中的一些词,然后用GPT-3根据被屏蔽句子中的剩余信息生成新的句子。然后,我们将生成的句子和原始句子结合起来,构建句子对。通过这种方式,我们可以利用屏蔽率来控制句对中两个句子的共享信息量,这将产生具有不同语义相似性的句对。
在第二步,我们利用GPT-3来生成句对的语义相似度分数。这些分数是AI对样本相似度的反馈。这些分数是AI对样本相似性的反馈。由于重建一个被掩盖的句子所引起的语义变化很难衡量,我们利用LLM的语言知识来生成语义相似度分数。第一步中的句子对生成过程确保了人工智能反馈相似性分数的多样性。
最后,我们使用我们生成的样本对和相似性分数来训练句子嵌入的模型。

在这里插入图片描述
文章对比了几种不同的feedback方式:
在这里插入图片描述

Word-Level Representation From Bytes For Language Modeling

子词标记化(sub-word tokenization)仍有一些缺点,如对噪音不稳定,难以推广到新的语言上。

我们通过引入交叉注意力网络,直接从字节中建立词级表示,以及基于词级隐藏状态的子词级预测来避免词级预测的时间和空间要求,从而彻底改变了这种方法.(introducing a cross-attention network that builds word-level representation directly from bytes, and a sub-word level prediction based on word-level hidden states to avoid the time and space requirement of word level prediction)
Byte2Word 的embedding size只占了10%

字节(Byte)是计量单位,表示数据量多少,是计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位。
字符(Character)计算机中使用的字母、数字、字和符号,比如'A''B''$''&'等。
一般在英文状态下一个字母或字符占用一个字节,一个汉字用两个字节表示。

整体流程:
在这里插入图片描述
实验结果-在不同的噪声情况下:
在这里插入图片描述
实验结果-在不同的翻译语言下:
在这里插入图片描述
实验结果-在不同的embedding size情况下:
在这里插入图片描述

SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking

中文拼写检查模型。
中文中容易出现的两种错误:语音和字形错误

在这里插入图片描述
主要模型:
在图的左侧和右侧,分别是wrong和right sentences。
训练阶段使用的对比学习。
MacBERT (Cui et al., 2020) as a strong backbone to extract the semantic features of X and then use dot products with the word embedding W to output the character distribution
在这里插入图片描述

第一个loss:
在这里插入图片描述
在这里插入图片描述

第二个loss:(对比学习损失函数,constractive Loss)
the batch as negative samples
最小化Lc的目的是使被破坏的token的隐藏状态与它们的正确对应部分相似。
在这里插入图片描述

第三个Loss (针对teacher bert,使用cross-entropy loss 保证结果准确):

add a cross-entropy loss for the teacher BERT to repeat the inputs.
在这里插入图片描述

实验-预训练语言模型的各项异性变化
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/25272.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

TreeMap(1):TreeMap介绍

1 TreeMap的特点 概念: TreeMap是一个双列集合,是Map的子类。底层由红黑树结构构成。 特点: 元素中键不能重复元素会按照大小顺序排序 2 TreeMap的数据结构 2.1二叉查找树 2.1.1二叉查找树的定义 特点: 若左子树不空&#…

从C语言到C++_13(string的模拟实现)深浅拷贝+传统/现代写法

前面已经对 string 类进行了简单的介绍和应用,大家只要能够正常使用即可。 在面试中,面试官总喜欢让学生自己 来模拟实现string类, 最主要是实现string类的构造、拷贝构造、赋值运算符重载以及析构函数。 为了更深入学习STL,下面我…

乐谱文件转换,支持批量mscz、mxl、musicxml转mp3等格式

我是一个喜欢听音乐的人,每天都会在路上听着歌放松自己。但是有时候想要听的歌并没有下载下来,或者格式不兼容。 最近我发现了一个神奇的软件——mscz转mp3,可以把乐谱文件转成mp3格式! 软件界面简洁明了,使用也非常…

【JavaSE】Java基础语法(四十四):XML解析

文章目录 1. 概述2.标签的规则3. 语法规则【应用】4. xml解析【应用】 1. 概述 万维网联盟(W3C) 万维网联盟(W3C)创建于1994年,又称W3C理事会。1994年10月在麻省理工学院计算机科学实验室成立。 建立者: Tim Berners-Lee (蒂姆伯纳斯李)。 是Web技术领域…

Hive安装部署

1、Hive安装地址 ①Hive官网地址 Apache Hive ②文档查看地址 GettingStarted - Apache Hive - Apache Software Foundation ③下载地址 Index of /dist/hive ④github地址 GitHub - apache/hive: Apache Hive 2、 安装Hive 1)把apache-hive-3.1.3-bin.ta…

数据结构-顺序表

数据结构-顺序表 线性表顺序表的概念和结构静态顺序表和动态顺序表 接口的实现顺序表的初始化顺序表的打印顺序表的销毁顺序表的增容顺序表的尾插顺序表的尾删顺序表的头插顺序表的头删顺序表的任意位置插入顺序表的任意位置删除顺序表中元素的查找 完整代码 线性表 线性表是n…

MyBatis 环境搭建+基本使用

目录 MyBatis创建MyBatis环境搭建MyBatis模式开发MyBatis 获取动态参数(查询操作)${} 直接替换#{} 占位符模式替换like查询(模糊查询)多表查询一对一的表映射一对多的表映射 增、删、改操作改操作删除操作增加操作添加用户添加用户…

JVM学习(十三):面试中绕不开的String

目录 一、String 的基本特性 1.1 String类的声明 1.2 String的存储方式在jdk9中的变更 1.3 Stirng 的不可变性 二、String的内存分配 2.1 字符串常量池是什么 2.2 底层原理与默认值 2.3 字符串常量池所在位置 三、字符串的拼接操作 3.1 拼接操作结果存放位置 …

es elasticsearch 九 索引index 定制分词器 type结构后期弃用原因 定制动态映射 动态映射模板 零停机重建索引

目录 索引index 定制分词器 Type底层结构及弃用原因 定制 dynamic mapping 定制dynamic mapping template 动态映射模板 零停机重建索引 生产环境应该度别名数据 索引index Put /index Stings 分片 Mapping 映射 Aliases 别名 增加 Put my_index2 { "se…

软考A计划-试题模拟含答案解析-卷七

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

从C语言到C++_12(string相关OJ题)(leetcode力扣)

上一篇已经讲了string类的接口函数,然后根据查文档刷了牛客和力扣58最后一个单词的长度, 还有力扣415字符串相加,这篇继续跟着查文档来刷力扣题,体会C刷题的方便。 目录 917. 仅仅反转字母 - 力扣(LeetCode&#xf…

Linux 实操篇-组管理和权限管理

Linux 实操篇-组管理和权限管理 Linux 组基本介绍 在linux 中的每个用户必须属于一个组,不能独立于组外。在linux 中每个文件有所有者、所在组、其它组的概念。 所有者所在组其它组改变用户所在的组 文件/目录所有者 一般为文件的创建者,谁创建了该文件&#x…

计算机视觉:卷积核的运行过程

本文重点 我们前面从直观角度理解了卷积神经网络的卷积在特征提取的作用,本节课程我们从数学角度来看一下,卷积是如何计算的? 计算步骤 1. 将卷积核与输入图像的某一部分进行逐元素相乘。 2. 将相乘后的结果求和,得到卷积核在该部分的输出值。 3. 重复以上步骤,将卷积核…

【shiro】shiro整合JWT——3.执行流程

前言 shiro整合JWT系列,主要记录核心思路–如何在shiroredis整合JWTToken。 上一篇中,主要讲如何在shiro框架中配置Jwt,以及token执行的流程。 该篇主要梳理整个代码的执行流程。 ps:本文主要以记录核心思路为主,以下…

uCOSii消息邮箱管理

uCOSii消息邮箱管理 (MESSAGE MAILBOX MANAGEMENT) 消息邮箱主要用于中断和任务之间进行邮件传递,或者是在任务与任务之间进行邮件交换。 我个人觉得,了解uCOSii消息邮箱的几个重要函数,还是有必要的。不是所有人都给我们测试案例。 1、重…

R语言混合效应(多水平/层次/嵌套)模型及贝叶斯实现技术

回归分析是科学研究中十分重要的数据分析工具。随着现代统计技术发展,回归分析方法得到了极大改进。混合效应模型(Mixed effect model),即多水平模型(Multilevel model)/分层模型(Hierarchical Model)/嵌套…

如何快速运用R语言实现生物群落(生态)数据统计分析与绘图

R 语言作的开源、自由、免费等特点使其广泛应用于生物群落数据统计分析。生物群落数据多样而复杂,涉及众多统计分析方法。本次以生物群落数据分析中的最常用的统计方法回归和混合效应模型、多元统计分析技术及结构方程等数量分析方法为主线,通过多个来自…

Linux:查看进程。

Linux:查看进程。 windows linux TTY如果是?说明是不是终端(控制台)启动的,而是系统内部自己启动的。 TIME是启动Linux后,这个进程一共占用了cpu多少时间00…

QT 设计ROS GUI界面订阅和发布话题

QT 设计ROS GUI界面订阅和发布话题 主要参考下面的博客 ROS项目开发实战(三)——使用QT进行ROS的GUI界面设计(详细教程附代码!!!) Qt ROS 相关配置请看上一篇博客 首先建立工作空间和功能包&a…

【探索】机器指令翻译成 JavaScript

前言 前些时候研究脚本混淆时,打算先学一些「程序流程」相关的概念。为了不因太枯燥而放弃,决定想一个有趣的案例,可以边探索边学。 于是想了一个话题:尝试将机器指令 1:1 翻译 成 JavaScript,这样就能在浏览器中&am…