论文笔记:利用词对比注意增强预训练汉字表征

整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att)论文的阅读笔记

  • 背景
  • 模型
  • 实验

论文地址:论文

背景

  近年来,以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是,已有的中文预训练模型大多以汉字为基本单位,根据汉字的外部语境学习表征,基于字粒度计算 Attention , 没有利用中文的分词知识。本文提出了一种新的词对齐注意来挖掘显式词信息,对各种基于字符的中文预训练语言模型的表征进行增强。

模型

  对于n个字符的输入序列表示为 S = [ c 1 , c 2 , . . . , c n ] S=[c_1,c_2,...,c_n] S=[c1,c2,...,cn] c j c_j cj表示输入序列的第j个字符,也就是汉字。使用分词工具 π \pi π对序列进行分词: π ( S ) = [ w 1 , w 2 , . . . , w m ] , ( m < = n ) \pi(S)=[w_1,w_2,...,w_m],(m<=n) π(S)=[w1,w2,...,wm],(m<=n),这里面的w就是一个个子序列,代表了由几个字符构成的词语,它们是不相交的,表述为 w i = { c s , c s + 1 , . . . , c s + l − 1 } w_i=\{c_s,c_{s+1},...,c_{s+l-1}\} wi={cs,cs+1,...,cs+l1}
  对于预训练的输出的字符级的表示,首先算一个自注意矩阵 A c ∈ R n × n A_c\in R^{n×n} AcRn×n A c = F ( H ) = s o f t m a x ( ( K W k ) ( Q W + q ) T d ) A_c = F(H)=softmax(\frac{(KW_k)(QW+q)^T}{\sqrt d}) Ac=F(H)=softmax(d (KWk)(QW+q)T)  其中,K和Q都是H(预训练模型最后一层的字符级表示)分别作为kays和quire参与计算, W k W_k Wk W q W_q Wq是可学习参数,维度是d×d, A c A_c Ac矩阵在不考虑词边界的情况下对字符级之间的相似度进行建模。
  本文的做法就是,利用这个相似度矩阵和上面的分词信息,在单词内部对字符相似度进行整和,首先将 A c A_c Ac表示为 [ a c 1 , a c 2 , . . . , a c n ] [a_c^1,a_c^2,...,a_c^n] [ac1,ac2,...,acn]其中 a c i a_c^i aci就是 A c A_c Ac矩阵的一行,它表示某个字符对其它字符的注意力向量,利用分词结果对注意力矩阵进行划分: π ( A c ) = [ { a c 1 , a c 2 } , { a c 3 } , . . . , { a c n − 1 , a c n } ] \pi(A_c)=[\{a_c^1,a_c^2\},\{a_c^3\},...,\{a_c^{n-1},a_c^n\}] π(Ac)=[{ac1,ac2},{ac3},...,{acn1,acn}]  然后,本文设计了一个聚合模块对词内注意力进行聚合,将根据分词结果划分好的注意力序列 a c s , . . . , a c s + l − 1 {a_c^s,...,a_c^{s+l-1}} acs,...,acs+l1转变成一个统一的 a w i a_w^i awi,它对应着词 w i w_i wi,具体计算过程为: a w i = λ M a x p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) + ( 1 − λ ) M e a n p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) a_w^i=\lambda Maxpooling(\{a_c^s,...,a_c^{s+l-1}\})+(1-\lambda)Meanpooling(\{a_c^s,...,a_c^{s+l-1}\}) awi=λMaxpooling({acs,...,acs+l1})+(1λ)Meanpooling({acs,...,acs+l1}) A ^ c [ s : s + l − 1 ] = e l ⋅ a w i \hat A_c[s:s+l-1]=e_l\cdot a_w^i A^c[s:s+l1]=elawi  其中, λ \lambda λ是一个自适应学习的参数, e l e^l el是一个全1向量,也就是说把这个词内的注意力结果进行聚合统一了。最终得到增强后的H: H ^ = A ^ c V W \hat H=\hat A_cVW H^=A^cVW  其中,V就是H,W是一个科学系矩阵,这样我们就通过分词对预训练模型的结果进行了增强。
在这里插入图片描述
  也可以进行多头的,在多头注意力架构下,最终结果为: H ˉ = C o n c a t ( H ^ 1 , H ^ 2 , , . . . , H ^ K ) \bar H=Concat(\hat H^1,\hat H^2,,...,\hat H^K) Hˉ=Concat(H^1,H^2,,...,H^K)  此外,由于歧义和非形式化输入的风险,分割器通常是不可靠的,特别是在域外数据上,这可能导致错误传播和令人不满意的模型性能。我们也可以使用多个不同的分词器(M个)得到M个最终的表示 H ˉ 1 , . . . , H ˉ M \bar H^1,...,\bar H^M Hˉ1,...,HˉM,文中建议的融合方式为: H ~ = ∑ m = 1 M t a n h ( H ˉ m W g ) \tilde H=\sum_{m=1}^Mtanh(\bar H^mW_g) H~=m=1Mtanh(HˉmWg)

实验

  选择了三个公开可用的中文预训练模型作为基本编码器:BERT、ERNIE和BERT-wwm。在5个中文自然语言处理任务和6个公共基准数据集上进行了实验。实验设置:
在这里插入图片描述实验结果:在这里插入图片描述消融实验:在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/405872.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

谈谈对BFC的理解

文章目录 一、是什么二、触发条件三、应用场景防止margin重叠&#xff08;塌陷&#xff09;清除内部浮动自适应多栏布局小结 参考文献 一、是什么 我们在页面布局的时候&#xff0c;经常出现以下情况&#xff1a; 这个元素高度怎么没了&#xff1f;这两栏布局怎么没法自适应&…

28-k8s集群中-StatefulSets控制器(进阶知识)

一、statefullsets控制器概述 1&#xff0c;举例 假如&#xff0c;我们有一个deployment资源&#xff0c;创建了3个nginx的副本&#xff0c;对于nginx来讲&#xff0c;它是不区分启动或者关闭的先后顺序的&#xff0c;也就是“没有特殊状态”的一个服务&#xff0c;也成“无状…

一次有趣的nginx Tcp4层代理转发的试验

nginx主配置文件添加配置&#xff1a; stream {log_format proxy $remote_addr [$time_local] $protocol status:$status bytes_sent:$bytes_sent bytes_received:$bytes_received $session_time upstream_addr:"$upstream_addr" "$upstream_bytes_sent" …

React18源码: React调度中的3种优先级类型和Lane的位运算

优先级类型 React内部对于优先级的管理&#xff0c;贯穿运作流程的4个阶段&#xff08;从输入到输出&#xff09;&#xff0c;根据其功能的不同&#xff0c;可以分为3种类型&#xff1a; 1 &#xff09;fiber优先级(LanePriority) 位于 react-reconciler包&#xff0c;也就是L…

基于Java SSM框架实现网络作业提交与批改系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现网络作业提交与批改系统演示 摘要 随着互联网时代的到来&#xff0c;同时计算机网络技术高速发展&#xff0c;网络管理运用也变得越来越广泛。因此&#xff0c;建立一个B/S结构的网络作业提交与批改系统&#xff0c;会使网络作业提交与批改系统工作系统化…

JavaScript字符串的常用方法(非常详细)

文章目录 一、操作方法增concat 删改trim()、trimLeft()、trimRight()repeat()padEnd() toLowerCase()、 toUpperCase()查charAt()indexOf()startWith()、includes() 二、转换方法split 三、模板匹配方法match()search()replace() 一、操作方法 我们也可将字符串常用的操作方法…

c编译器学习07:minilisp编译器改造(debug模式支持调试)

问题 原版的minilisp编译器不支持argv输入测试&#xff0c;不方便单步调试。 代码改造目标是既不改变原有程序的各种功能&#xff0c; 又能支持个人习惯的vs单步debug模式。 CMakeLists.txt变更 定义DEBUG宏 解决单步调试源码定位偏差问题 cmake_minimum_required(VERSION …

Puppeteer 使用实战:如何将自己的 CSDN 专栏文章导出并用于 Hexo 博客(二)

文章目录 上一篇效果演示Puppeteer 修改浏览器的默认下载位置控制并发数错误重试并发控制 错误重试源码 上一篇 Puppeteer 使用实战&#xff1a;如何将自己的 CSDN 专栏文章导出并用于 Hexo 博客&#xff08;一&#xff09; 效果演示 上一篇实现了一些基本功能&#xff0c;…

8.qt5使用opencv的库函数打开图片

1.配置opencv动态库的环境变量 2.在创建的qt工程中加入如下opencv代码&#xff0c;具体代码如下&#xff1a; 使用opencv库函数显示图片

Mamba详细介绍和RNN、Transformer的架构可视化对比

Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm&#xff0c;人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba&#xff08;一种状态空间模型&#xff09;。 Mamba: Linear-Time Sequence Modeling with Select…

JVM面试题(1)

1.说一下jvm的主要组成部分&#xff0c;以及作用 类加载器&#xff08;ClassLoader&#xff09;&#xff1a;将java代码转换成字节码 运行时数据区&#xff08;Runtime Data Area&#xff09;&#xff1a;将字节码加载到内存中 执行引擎&#xff08;Execution Engine&#x…

【Flink数据传输(一)】NetworkStack架构概述:实现tm之间的数据交换

文章目录 1. NetworkStack整体架构2. StreamTask内数据流转过程 NetworkStack提供了高效的网络I/O和反压控制 除了各个组件之间进行RPC通信之外&#xff0c;在Flink集群中TaskManager和TaskManager节点之间也会发生数据交换&#xff0c;尤其当用户提交的作业涉及Task实例运行在…

个人博客系列-环境配置-gitee(2)

注册gitee账户 地址&#xff1a;https://gitee.com/ 此步骤省略 新建仓库 执行以下命令 即可 拉取代码 创建目录 mkdir myCode && cd myCode 登录gitee找到项目&#xff0c;点击克隆&#xff0c;拉取代码 连接远程仓库命令 git remote add origin 仓库地址http…

PCIe 5.0 Layout Guide笔记

一、松耦合和紧耦合 松耦合优点是相同走线宽度下电介质更薄,同时对线间距的变化不敏感,提供了更好的阻抗控制;松耦合缺点是需要更大的区域进行绕线;紧耦合优点是更高的布线密度,相同阻抗下走线可以更细,同时具有更好的共模噪声抑制;紧耦合缺点是阻抗随线间距的变化大;【…

单片机02_寄存器_GPIO设置__点灯

芯片概述 C51&#xff1a;0口、1口、2口、3口&#xff0c;P00~p07、P10~P17、P20~P27、P30~P37 STM32&#xff1a;A口、B口、C口、D口&#xff0c;PA0~PA15/PA5 GPIOA.5 STM32F407ZGT6有7组GPIO端口&#xff0c;分别是&#xff1a;A B C D E F G&#xff0c;每组均有16个GPIO端…

Linux Android USB gadget(从设备驱动)

Linux Android USB gadget 一:Linux usb gadget 与 Android Composite Gadget二:原生方式和Android方式如何配置函数调用逻辑内核配置原生驱动android驱动三:mass_storage配置虚拟化U盘四:遍历usb设备五:adb usb判断usb设备为adb获取adb配置信息adb设备序列号发送与接收《Linux…

vue中使用echarts绘制双Y轴图表时,刻度没有对齐的两种解决方法

文章目录 1、原因2、思路3、解决方法3.1、使用alignTicks解决3.2、结合min和max属性去配置interval属性1、首先固定两边的分隔的段数。2、结合min和max属性去配置interval。 1、原因 刻度在显示时&#xff0c;分割段数不一样&#xff0c;导致左右的刻度线不一致&#xff0c;不…

解决Maven爆红以及解决 Idea 卡在 Resolving问题

关于 Idea 卡在 Resolving&#xff08;前提是Maven的setting.xml中配置好了阿里云和仓库&#xff09; 参考文章https://blog.csdn.net/jiangyu1013/article/details/95042611 解决Maven爆红参考文章https://devpress.csdn.net/beijing/656d993b76f0791b6eca7bb0.html?dp_toke…

可在线免费使用的5款ChatGPT平替网站!

可在线免费使用的5款ChatGPT平替网站&#xff01; 渗透智能 ShirtAI 是一款全方位AI产品&#xff0c;集成问答绘画导图等功能!支持联网功能、 支持上下文对话、支持模糊匹配自定义回复消息、 支持注册配置自定义赠送额度、支持生成专属邀请码邀请用户双方共同获得额度。 https…

【深蓝学院】移动机器人运动规划--第6章 模型预测控制(MPC)与运动规划--笔记

0. Outline 1. Reactive Control&#xff08;反应式控制&#xff09; 控制学中的 “Reactive Control” 通常指的是一种控制策略&#xff0c;它依赖于系统对特定事件或变化的即时反应&#xff0c;而不是按照预定的计划或策略行动。这种控制往往是基于当前的传感器输入来做出决…