论文笔记：利用词对比注意增强预训练汉字表征

整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att）论文的阅读笔记

背景
模型
实验

论文地址：论文

背景

近年来，以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是，已有的中文预训练模型大多以汉字为基本单位，根据汉字的外部语境学习表征，基于字粒度计算 Attention , 没有利用中文的分词知识。本文提出了一种新的词对齐注意来挖掘显式词信息，对各种基于字符的中文预训练语言模型的表征进行增强。

模型

对于n个字符的输入序列表示为 $S=[c_1,c_2,...,c_n]$ ， $c_j$ 表示输入序列的第j个字符，也就是汉字。使用分词工具 $\pi$ 对序列进行分词： $\pi(S)=[w_1,w_2,...,w_m],(m<=n)$ ，这里面的w就是一个个子序列，代表了由几个字符构成的词语，它们是不相交的，表述为 $w_i=\{c_s,c_{s+1},...,c_{s+l-1}\}$ 。
对于预训练的输出的字符级的表示，首先算一个自注意矩阵 $A_c\in R^{n×n}$ ： $A_c = F(H)=softmax(\frac{(KW_k)(QW+q)^T}{\sqrt d})$ 其中，K和Q都是H（预训练模型最后一层的字符级表示）分别作为kays和quire参与计算， $W_k$ 和 $W_q$ 是可学习参数，维度是d×d， $A_c$ 矩阵在不考虑词边界的情况下对字符级之间的相似度进行建模。
本文的做法就是，利用这个相似度矩阵和上面的分词信息，在单词内部对字符相似度进行整和，首先将 $A_c$ 表示为 $a_c^1,a_c^2,...,a_c^n]$ 其中 $a_c^i$ 就是 $A_c$ 矩阵的一行，它表示某个字符对其它字符的注意力向量，利用分词结果对注意力矩阵进行划分： $\pi(A_c)=[\{a_c^1,a_c^2\},\{a_c^3\},...,\{a_c^{n-1},a_c^n\}]$ 然后，本文设计了一个聚合模块对词内注意力进行聚合，将根据分词结果划分好的注意力序列 ${a_c^s,...,a_c^{s+l-1}}$ 转变成一个统一的 $a_w^i$ ，它对应着词 $w_i$ ,具体计算过程为： $a_w^i=\lambda Maxpooling(\{a_c^s,...,a_c^{s+l-1}\})+(1-\lambda)Meanpooling(\{a_c^s,...,a_c^{s+l-1}\})$ $\hat A_c[s:s+l-1]=e_l\cdot a_w^i$ 其中， $\lambda$ 是一个自适应学习的参数， $e^l$ 是一个全1向量，也就是说把这个词内的注意力结果进行聚合统一了。最终得到增强后的H： $\hat H=\hat A_cVW$ 其中，V就是H，W是一个科学系矩阵，这样我们就通过分词对预训练模型的结果进行了增强。
在这里插入图片描述
也可以进行多头的，在多头注意力架构下，最终结果为： $\bar H=Concat(\hat H^1,\hat H^2,,...,\hat H^K)$ 此外，由于歧义和非形式化输入的风险，分割器通常是不可靠的，特别是在域外数据上，这可能导致错误传播和令人不满意的模型性能。我们也可以使用多个不同的分词器（M个）得到M个最终的表示 $\bar H^1,...,\bar H^M$ ，文中建议的融合方式为: $\tilde H=\sum_{m=1}^Mtanh(\bar H^mW_g)$