GLM
GLM: General Language Model Pretraining with Autoregressive Blank Infilling
论文地址
1. 背景介绍
1)主流预训练框架
模型 | 介绍 | 结构特点 | 训练目标 |
---|---|---|---|
autoregressive | 自回归模型,代表GPT,本质上是一个从左到右的语言模型,常用于无条件生成任务(unconditional generation) | 单向,无法利用到下文的信息 | 从左到右的文本生成 |
autoencoding | 通过某个降噪目标(如掩码语言模型)训练的语言编码器,如BERT、ALBERT、DeBERTa。擅长自然语言理解任务(natural language understanding tasks),常被用来生成句子的上下文表示。 | 双向,可以同时感知上文和下文,因此在自然语言理解任务上表现很好,但是不适合生成任务 | 对文本进行随机掩码,然后预测被掩码的词 |
encoder-decoder | 完整的Transformer结构,包含一个编码器和一个解码器,以T5、BART为代表,常用于有条件的生成任务 (conditional generation) | 器中注意力是双向,解码器中是单向的,因此可同时应用于自然语言理解任务和生成任务。但T5为了达到和RoBERTa相似的性能,往往需要更多的参数量 | 接收一段文本,从左到右的生成另一段文本 |
2)GLM目标
通用语言模型,基于自回归空白填充的预训练框架,结合了自编码和自回归预训练的优点,能够在自然语言理解、有条件生成和无条件生成任务中取得显著的性能提升。
主要的设计点在span shuffling and 2D positional encoding。并将 NLU 任务重构为模仿人类语言的完型填空题。通过改变缺失跨度的数量和长度,自回归空白填充目标可以为有条件和无条件生成任务预训练语言模型。
2.GLM设计
1)训练目标
自回归空白填空
对于给定的文本输入 x = [ x 1 , x 2 , . . . , x ] n x=[x_1, x_2,...,x]_n x=[x1,x2,...,x]n ,采样span { s 1 , s