文章目录
- 一、交叉注意力(cross-attention)
- 二、自注意力(self-attention)
- 三、Transformer优势
- 四、Transformer组件
- 五、LLMs演变过程
Transformer架构彻底改变了自然语言处理。它大量采用了名为交叉注意力(cross-attention)和自注意力(self-attention)的创新方法,这两种方法都基于几年前提出的注意力机制。交叉注意力和自注意力使模型更容易理解文本中单词之间的关系。
一、交叉注意力(cross-attention)
交叉注意力(cross-attention)帮助模型确定输入文本中哪些部分对准确预测输出文本中的下一个单词至关重要。这就像一个聚光灯照在输入文本中的单词或短语上,突出显示需要进行下一个单词预测所需的相关信息;同时忽略不太重要的细节。
为了解释这一点,让我们以一个简单的句子翻译任务为例。假设我们有一句英文句子,“Alice enjoyed the sunny weather in Brussels”,应该翻译成法语为“Alice a profité du temps ensoleillé à Bruxelles”。在这个例子中,让我们专注于生成法语单词“ensoleille”,它的意思是“晴朗的”。对于这个预测,交叉注意力(cross-attention)会赋予英文单词“sunny”和“weather”更多的权重,因为它们都与“ensoleille”的意思相关。通过聚焦于这两个单词,交叉注意力(cross-attention)帮助模型为这个句子部分生成准确的翻译。下图说明了这个例子。
二、自注意力(self-attention)
另一方面,自注意力(self-attention)指的是模型在处理输入时能够聚焦于其不同部分的能力。在自然语言处理的上下文中,模型可以评估句子中每个单词与其他单词的重要性。这使得模型能够更好地理解单词之间的关系,并从输入文本中多个单词构建新概念。
更具体地说,让我们以以下例句为例:“Alice received praise from her colleagues.”假设模型正在尝试理解句子中“her”一词的含义。自注意力(self-attention)机制会为句子中的单词分配不同的权重,突出与这个上下文中“her”相关的单词。在这个例子中,自注意力会更加关注“Alice”和“colleagues”这两个单词。自注意力帮助模型从这些单词中构建新概念。在这个例子中,可能会出现一个概念,如下图所示,即“Alice的同事”。
三、Transformer优势
与循环神经网络(Recurrent Neural Networks - RNN)结构不同, Transformer 还具有易于并行化的优势。这意味着 Transformer 结构可以同时处理输入文本的多个部分,而不是按顺序逐个处理。这样可以实现更快的计算和训练,因为模型的不同部分可以并行工作,而无需等待前一步骤完成,这与需要顺序处理的循环神经网络结构不同。
这一进步使数据科学家能够在更大的数据集上训练模型,为发展大型语言模型铺平了道路。
四、Transformer组件
Transformer 架构于2017年提出,最初用于序列到序列的任务,如机器翻译。一个标准的 Transformer 包括两个主要组件:编码器和解码器,两者都严重依赖注意力机制。编码器的任务是处理输入文本,识别有用的特征,并生成文本的有意义表示,称为嵌入(embedding)。解码器则利用这个嵌入来产生一个输出,例如翻译或摘要,有效地对编码信息进行解释。交叉注意力(cross-attention)在其中起着关键作用,它使解码器能够利用编码器生成的嵌入。在序列到序列任务的上下文中,编码器的作用是捕获输入文本的含义,而解码器的作用是根据编码器在嵌入中捕获的信息生成所需的输出。
编码器和解码器共同提供了一个强大的工具,用于处理和生成文本。
五、LLMs演变过程
GPT 基于 Transformer 架构,特别是专门利用了原始架构中的解码器部分。在 GPT 中,编码器不存在,因此无需交叉注意力来整合由编码器产生的嵌入。因此,GPT 仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测。请注意,其他知名模型如 BERT(Bidirectional Encoder Representations from Transformers)则基于编码器部分。下图展示了这些不同模型的演变过程。