《LLM探秘系列》(2)：解锁大模型核心概念

🎉

AI学习星球推荐：

GoAI的学习社区

知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！
加入星球
➡️
点击链接

✨
专栏介绍：
本作者推出全新系列《深入浅出LLM》专栏，将分为基础篇、进阶篇、实战篇等，本文为基础篇具体章节如导图所示（导图为常见LLM问题，导图专栏后续更新！），将分别从各个大模型模型的概念、经典模型、创新点、微调、分布式训练、数据集、未来发展方向、RAG、Agent及项目实战等各种角度展开详细介绍，欢迎大家关注。

💙
作者主页:
GoAI
|💚
公众号:
GoAI的学习小屋 | 💛
交流群:
704932595
|💜
个人简介：
掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与AI 知识分享。

《深入浅出LLM基础篇》目录

《深入浅出LLM基础篇》（一）：大模型概念与发展

《深入浅出LLM基础篇》（二）：大模型基础知识

Transformer组成

Transformer是一种由谷歌在2017年提出的深度学习模型，主要用于自然语言处理（NLP）任务，特别是序列到序列（Sequence-to-Sequence）的学习问题，如机器翻译、文本生成等。Transformer彻底改变了之前基于循环神经网络（RNNs）和长短期记忆网络（LSTMs）的序列建模范式，并且在性能上取得了显著提升。Transformer结构如下图所示：

Transformer的核心创新点包括：

自注意力机制（Self-Attention Mechanism）：Transformer模型摒弃了传统RNN结构的时间依赖性，通过自注意力机制实现了对输入序列中任意两个位置之间的直接关联建模。每个词的位置可以同时关注整个句子中的其他所有词，计算它们之间的相关性得分，然后根据这些得分加权求和得到该位置的上下文向量表示。这种全局信息的捕获能力极大地提高了模型的表达力。

多头注意力（Multi-Head Attention）
：Transformer进一步将自注意力机制分解为多个并行的“头部”，每个头部负责从不同角度对输入序列进行关注，从而增强了模型捕捉多种复杂依赖关系的能力。最后，各个头部的结果会拼接并经过线性变换后得到最终的注意力输出。

位置编码（Positional Encoding）
：由于Transformer不再使用RNN那样的顺序处理方式，为了引入序列中词的位置信息，它采用了一种特殊的位置编码方法。这种方法对序列中的每个位置赋予一个特定的向量，这个向量的值与位置有关，确保模型在处理时能够区分不同的词语顺序。

编码器-解码器架构（Encoder-Decoder Architecture）
：Transformer采用了标准的编码器-解码器结构，其中编码器负责理解输入序列，将其转换成高级语义表示；而解码器则依据编码器的输出并结合自身产生的隐状态逐步生成目标序列。在解码过程中，解码器还应用了自注意力机制以及一种称为“掩码”（Masking）的技术来防止提前看到未来要预测的部分。

残差连接（Residual Connections）
：Transformer沿用了ResNet中的残差连接设计，以解决随着网络层数加深带来的梯度消失或爆炸问题，有助于训练更深更复杂的模型。

层归一化（Layer Normalization）
：Transformer使用了层归一化而非批量归一化，这使得模型在小批量训练时也能获得良好的表现，并且有利于模型收敛。

总结：

Transformer架构的核心组成：

自注意力机制（Self-Attention）和前馈神经网络（Feedforward Neural Networks），自注意力机制允许模型在处理每个单词时同时考虑到句子中的其他单词，从而捕捉更复杂的语言关系
Layer Normalization和残差连接ADD，防止在深层网络中出现的梯度消失问题
位置编码：由于Transformer模型本身不处理序列中的位置信息，位置编码可以添加位置信息，对于理解文本顺序和语言结构至关重要。

四、大模型结构分类

基于Transformer结构的模型又可以分为Encoder-only、Decoder-only、Encoder-Decoder三类，具体如下图所示。

1.Encoder-Only架构：

定义与特点：这类模型仅包含编码器部分，主要用于从输入数据提取特征或表示。例如，在BERT (Bidirectional Encoder Representations from Transformers) 中，它是一个双向Transformer编码器，被训练来理解文本上下文信息，并输出一个固定长度的向量表示，该表示包含了原始输入序列的丰富语义信息。

用途：主要用于预训练模型，如BERT、RoBERTa等，常用于各种下游任务的特征提取，比如分类、问答、命名实体识别等，但不直接用于生成新的序列。

仅编码器架构（Encoder-only）
：
自编码模型
（破坏一个句子，然后让模型去预测或填补），更擅长理解类的任务，例如：文本分类、实体识别、关键信息抽取等。典型代表有：
Bert、RoBERTa
等。

Decoder-Only架构：

定义与特点：解码器仅架构专注于从某种内部状态或先前生成的内容生成新的序列，通常用于自回归式预测任务，其中每个时刻的输出都依赖于前面生成的所有内容。

优点：强大的序列生成能力，能够按顺序逐个生成连续的元素（如单词、字符），适用于诸如文本生成、自动摘要、对话系统等生成性任务。典型的Decoder-Only模型包括GPT系列（如GPT-3）。

仅解码器架构（Decoder-only）
：
自回归模型
（将解码器自己当前步的输出加入下一步的输入，解码器融合所有已经输入的向量来输出下一个向量，所以越往后的输出考虑了更多输入），更擅长生成类的任务，例如：文本生成。典型代表有：
GPT系列、LLaMA、OPT、Bloom
等。

3.Encoder-Decoder架构：

定义与特点：这种架构由两个主要部分组成：编码器和解码器。编码器负责将输入序列转换为压缩的中间表示，解码器则基于这个中间表示生成目标输出序列。这种结构非常适合翻译、摘要生成、图像描述等任务，需要理解和重构输入信息后生成新序列的任务。

工作原理：编码器对源序列进行处理并生成上下文向量，解码器根据此上下文向量逐步生成目标序列。例如，经典的Seq2Seq（Sequence-to-Sequence）模型和Transformer中的机器翻译模型就采用了这样的结构。

编码器-解码器架构（Encoder-Decoder）
：序列到序列模型（编码器的输出作为解码器的输入），主要用于基于条件的生成任务，例如：翻译，概要等。典型代表有：
T5、BART、GLM
等。

总结：

Encoder-Only用于理解输入并生成其抽象表示，不涉及序列生成。

Decoder-Only专门用于根据之前的信息自动生成新序列，不接收外部输入。

Encoder-Decoder结合了两者的功能，首先对输入进行编码，然后基于编码结果解码生成新序列。

五、上文学习（In Context Learning）

上文学习，模型以输入的提示（一段自然语言，包括任务描述，零或少量示例，推理类问题上还包含推理步骤）为条件补充生成后面的文本，本质是条件生成p(output | prompt, model)，与自回归模型的预训练目标是一致的。上文学习的理论依据目前仍是个开放问题，直观理解大模型从大量语料里学到了语言pattern，上文作为pattern的前缀能够诱导（elicit/steer/priming/modulate）模型向”正确的“pattern继续生成。