【不同开源基座大模型对比及领域落地的选型考虑】

Key Takeaways：

1、从数据、Tokenizer、模型架构对比不同qwen、deepseek、llama、yi等模型
对于开源大模型的数据和预处理来说，一般我们会关注如下的一些维度；

预训练数据：训练数据的数量、质量与多样性，是模型泛化能力的保障，唯有“吃得好”，模型方能“长得壮”；一般我们需要关注基座模型的数据量有几个T、数据来源、数据处理方式等；除了数据本身的处理之外，预训练的策略也很重要，arxiv/2309.14316 Physics of Language Models: Part 3.1, Knowledge Storage and Extraction这篇论文关于提升预训练基座模型效果中建议在预训练阶段就引入更多的指令微调数据，而不是将所有问答数据推迟到微调阶段。这有助于模型更有效地编码知识，能够获得更好的模型泛化能力。这个做法在Qwen技术报告中就有提及。

多语言支持：数据本身的训练语言决定了其所能投入使用的应用边界。对于我们来说，一般会考虑中文及多语言的应用场景效果

实现简单的BBPE：

1、初始化词表：构建初始词表，包含一个字节的所有表示(256)。
2、构建频率统计：统计所有子词单元对（两个连续的子词）在文本中的出现频率。
3、合并频率最高的子词对：选择出现频率最高的子词对，将它们合并成一个新的子词单元，并更新词汇表。
4、重复合并步骤：不断重复步骤 2 和步骤 3，直到达到预定的词汇表大小、合并次数，
或者直到不再有有意义的合并。
5、分词：使用最终得到的词汇表对文本进行分词。

词表大小：模型的词汇表大小是其语言理解的基石，一个丰富的词汇库，会极大地扩展模型的表达能力，同时能减少推理时所需token数。

Tokenizer算法：主流基本都采用BBPE，工具使用google的SentencePiece或Openai的tiktoken

既然是针对字节的BPE算法，就不会出现OOV问题，但会把不在词表中的一些中文切的非常碎，这样对于自回归生成任务来说是会非常影响效率的，所以一般我们需要去观察分析基座模型的词表大小。

LLama 2：Chat Models

Decoder-only 的架构
与 llama 一样使用 RMSNorm, SwiGLU，RoPE, PreNorm,BPE 不同点：
增加 GQA（group query attention）：但是在 7B 和 13B 上没有增加 GQA，70B 上使用的 GQA。
数据增加 40%，max_seq_len: 2048 变为 4096
进行有监督微调和 RLHF。
使用 3w 高质量 SFT 数据进行 llama2-chat。

Qwen

1 预训练

预训练数据共3TB, 涵盖公共网络文档、百科全书、书籍、代码等多语种内容, 以中文和英文为主
采用了一套全面的数据预处理程序, 包括从 HTML 中提取文本、删除重复数据、过滤低质量数据、人工审查等步骤, 以确保数据质

2 Tokenizer

使用开源快速 BPE 分词器 tiktoken, 在 cl100k 基础词库上增加了中文字词和其他语言词汇, 将数字字符串拆分, 最终词表大小为 152K
Embedding 和 output projection 不进行权重共享
使用 RoPE 作为位置编码,FP32 精确度的逆频率矩阵
在 QKV 注意力层添加偏差, 增强模型外推能力
采用预归一化和 RMSNorm 提高训练稳定性
使用 SwiGLU 激活函数, 减小了隐藏层维度

3 外推能力扩展

利用简单非训练计算, 在推理过程中扩展上下文长度
动态 NTK 感知插值, 对位置信息动态缩放
LogN-Scaling, 根据上下文长度调整注意力值熵
Window Attention, 限制注意力在局部上下文窗口内

2 、模型结构

1、Transformer decoder整体结构如下，以LLaMa3-8B为例

在这里插入图片描述
由于很多模型如qwen、llama、mistral、yi等开源基座都是相互借鉴，考虑到大模型的巨大预训练成本，大家基本都会采用类似的架构，真正能在架构上进行创新的公司，都会被大家所追捧点赞！比如LLaMa2 70B第一次使用GQA，Deepseek对MHA到MLA的改进

知识容量

有篇研究大模型知识容量的论文https://arxiv.org/pdf/2404.05405.pdf
论文标题：Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws
Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws比较了GPT-2、LLaMA和Mistral等不同模型架构，发现在充分训练下，它们都接近于2比特/参数的容量比率。论文通过对比实验发现，在1000次曝光的条件下，所有模型（包括使用GatedMLP的LLaMA/Mistral和使用标准MLP的GPT-2）都能达到大约2比特/参数的知识存储比率。然而，在训练次数较少（如100次曝光）的情况下，GatedMLP的性能下降更为明显。进一步说明网络架构的重要性。

 如果训练时间充足，作者发现，不论使用何种模型架构，GPT2 或 LlaMA/Mistral，模型的存储效率均
 可以达到 2bit/param—— 即平均每个模型参数可以存储 2 比特的信息。这与模型的深度无关，
 仅与模型大小有关。换言之，一个 7B 大小的模型，如果训练充足，可以存储 14B 比特的知识，
 这超过了维基百科和所有英文教科书中人类知识的总和！

位置编码：

现在基本清一色的Rope了，建议查阅 https://kexue.fm/archives/8265
`

注意力机制：MHA、MQA、GQA、MLA

https://kexue.fm/archives/10091 从标准多头注意力到更大尺寸模型的GQA和MLA，这一部分基本是为了不丢效果情况下的性能优化``

Pre-RMSNorm

在这里插入图片描述
目前业内的各种模型如qwen、llama、mistral、deepseek等大厂又无一例外的都是PreRMSNorm，也很难得出结论说在更较大模型下的norm方式选择的差异性。所以这个问题上可以先了解其原理再观望分析看看。

激活函数swiglu

Activation Function：这关系到模型对于信息的筛选，选择ReLU、GELU、Swish等不同的激活函数，会对模型产生不小影响。
在这里插入图片描述

注意力隐藏层维度、全连接隐藏层维度：

Intermediate Size：中间层的大小影响模型的学习和复杂度，一个恰到好处的中间层，能够使模型既不过于简单，也能较为高效。

Hidden size决定了模型内部表示的丰富程度。更大的hidden size可以捕获更复杂的特征和模式，但同时也会增加模型的参数量和计算负

Base版本、Instruct版本和Chat版本的不同

base版本只是做了next token prediction的预测，相当于纯粹是学习下一个词。
instruct会遵循特定的指令，代表听话能力。
chat版本会对齐helpful、harmnless、honest，会有alignment tax问题。
为什么会有对齐的问题呢，个人浅显理解为这几个本身是会冲突的，有用的东西可能会有害，这其中的边界无法完全界定开，如果涉及到不同政治立场，可能更会对知识本身的纯粹性施加影响。所以这种对齐会影响到大模型本身的知识体系是不难理解的，只不过大家都在优化对齐技术，确保这种影响更小，或者提供一些instruct的版本供一些落地文本任务使用。

另一方面，chat版本大部分都会做多轮对话，所以对于很多的上下文问题如指代消解，信息省略等场景chat版本应该会处理的更好，如果期望构建类似的agent或者多轮对话场景，这无疑是个比较好的选型。