LLaMA:Open and Efficient Foundation Language Models
- Introduction
- Approach
- Pre-training Data
- Architecture
Introduction
在大规模数据下训练的大模型,已经展示了很好的表现,当模型足够大的时,模型会出现一个涌现的能力,如下图:
最近的一项研究表明,在有限的算力下,表现最好的模型不是参数最大的,而是小一点模型搭配了更多数据。
这项工作的重点是训练一系列语言模型,通过对比通常使用的更多的token进行训练,在各种推理预算下达到最佳性能。由此产生的模型被称为LLaMA,参数范围从7B到65B,与现有的最好的LLM相比,性能具有竞争力。
Approach
方法主要受到了 Chinchilla的启发,采用了大量的数据和标准的优化器。
Pre-training Data
训练数据集是多个来源的混合,如表 1 所示,涵盖了不同的领域。
在大多数情况下,我们重复使用已用于训练其他 LLM 的数据源,但仅限于使用公开可用且与开源兼容的数据。
Architecture
-
Pre-normlization
-
SwiGLU
-
Rotary Embedding
模型使用 AdamW 优化器(Loshchilov 和 Hutter,2017)进行训练,具有以下超参数:β1 = 0.9,β2 = 0.95。
使用余弦学习率计划,使最终学习率等于最大学习率的 10%。
使用 0.1 的权重衰减和 1.0 的梯度裁剪。 我们使用 2, 000 个预热步骤,并根据模型的大小改变学习率和批量大小(详见表 2)。