【他山之石】BlueLM蓝心大模型的落地

note

预训练：我们采用了混合精度训练以及梯度缩放策略，因为这可以减少训练周期，训练周期较少会节省模型训练所需的时间和资源。选择回放训练能够让模型定向学会一类知识信息。Loss 预测确保在训练过程前对损失进行估计，以保证训练过程中的损失符合我们的预期，最终收敛较好的结果。
SFT微调：采用了“target only loss”方法，并通过聚类分析对指令进行了适应性处理，以更好地确保模型的均衡性。
RLHF对齐：人类价值对齐阶段，我们采用了离线采样策略和双重奖励模型等策略，会在安全性上明显提升。
最后：会根据产品应用的需求设定相应的提示信息，以确保模型输出符合我们和用户的预期。我们也在尝试构建更好的提示工程，包括自我补全和检索增强等策略，以确保用户通过产品获得的结果是最优的。

文章目录

note
一、蓝心大模型矩阵
- 优势1：海量数据
- 优势2：高效算法
- 优势3：端侧性能优秀
- 优势4：安全可控
- 优势5：模型效果靠谱
二、落地场景
三、相关QA
Reference

一、蓝心大模型矩阵

平衡模型任务效果、性能和推理成本，不同规模的模型去解决不同任务，比如目前端侧主要运用 1B 和 7B 的模型做定向任务，而在云端则使用规模更大的 70B 及以上参数规模模型做更通用能力和复杂任务。
在这里插入图片描述
全景图：

优势1：海量数据

在这里插入图片描述

首先，我们对不同来源的数据做了分类，比如网页、书籍、代码等。考虑到不同来源的数据类型、存储方式的不同，我们需要制定不同的清洗规则，比如去掉垃圾信息、格式化书本信息、抽取有效内容，这一步会大幅去掉低质数据。
接着是数据去重，这一步非常重要，重复的数据会降低知识密度。我们知道网页信息之间是有大量重复，包括不同信息来源之间或多或少存在重新，我们需要对文档内部、文档之间进行去重和模糊去重，这里能够得到密度更高的训练语料；
最后是数据采样，按照合适的比例采样出用于训练的数据，最终为模型训练提供了超过 3T + 的 token 数据。整个数据处理过程经历了获取、清洗、去重和采样等环节，以确保为模型训练提供高质量数据。

在这里插入图片描述

优势：图片研究院已经积累了 13000T 的多种模态数据，以及 2800T 高质量中文文本数据，包括万亿级的文本数据和百亿级的图片数据。这些数据经过清洗和压缩后，仅用于百亿蓝心大模型的文本数据量就达到了 15TB，相当于 2.5 个中国国家图书馆的藏书量。这为蓝心大模型的训练和优化提供了强大的支持。

优势2：高效算法

在这里插入图片描述

预训练：我们采用了混合精度训练以及梯度缩放策略，因为这可以减少训练周期，训练周期较少会节省模型训练所需的时间和资源。选择回放训练能够让模型定向学会一类知识信息。Loss 预测确保在训练过程前对损失进行估计，以保证训练过程中的损失符合我们的预期，最终收敛较好的结果。
SFT微调：采用了“target only loss”方法，并通过聚类分析对指令进行了适应性处理，以更好地确保模型的均衡性。
RLHF对齐：人类价值对齐阶段，我们采用了离线采样策略和双重奖励模型等策略，会在安全性上明显提升。
最后：会根据产品应用的需求设定相应的提示信息，以确保模型输出符合我们和用户的预期。我们也在尝试构建更好的提示工程，包括自我补全和检索增强等策略，以确保用户通过产品获得的结果是最优的。

优势3：端侧性能优秀

目前在手机端运行的是 1B 和 7B 的模型，我们也跑通了诶手机端 13B 的模型。实现更高的端侧性能，需要平衡内存、体积、性能和功耗。

我们从模型、工具和框架三个方面着手，为了保证在手机端运行 1B 和 7B 模型，我们进行了优化，包括模型压缩、量化，工具使用（如图优化、GPTQ 等），以及适配不同平台的框架（如低比特存储、混合精度计算等），最终能让 1B，7B 在手机终端运行上线产品。
在这里插入图片描述

优势4：安全可控

安全在我们的工作中是首要考虑的事情，正确的价值取向是大模型的灵魂。我们建立了上百余名专业人员组成的审核团队，制定了 200+ 的安全审查机制，对模型的输出进行筛查和标注，并借此训练出高质量的奖励模型，保证为用户提供有价值的信息。通过我们内部大模型数据、训练、评测和应用等安全治理流程，最终能够让我们大模型安全符合标准，上线产品。

优势5：模型效果靠谱

在这里插入图片描述

二、落地场景

在这里插入图片描述

三、相关QA

Q2：关于对全参数微调和 LoRA 微调是怎么评估选择的？
A2：我们首先考虑了训练资源的情况。我们尝试了一些 LoRA 微调。但这个问题在一定程度上是受制于资源的限制的结果。我们转向了全参数微调，发现它的效果更佳。尽管 LoRA 微调在某种程度上接近全参数微调，但最终的效果常常取决于我们能够使用的数据量和资源。

Q3：在训练数据类型的配比方面，是否有一些标准或经验值？
A3：针对数据的类型，一般是有一些经验值可供参考的。比如中英文可能是一比一的比例，每个类别可能会有不同的比例。数学、逻辑推理或代码相关的数据可能会有不同的配比。这些都是基于经验值，采样过程中也有一些考量，例如对于高质量的数据，可以进行重复采样。

Q4：对于数据抽样，特别是从网页等数据量大的来源中的策略是怎样的？
A4：对于数据量大的来源，如网页数据，抽样可以基于一些策略。可能需要在 10% 数据中选取 2% 进行使用。相对稀缺但高质量的数据，如数学、逻辑推理等，可能不容易获取。通用的网页数据则可能不需要大量使用。这些都是基于经验值和个人获取数据来源的考量。

Q5：在训练数据的配比上是否尝试过多次不同的比例？
A5：我们尝试过，但在 1B 规模下很难显现效果。对于配比，特别是代码类的数据，实际理解的局限性使得它的作用受限。大量参数模型（如 7B 或 13B）的训练成本较高，这使得尝试多种配比成为一种经验而非现实操作。

Q9：每个阶段数据量是多少？
A9：在预训练阶段，我们 7B 规模的数据是 2.6T，目前更高规模的模型则是 3T+。但这也与采样策略有关。至于微调，在业务中使用的是百万级别的数据，但对于较小的模型可能可以压缩到五万或十万。

Q11：如何定义高质量数据的标准？
A11：（1）标准制定：我们会依据多项指标来设定数据质量标准。考虑到数据多样性及各维度特征分布，我们设定了每个维度上的低值率标准。
（2）低值域过滤：我们设置了阈值，以过滤出低值域数据。同时，我们有针对业务需求设计的过滤规则，这些规则较难概括为通用标准。
（3）数据处理细节：举例来说，对于网页数据，我们会过滤掉广告和插入信息，这需要对网站内容进行精细的处理，并牵涉到大量人工参与。