【他山之石】BlueLM蓝心大模型的落地

note

  • 预训练:我们采用了混合精度训练以及梯度缩放策略,因为这可以减少训练周期,训练周期较少会节省模型训练所需的时间和资源。选择回放训练能够让模型定向学会一类知识信息。Loss 预测确保在训练过程前对损失进行估计,以保证训练过程中的损失符合我们的预期,最终收敛较好的结果。
  • SFT微调:采用了“target only loss”方法,并通过聚类分析对指令进行了适应性处理,以更好地确保模型的均衡性。
  • RLHF对齐:人类价值对齐阶段,我们采用了离线采样策略和双重奖励模型等策略,会在安全性上明显提升。
  • 最后:会根据产品应用的需求设定相应的提示信息,以确保模型输出符合我们和用户的预期。我们也在尝试构建更好的提示工程,包括自我补全和检索增强等策略,以确保用户通过产品获得的结果是最优的。

文章目录

  • note
  • 一、蓝心大模型矩阵
    • 优势1:海量数据
    • 优势2:高效算法
    • 优势3:端侧性能优秀
    • 优势4:安全可控
    • 优势5:模型效果靠谱
  • 二、落地场景
  • 三、相关QA
  • Reference

一、蓝心大模型矩阵

平衡模型任务效果、性能和推理成本,不同规模的模型去解决不同任务,比如目前端侧主要运用 1B 和 7B 的模型做定向任务,而在云端则使用规模更大的 70B 及以上参数规模模型做更通用能力和复杂任务。
在这里插入图片描述
全景图:
在这里插入图片描述

优势1:海量数据

在这里插入图片描述

  • 首先,我们对不同来源的数据做了分类,比如网页、书籍、代码等。考虑到不同来源的数据类型、存储方式的不同,我们需要制定不同的清洗规则,比如去掉垃圾信息、格式化书本信息、抽取有效内容,这一步会大幅去掉低质数据。
  • 接着是数据去重,这一步非常重要,重复的数据会降低知识密度。我们知道网页信息之间是有大量重复,包括不同信息来源之间或多或少存在重新,我们需要对文档内部、文档之间进行去重和模糊去重,这里能够得到密度更高的训练语料;
  • 最后是数据采样,按照合适的比例采样出用于训练的数据,最终为模型训练提供了超过 3T + 的 token 数据。整个数据处理过程经历了获取、清洗、去重和采样等环节,以确保为模型训练提供高质量数据。

在这里插入图片描述

优势:图片研究院已经积累了 13000T 的多种模态数据,以及 2800T 高质量中文文本数据,包括万亿级的文本数据和百亿级的图片数据。这些数据经过清洗和压缩后,仅用于百亿蓝心大模型的文本数据量就达到了 15TB,相当于 2.5 个中国国家图书馆的藏书量。这为蓝心大模型的训练和优化提供了强大的支持。

优势2:高效算法

在这里插入图片描述

  • 预训练:我们采用了混合精度训练以及梯度缩放策略,因为这可以减少训练周期,训练周期较少会节省模型训练所需的时间和资源。选择回放训练能够让模型定向学会一类知识信息。Loss 预测确保在训练过程前对损失进行估计,以保证训练过程中的损失符合我们的预期,最终收敛较好的结果。
  • SFT微调:采用了“target only loss”方法,并通过聚类分析对指令进行了适应性处理,以更好地确保模型的均衡性。
  • RLHF对齐:人类价值对齐阶段,我们采用了离线采样策略和双重奖励模型等策略,会在安全性上明显提升。
  • 最后:会根据产品应用的需求设定相应的提示信息,以确保模型输出符合我们和用户的预期。我们也在尝试构建更好的提示工程,包括自我补全和检索增强等策略,以确保用户通过产品获得的结果是最优的。

优势3:端侧性能优秀

目前在手机端运行的是 1B 和 7B 的模型,我们也跑通了诶手机端 13B 的模型。实现更高的端侧性能,需要平衡内存、体积、性能和功耗。

我们从模型、工具和框架三个方面着手,为了保证在手机端运行 1B 和 7B 模型,我们进行了优化,包括模型压缩、量化,工具使用(如图优化、GPTQ 等),以及适配不同平台的框架(如低比特存储、混合精度计算等),最终能让 1B,7B 在手机终端运行上线产品。
在这里插入图片描述

优势4:安全可控

安全在我们的工作中是首要考虑的事情,正确的价值取向是大模型的灵魂。我们建立了上百余名专业人员组成的审核团队,制定了 200+ 的安全审查机制,对模型的输出进行筛查和标注,并借此训练出高质量的奖励模型,保证为用户提供有价值的信息。通过我们内部大模型数据、训练、评测和应用等安全治理流程,最终能够让我们大模型安全符合标准,上线产品。

优势5:模型效果靠谱

在这里插入图片描述

二、落地场景

在这里插入图片描述

三、相关QA

Q2:关于对全参数微调和 LoRA 微调是怎么评估选择的?
A2:我们首先考虑了训练资源的情况。我们尝试了一些 LoRA 微调。但这个问题在一定程度上是受制于资源的限制的结果。我们转向了全参数微调,发现它的效果更佳。尽管 LoRA 微调在某种程度上接近全参数微调,但最终的效果常常取决于我们能够使用的数据量和资源。

Q3:在训练数据类型的配比方面,是否有一些标准或经验值?
A3:针对数据的类型,一般是有一些经验值可供参考的。比如中英文可能是一比一的比例,每个类别可能会有不同的比例。数学、逻辑推理或代码相关的数据可能会有不同的配比。这些都是基于经验值,采样过程中也有一些考量,例如对于高质量的数据,可以进行重复采样。

Q4:对于数据抽样,特别是从网页等数据量大的来源中的策略是怎样的?
A4:对于数据量大的来源,如网页数据,抽样可以基于一些策略。可能需要在 10% 数据中选取 2% 进行使用。相对稀缺但高质量的数据,如数学、逻辑推理等,可能不容易获取。通用的网页数据则可能不需要大量使用。这些都是基于经验值和个人获取数据来源的考量。

Q5:在训练数据的配比上是否尝试过多次不同的比例?
A5:我们尝试过,但在 1B 规模下很难显现效果。对于配比,特别是代码类的数据,实际理解的局限性使得它的作用受限。大量参数模型(如 7B 或 13B)的训练成本较高,这使得尝试多种配比成为一种经验而非现实操作。

Q9:每个阶段数据量是多少?
A9:在预训练阶段,我们 7B 规模的数据是 2.6T,目前更高规模的模型则是 3T+。但这也与采样策略有关。至于微调,在业务中使用的是百万级别的数据,但对于较小的模型可能可以压缩到五万或十万。

Q11:如何定义高质量数据的标准?
A11:(1)标准制定:我们会依据多项指标来设定数据质量标准。考虑到数据多样性及各维度特征分布,我们设定了每个维度上的低值率标准。
(2)低值域过滤:我们设置了阈值,以过滤出低值域数据。同时,我们有针对业务需求设计的过滤规则,这些规则较难概括为通用标准。
(3)数据处理细节: 举例来说,对于网页数据,我们会过滤掉广告和插入信息,这需要对网站内容进行精细的处理,并牵涉到大量人工参与。

Reference

[1]
https://mp.weixin.qq.com/s/sF-i10LkmKMa9iriqbWayA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/454764.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

javaweb day16 mysql

mysql 安装: 企业开发使用方法 安装虚拟机代替服务器 数据模型 创建数据库 写法 sql简介

KNN算法对鸢尾花进行分类:添加网格搜索和交叉验证

优化——添加网格搜索和交叉验证 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection imp…

GNN/GCN自己学习

一、图的基本组成 V:点(特征) E:边 U:图(全局特征) 二、用途 整合特征(embedding),做重构 三、邻接矩阵 以图像为例,每个像素点周围都有邻居,…

Composer创建ThinkPHP无法获取最新版本的问题

composer安装TP(截止目前最新版本为8.0) composer create-project topthink/think tp 一开始直接给我安装成TP6了,原因就是我系统的PHP版本不是8.0以上,所以不支持最新的TP版本,就会默认安装之前稳定的版本。解决这个…

说说JVM的垃圾回收机制

简介 垃圾回收机制英文为Garbage Collection, 所以我们常常称之为GC。那么为什么我们需要垃圾回收机制呢?如果大家有了解过Java虚拟机运行时区域的组成(JVM运行时存在,本地方法栈,虚拟机方法栈,程序计数器,堆&#xf…

linux安全--CentOS7安装Tomcat,远程管理ManagerApp

目录 1.Tomcat安装 2.Tomcat远程管理 1.Tomcat安装 下载安装包并解压 tar xf apache-tomcat-7.0.54.tar.gz -C /usr/local/apache-tomcat_7.0.54/tomcat启停 启动 ./startup.sh 停止 ./shutdown.sh 2.Tomcat远程管理 找到tomcat文件夹中webapps/manager/META-INF/contex…

(黑马出品_高级篇_04)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

(黑马出品_高级篇_04)SpringCloudRabbitMQDockerRedis搜索分布式 微服务技术——可靠性消息服务 今日目标服务异步通信-高级篇1.消息可靠性1.1.生产者消息确认1.1.1.修改配置1.1.2.定义Return回调1.1.3.定义ConfirmCallbac…

temu英国电商市场洞察:2月份商品销售数据分析Python数据采集Api

文章目录 引言可视化分析数据展示商品类目占比分析销售额分析价格区间占比分析各类目新品占比分析 写在最后 引言 在美国市场稳步增长基础上,Temu也不断加快全球步伐,现已进入47个国家,光23年9月份就进驻了10个国家,创造单月扩张国…

FileZillaClient连接被拒绝,无法连接

1.ECONNREFUSED - 连接被服务器拒绝 2、无法连接FZ时,判断没有ssh 更新源列表: sudo apt-get update 安装 openssh-server :sudo apt-get install openssh-server 查看是否启动ssh:sudo ps -e | grep ssh

2024 前端javaScript+ES6

JavaScript 基础 1、基本数据类型: 1.1 基本数据类型: Number(数值):表示数字,包括整数和浮点数。例如:5、3.14。 String(字符串):表示文本数据&#xff…

hanlp,pyhanlp 实现 NLP 任务

目录 区别 hanlp 代码使用 pyhanlp 代码使用 在线体验:命名实体识别 | 在线演示 区别 hanlp:是 githun 官方文档提供的使用方法,也就是在线的,调用 api 的方式去实现的,可以自己申请 token,接口分为 RE…

SSA-LSTM多输入回时序预测 | 樽海鞘优化算法-长短期神经网络 | Matlab

目录 一、程序及算法内容介绍: 基本内容: 亮点与优势: 二、实际运行效果: 三、算法介绍: 四、完整程序下载: 一、程序及算法内容介绍: 基本内容: 本代码基于Matlab平台编译&a…

通过日志恢复sql server数据库

在SQL Server中,通过日志恢复数据库是一个精细的过程,主要用于在数据库出现错误、数据丢失或需要回滚到特定时间点时恢复数据。以下是一般步骤概述: 设置恢复模式: 首先,数据库必须配置为“完整恢复模式”或“大容量…

深度学习系列62:Agent入门

1 anget介绍和openai标准接口 agent的核心是其代理协同工作的能力。每个代理都有其特定的能力和角色,你需要定义代理之间的互动行为,即当一个代理从另一个代理收到消息时该如何回复。 agent目前大多使用openai标准接口调用LLM服务,说明如下。…

vim相关命令

vim 三种工作模式:命令模式、文本模式、末行模式 命令模式:通过vi hello.c 命令进入i a o 、I A O、 s S 可以切换到文本模式 ,写完后保存退出 o光标 回到下一行O光标回到上一行s删除当前字母S删除一整行A回到该行末尾处a光标回到下一个输入…

探索直播美颜SDK的未来发展方向:虚拟现实、增强现实与混合

如今,随着虚拟现实(VR)、增强现实(AR)和混合现实(MR)等技术的不断发展,直播美颜SDK的未来发展方向也将面临着更多的可能性和挑战。今天我将与大家共同探讨直播美颜SDK在虚拟现实、增…

神经网络处理器优化设计(一)

神经网络处理器优化设计,涉及到一些特殊和通用处理流程,一是降低硬件成本,二是提高性能。 一 跨层流水线调度 这里主要针对深度可分离卷积,将Pointwise conv与Depthwise卷积并行处理,好处是,减小整体流水时…

活动预告:如何培养高质量应用型医学人才?

在大数据时代与“新医科”建设的背景下,掌握先进的医学数据处理技术成为了医学研究与应用的重要技能。 为了更好地培养社会所需要的高质量应用型医学人才,许多高校已经在广泛地开展面向医学生的医学数据分析教学工作。 在“课-训-赛”育人才系列活动的…

使用Thymeleaf-没有js的html模板导出为pdf

html模板 <!DOCTYPE html> <html xmlns:th"http://www.thymeleaf.org"><head><title>PDF Template</title> </head> <body> <h1>User Information</h1> <p>Name: <span th:text"${user.name}&…

一周学会Django5 Python Web开发-Jinja3模版引擎-安装与配置

锋哥原创的Python Web开发 Django5视频教程&#xff1a; 2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 Django5 Python web开发 视频教程(无废话版) 玩命更新中~共计35条视频&#xff0c;包括&#xff1a;2024版 Django5 Python we…