2万亿训练数据!Stable LM 2-12B加入开源队列

公*众*号AI疯人院 

4月9日,知名大型模型开源平台Stability.ai在其官网上发布了全新的类ChatGPT模型——Stable LM 2 12B。

    据了解,Stable LM 2 12B模型拥有120亿个参数,其训练数据涵盖了英语、西班牙语、德语等7种语言的2万亿个tokens。该模型提供了基础版本和指令微调版本两种选择,能够生成文本、代码等各种内容,并可作为RAG(Retrieval-Augmented Generation)的核心组件来使用。

    此外,Stability.ai还对其之前发布的Stable LM 2 1.6B模型进行了更新,尤其是在硬件需求方面进行了大幅优化。因此,这两个模型非常适合小型企业和个人开发者使用。在性能方面,它们也超越了Qwen1.5-14B-Chat、Mistral-7B-Instruct-v0.2等其他知名的开源小参数同类模型。

12B开源地址:https://huggingface.co/stabilityai/stablelm-2-12b

1.6B新版本:https://huggingface.co/stabilityai/stablelm-2-1_6b-chat

技术报告:https://arxiv.org/abs/2402.17834

在线demo:https://huggingface.co/spaces/stabilityai/stablelm-2-chat

图片

StableLM 2介绍

Stable LM 2 12B/1.6B都采用了Transformer架构,具有24层结构,并配置了32个自注意力头。这一架构的模型在预训练阶段使用了包含大约2万亿tokens的庞大且多样化的公开数据集。

这些数据集包括了多个领域,例如:

  • 学术论文数据集:如Arxiv、PubMed、S2ORC、PhilPapers等,这些数据集包含了丰富的科学研究和学术成果。

  • 图书和小说数据集:如BookCorpusOpen、PG-19、FanFics等,这些数据集则提供了广泛的文学资源。

    通过在这些数据集上的预训练,Stable LM 2 12B/1.6B能够吸收和学习到大量的知识和语言模式,从而提高其在多种自然语言处理任务中的表现。这种预训练方式使得模型能够更好地理解和生成自然语言,增强了模型的通用性和适应性。

图片

    在训练策略方面,Stability.ai采取了一些高效的技术手段来优化Stable LM 2 12B/1.6B模型的训练过程。具体来说:

  • FlashAttention-2技术:这是一种序列并行优化技术,它允许模型在训练时处理更长的上下文序列,而不会牺牲速度或增加过多的计算资源消耗。使用这种技术,Stability.ai能够以4096的上下文长度从头开始训练Stable LM 2模型,这对于提高模型的理解长距离依赖和长期记忆能力是有益的。

  • BFloat16混合精度训练:为了提高训练效率和减少内存占用,Stability.ai采用了BFloat16(Brain Float 16)格式进行混合精度训练。BFloat16是一种16位浮点数格式,它在保持足够精度的同时,相比于32位浮点数(FP32),可以减半内存使用量和提高运算速度。

  • AdamW优化器:在训练过程中,Stability.ai使用了标准的AdamW(Adaptive Moment Estimation with Weight Decay)优化器。AdamW是一种流行的优化算法,结合了Adam的自适应学习率特性和权重衰减(Weight Decay),有助于防止过拟合,并加速模型的收敛。

    通过这些训练策略的应用,Stability.ai能够有效地训练出性能强大的Stable LM 2 12B/1.6B模型,同时保证了训练的效率和模型的质量。这些策略的使用也体现了Stability.ai在深度学习模型训练方面的专业性和技术实力。

图片

    模型微调阶段,Stability.ai使用了监督微调(SFT)、直接偏好优化(DPO)和自我知识学习三种方法,对生成的文本进行排序,然后使用排序结果来调整模型的参数,使其生成更符合人类偏好的文本。

图片

    多轮对话基准测试:StableLM 2 1.6B与其他模型在MT-Bench多轮对话任务上进行了深度对比。StableLM 2 1.6B的综合得分与规模明显更大的模型如Mistral-7B和MPT-30B不相上下,在某些指标上甚至获得了更高的分数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/531498.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++修炼之路之string--标准库中的string

目录 前言 一:标准库的string类简介 1.string是basic_string的一份char类型的类模板 2.basic_string类模板的分类 3.string是表示字符串的字符串类 4.在使用string类时要添加头文件#include 二:string类的常用接口(只介绍常用的) 1.构造析构赋…

今日arXiv最热大模型论文:Dataverse,针对大模型的开源ETL工具,数据清洗不再难!

引言:大数据时代下的ETL挑战 随着大数据时代的到来,数据处理的规模和复杂性不断增加,尤其是在大语言模型(LLMs)的开发中,对海量数据的需求呈指数级增长。这种所谓的“规模化法则”表明,LLM的性…

ETLCloud结合kafka的数据集成

一、ETLCloud中实时数据集成的使用 在ETLCloud中数据集成有两种方式,一种是离线数据集成,另一种便是我们今天所要介绍的实时数据集成了,两者的区别从名字便可以得知,前者处理的数据是离线的没有时效性的,后者的数据是…

常见的解析漏洞总结

文件解析漏洞 文件解析漏洞主要由于网站管理员操作不当或者 Web 服务器自身的漏洞,导致一些特殊文件被 IIS、apache、nginx 或其他 Web服务器在某种情况下解释成脚本文件执行。 比如网站管理员配置不当,导致php2、phtml、ascx等等这些文件也被当成脚本文…

【VScode】同时编辑多处

【VScode】同时编辑多处 1. 多光标自定义批量编辑2. 选择多个,同时操作(批量选中局部匹配项)3. 取消选择4. 在不移动光标的情况下滚动屏幕5. 批量选中全局匹配项6.重点6.1 通过上下键选择多行6.2 同时选中所有行的末尾6.3 选中多列另一种方式6.4 通过正则的方式配置…

显示学习4(基于树莓派Pico) -- 游戏

来自:https://github.com/zelacerda/micropython 代码改造了一下,让它可以跑起来。 简单分析一下代码。外层是一个死循环,有一个状态机来对应不同的场景。 def loop():while True:if state 0: splash_screen()elif state 1: game_waiti…

《数学大世界》期刊点评_栏目设置_投稿指南

《数学大世界》期刊点评_栏目设置_投稿指南 《数学大世界》知网 5000字符3版 收录小中高数学 教研类文章 理论+课题实例 23.1-7月版面; 24年3-4月版面也可安排 主管单位:吉林出版集团股份有限公司 主办单位:北方妇女儿童出版…

Python-VBA函数之旅-bytearray函数

目录 1、bytearray函数: 1-1、Python: 1-2、VBA: 2、相关文章: 个人主页:非风V非雨-CSDN博客 bytearray函数在Python中提供了一种可变字节序列的表示方式,这在实际编程中有多种应用场景。常见的应用场…

基于springboot+vue+Mysql的职称评审管理系统

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

Web 前端性能优化之八:前端性能检测实践

五、前端性能检测实践 1、常用的检测工具 Lighthouse、Chrome开发者工具中与性能检测相关的一些工具面板、页面加载性能分析工具PageSpeed Insights、专业的性能检测工具WEBPAGETEST等 1、Chrome 任务管理器 通过Chrome任务管理器我们可以查看当前Chrome浏览器中&#xff0…

机器学习-08-关联规则和协同过滤

总结 本系列是机器学习课程的系列课程,主要介绍机器学习中关联规则和协同过滤。 参考 机器学习(三):Apriori算法(算法精讲) Apriori 算法 理论 重点 MovieLens:一个常用的电影推荐系统领域的数据集 2…

苍穹外卖---文件上传-阿里OSS

一:开通阿里云对象存储服务oss,创建bucket,获得密钥 二:在程序中集成上传文件功能 1.连接阿里云OSS对象存储服务器 声明一个配置属性的文件用于传入连接的参数 package com.sky.properties;import lombok.Data; import org.springframewo…

three.js跟着教程实现VR效果(四)

参照教程:https://juejin.cn/post/6973865268426571784(作者:大帅老猿) 1.WebGD3D引擎 用three.js (1)使用立方体6面图 camera放到 立方体的中间 like “回” 让贴图向内翻转 (2)使…

每周一算法:树上差分

题目链接 闇の連鎖 题目描述 传说中的暗之连锁被人们称为Dark。 Dark是人类内心的黑暗的产物,古今中外的勇者们都试图打倒它。 经过研究,你发现Dark呈现无向图的结构,图中有 N N N个节点和两类边,一类边被称为主要边&#xf…

用Python编写GUI程序实现WebP文件批量转换为JPEG格式

在Python编程中,经常会遇到需要处理图片格式的情况。最近,我遇到了一个有趣的问题:如何通过编写一个GUI程序来实现将WebP格式的图片批量转换为JPEG格式?在这篇博客中,我将分享我使用Python、wxPython模块和Pillow库实现…

打开Visual Studio后出现Visual Assist报错弹窗

安装了新的VA插件后发现无论如何清理打开VS都会报这个旧版VA报错弹窗,修复VS、重装VA都解决不了 后来进到VS安装目录,删掉一个可疑文件后弹窗再也不出现了

光伏电站运维管理平台功能分析

光伏电站的建设发展,不仅可以满足人们日益增长的用电需求,同时对于减少能源资源消耗也有着十分重要的作用。但是光伏电站因为区域跨度大,分布广泛等原因在建设发展中导致了人员管理困难、运维工作落实不到等问题,直接影响光伏电站…

【随笔】Git 高级篇 -- 相对引用1 main^(十二)

💌 所属专栏:【Git】 😀 作  者:我是夜阑的狗🐶 🚀 个人简介:一个正在努力学技术的CV工程师,专注基础和实战分享 ,欢迎咨询! 💖 欢迎大…

python用循环新建多个列表

​在Python编程中,我们经常需要创建多个列表来存储和管理数据。有时候,列表的数量是已知的,我们可以手动逐一创建;但更多时候,列表的数量是动态的,或者我们希望通过某种模式来批量生成列表。这时候&#xf…

对称加密学习

对称加密是一种加密技术,它使用相同的密钥进行数据的加密和解密操作。这种加密方法因其高效性和速度优势,在数据加密领域得到了广泛的应用。 下面是两篇文章: AES加密学习-CSDN博客 加密算法学习-CSDN博客 推荐关注加密专栏: …