LLM:Scaling Laws for Neural Language Models (中)

核心结论

1:LLM模型的性能主要与计算量C,模型参数量N和数据大小D三者相关,而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足:  C ≈ 6ND

2. 为了提升模型性能,模型参数量N和数据大小D需要同步放大,但模型和数据分别放大的比例还存在争议。

首先看一下核心结论1是怎么推导得到的。

针对transformer结构:Parameters 参数量(不含embedding层)为N,每个Token前向传播消耗运算量C 约为 2N,反向传播的运算量又是前向传播运算量的两倍,所以每个Token需要花费的运算量C 约为 2N + 2*(2N) = 6N。现在Token的数量为D,所以总的运算量为C = 6N*D。

核心公式:本部分来自参考2.

  • 第一项L_{\infty }是指无法通过增加模型规模来减少的损失,可以认为是数据自身的熵(例如数据中的噪音)
  • 第二项(\frac{x_{0}}{x})^{a}是指能通过增加计算量来减少的损失,可以认为是模型拟合的分布与实际分布之间的差。

根据公式,增大x (例如计算量C),模型整体loss下降,模型性能提升;伴随x (例如计算量C) 趋向于无穷大,模型能拟合数据的真实分布,让第二项逼近0,整体趋向于L_{\infty }

结论验证

从图上可以看出:

1:当模型的参数量 N 为10^{3}时(图中紫色的线),在 Token 数量达到 10^{9}后(图中红色的圈),模型基本收敛,继续增加训练的 Token 数量,纵轴的Test Loss 并没有明显下降。

2:如果此时,增加模型的参数量N:10^{3}->10^{9}。 纵轴的Test Loss:从6.x->3.x。可以看出:提升模型参数量带来的收益更大。

思考一个问题:基于上图,当模型的参数量 N 为10^{3}图中紫色的线

(1)模型达到收敛状态时需要消耗的算力C是多少?

(2)模型达到收敛状态时的耗时是多久呢?

先看答案:下图红色箭头指向位置,也就是图中紫色线的拐点。

1:算力消耗: C\approx 6\ast N\ast D\approx 6\ast 10^{3}\ast 10^{9}\approx 6\ast 10^{12}

2:耗时:Compute (PF-days) \approx 7\ast 10^{-8}

如果没做实验,怎么知道上面的答案呢?

根据核心公式1,得到:C\approx 6\ast N\ast D\approx 6\ast 10^{3}\ast 10^{9}\approx 6\ast 10^{12}

Compute(PF-days) = \frac{C}{PF-days}=\frac{6\ast 10^{12}}{8.64\ast 10^{19}}\approx 6.99\ast 10^{-8}=7\ast 10^{-8}

Tips:

PF-days: 如果每秒钟可进行1015次运算,就是1 peta flops,那么一天的运算就是1015×24×3600=8.64×1019,这个算力消耗被称为1个petaflop/s-day。

再看个例子:

下图是Baichuan-2技术报告中的Scaling Law曲线。基于10M到3B的模型在1T数据上训练的性能,可预测出最后7B模型和13B模型在2.6T数据上的性能。

 问题1:在1T的数据上,训练的10M-3B的模型,是怎么推算训练7B/13B需要2.6T数据呢?

C\approx 6\ast N\ast D

D\approx \frac{C}{6\ast N}=\frac{10^{23}}{6\ast 7B}=\frac{10^{23}}{6\ast 7\ast 10^{9}}\approx 2.38T

2.38T 是理论数值,与 2.6T基本一致了。

问题2:7B/13B模型的理论损失是多少呢?

将10M->3B不同尺寸的模型,训练到收敛状态,即上图,将每个模型的loss拐点记录进行拟合,得到幂函数(上图中蓝色粗线-scaling law),将C = 10^{23}带入拟合函数,就可以得到7B/13B模型的理论预期Loss了。

参考

1:介绍一些Scaling Laws - 知乎

2:解析大模型中的Scaling Law - 知乎 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/325402.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【生态适配】亚信安慧AntDB数据库与契约锁完成兼容互认

日前,亚信安慧AntDB数据库与上海亘岩网络科技有限公司(简称:契约锁)研发的契约锁电子签章产品完成兼容互认。经过双方团队的严格测试,亚信安慧AntDB数据库与契约锁(V4)完全兼容,整体运行稳定高效…

一天吃透Spring面试八股文

目录: Spring的优点Spring 用到了哪些设计模式?什么是AOP?AOP有哪些实现方式?Spring AOP的实现原理JDK动态代理和CGLIB动态代理的区别?Spring AOP相关术语Spring通知有哪些类型?什么是IOC?IOC的…

L1-027 出租(Java)

下面是新浪微博上曾经很火的一张图: 一时间网上一片求救声,急问这个怎么破。其实这段代码很简单,index数组就是arr数组的下标,index[0]2 对应 arr[2]1,index[1]0 对应 arr[0]8,index[2]3 对应 arr[3]0&…

鸿蒙开发之手势Pan

Entry Component struct OfficialPanGesturePage {State message: string 默认只左右移动State offsetX: number 0State offsetY: number 0State positionX: number 0State positionY: number 0//默认pan的参数,1根手指,左右方向private panOption:…

什么是泛域名证书?有免费的吗?

泛域名证书(Wildcard SSL Certificate)是一种用于加密多个子域名的SSL证书。与传统的SSL证书只能覆盖单个域名或特定子域不同,泛域名证书具有更广泛的适用性,可以涵盖一个域名下的所有子域。 泛域名证书的主要特点是通配符&#x…

华为数通方向HCIP-DataCom H12-831题库(判断题:1-20)

第01题 为了加快IS-IS网络中链路故障的感知速度,可以将IS-IS与BFD联动 正确 错误 答案:正确 解析: OSPF和IS-IS都可以设置与BFD联动加速链路故障检测 ,使用BFD时,可以实现毫秒级别的链路切换,所以使用IS–IS与BFD联动,可以加快IS–IS的感知速度 第02题 在OSPF中ABR会将…

关于整型提升与截断的一道题目

关于整型提升与截断,可以看我的博客 C语言:整型提升_c语言整形提升-CSDN博客 C语言:截断整型提升算数转换练习_c语言unsigned-CSDN博客 一、题目 二、题解 char a101截断 由于101是整型数据,需要32比特位存储空间,…

1.12号网络

1 网络发展历史 1.1 APRAnet阶段 阿帕网,是Interne的最早雏形 不能互联不同类型的计算机和不同类型的操作系统 没有纠错功能 1.2 TCP/IP两个协议阶段 什么是协议 在计算机网络中,要做到有条不紊的交换数据,需要遵循一些事先约定好的规则…

Java多线程并发篇----第十六篇

系列文章目录 文章目录 系列文章目录前言一、线程等待(wait)二、线程睡眠(sleep)三、线程让步(yield)四、线程中断(interrupt)五、Join 等待其他线程终止前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这…

【java八股文】之JVM基础篇

【java八股文】之JVM基础篇-CSDN博客 【java八股文】之MYSQL基础篇-CSDN博客 【java八股文】之Redis基础篇-CSDN博客 【java八股文】之Spring系列篇-CSDN博客 【java八股文】之分布式系列篇-CSDN博客 【java八股文】之多线程篇-CSDN博客 【java八股文】之JVM基础篇-CSDN博…

CentOS7安装MySQL 错误:软件包:akonadi-mysql-1.9.2-4.el7.x86_64 (@anaconda)

问题如图所示 运行一下命令解决 yum -y remove mariadb-libsyum install mysql-community-server

Linux知识(未完成)

一、Linux 1.1 Linux 的应用领域 1.1.1 个人桌面领域的应用 此领域是 Linux 比较薄弱的环节但是随着发展,近几年 linux 在个人桌面领域的占有率在逐渐提高 1.1.2 服务器领域 linux 在服务器领域的应用是最高的 linux 免费、稳定、高效等特点在这里得到了很好的…

Python读取modbus数据(WTVB01-485振动传感器)

Python读取modbus数据(WTVB01-485振动传感器) 实物如下图: 参考手册上获取到的部分信息: 接下来开始操作: 1.将485转USB口连接到计算机,然后使用:Modbus Poll这个软件与实物通讯。这里注意&a…

防泄密之巅,厨电安全无忧:迅软DSE引领科技保密新潮流

客户简要介绍 某股份有限公司从创立至今一直专注厨电领域,始终以产品创新为企业战略重心,为全家万户提供厨卫及家居定制。公司产品涵盖集成烹饪中心、抽油烟机、燃气灶具、燃气热水器、电热水器,为全球多个国家和地区的消费者提供高品质的服…

vue-quill-editor富文本插入图片改为上传服务器

1.安装vue-quill-editor npm install vue-quill-editor 2.安装依赖 npm install quill 3.代码引用 import { quillEditor } from vue-quill-editor; // 引入Qill插件 import Quill from quill; import quill/dist/quill.core.css; // import styles import quill/dist/quill.s…

matlab行操作快?还是列操作快?

在MATLAB中,通常情况下,对矩阵的列进行操作比对行进行操作更有效率。这是因为MATLAB中内存是按列存储的,因此按列访问数据会更加连续,从而提高访问速度。 一、实例代码 以下是一个简单的测试代码, % 测试矩阵大小 ma…

【GitHub】如何上传文件夹到GitHub上(配图详解)

一、如果没有账号要先创建账号(有账号跳过此步骤)二、建立一个仓库(有仓库跳过此步骤)三、复制仓库地址四、以下为本地操作 1、在本地新建一个空文件夹2、上传文件 2.1、在空文件夹内,右键选择Git Bash Here2.2、弹出G…

京东ES支持ZSTD压缩算法上线了:高性能,低成本 | 京东云技术团队

1 前言 在《ElasticSearch降本增效常见的方法》一文中曾提到过zstd压缩算法[1],一步一个脚印我们终于在京东ES上线支持了zstd;我觉得促使目标完成主要以下几点原因: Elastic官方原因:zstd压缩算法没有在Elastic官方的开发计划中&…

屏幕录制软件有哪些?强烈推荐5款免费好用录屏软件

录制全屏视频是制作视频教程、评论、游戏等内容的绝佳方式。它可以包括您计算机屏幕上的任何活动以及您的音频和网络摄像头。特别是,屏幕录像机对喜欢创建软件评论的视频博主很有帮助。如果您是其中之一,那么好消息是您可以在网络上找到很多屏幕录制应用…

基于 IDEA 进行 Maven 依赖管理

一、依赖管理概念 Maven 依赖管理是 Maven 软件中最重要的功能之一。Maven 的依赖管理能够帮助开发人员自动解决软件包依赖问题,使得开发人员能够轻松地将其他开发人员开发的模块或第三方框架集成到自己的应用程序或模块中,避免出现版本冲突和依赖缺失等…