王牌站士Ⅶ--理解大型语言模型LLM的参数

模型的大小并不一定决定其成功

在学习任何大型语言模型 (LLM) 时,您首先会听到的事情之一就是给定模型有多少个参数。如果您查看下面的图表,您会注意到参数大小范围很广 - 一个模型可能有 10 亿或 20 亿个参数,也可能有超过 1.75 万亿个参数。

现在能下载到的模型普遍都是6/7B(小)、13B(中)、大(130B) 三种,比如ChatGLM 和Llama2 等。

LLM现在一般都是基于Transormer结构,参数总和可以看作Embedding部分参数和Transormer-Decoder部分参数,Embedding部分参数由词表大小和模型维度决定;Decoder部分参数由模型层数和模型维度决定。

这当然会引发一些显而易见的问题——参数是什么?它们为什么重要?模型中的参数越多越好,这是真理吗?为了理解和评估大型语言模型,让我们考虑这些问题。

什么是参数?

我们可以将参数视为大型语言模型中的内部设置或拨盘,可以对其进行调整以优化获取标记和生成新标记的过程。就像音响工程师可以通过转动混音板上的拨盘来优化音质一样,数据科学家也可以转动大型语言模型中的拨盘来优化其性能。

回想一下,token 是一个文本单位 - 单词、单词组合或标点符号 - 其格式使得 LLM 可以高效地使用它。在训练大型语言模型时,参数是 LLM 的特征,可以进行调整以优化模型预测序列中下一个 token 的能力。请考虑以下关于参数如何训练和运行的简化解释:

  1. 模型的参数被设置为初始值,可以是随机的,也可以是基于之前的训练。
  2. 正在训练的大型语言模型需要输入大量文本数据。
  3. 在模型训练过程中,它会接受输入并预测正确的输出是什么。
  4. 在训练中,LLM 将其预测与实际文本进行比较,以查看其预测是否正确。如果预测不正确,模型会从错误中“学习”,并调整其参数。
  5. 该过程持续数百万或数十亿个示例,模型每次都会调整其参数并提高其预测准确性。

通过这种预测、错误检查和参数调整的迭代过程,LLM 的语言能力变得更加准确和复杂。

参数越多总是越好吗?

最简洁的答案是

诚然,LLM 的参数越多,它就可以调整越多的“设置”来捕捉人类语言的复杂性,从而比参数较少的模型更好地处理人类语言。因此,在其他条件相同的情况下,如果模型 A 和模型 B 仅在处理和生成语言的能力上有所不同,那么你当然应该选择语言处理能力更出色的模型。

但在现实世界中,并非所有事物都是平等的。还必须考虑其他重要因素。也许最明显的是,模型越大,运行成本就越高。训练模型的过程和持续维护模型都需要大量的计算能力和数据。正是出于这个原因,像 GPT-3 或 GPT-4 这样的 LLM 通常由拥有大量资源的组织开发。

运行大型语言模型也会对环境产生影响。马萨诸塞大学阿默斯特分校最近的一项研究发现,训练一个具有 2.13 亿个参数的大型模型会产生超过 626,000 磅的二氧化碳排放量。相比之下,普通美国汽车的终生排放量(包括汽车制造)为 126,000 磅二氧化碳 - 约为训练具有 2.13 亿个参数的 LLM 所产生的碳排放量的五分之一!模型越大,消耗的能量越多,随后产生的碳排放量也越多。较小的模型对环境的影响要小得多。

您可能会担心,选择具有更少参数的更具成本效益、可持续性的模型会损害 LLM 的有效性和准确性。然而,这引出了评估 LLM 时的一个重要问题——模型的大小并不能统一定义其成功。给定的单词在不同的上下文中可能具有不同的含义。平均而言,较大的模型往往能够区分这种语义区别,但是,使用较低质量训练数据的较大模型不一定会胜过较小且更集中的模型。使用高质量数据训练的具有较少参数的模型将胜过使用低质量数据训练的较大模型。换句话说,用于训练模型的数据的质量与模型本身的大小同样重要。


欢迎你分享你的作品到我们的平台上:www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/803433.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB综合实战篇(超容易)

一、题目引入 在MongoDB的gk集合里插入以下数据: 用语句完成如下功能: (1)查询张三同学的成绩信息 (2)查询李四同学的语文成绩 (3)查询没有选化学的同学 (4&#xf…

EasyPhoto - 一键训练并生成人像写真,支持参考图生成 独立版 本地一键整合包下载

EasyPhoto最早是作为AI绘画软件StableDiffusion的一款插件备受大家喜爱,今天分享的是 EasyPhoto 的独立版本一键整合包,无需安装StableDiffusion即可解压即用。 和之前分享的腾讯开源的 PhotoMaker 和 阿里开源的 FaceChain 类似,EasyPhoto操…

ArkUI组件——循环控制/List

循环控制 class Item{name: stringprice:number}private items:Array<Item> [new Item("A0",2399),new Item("BE",1999),new Item("Ro",2799)] ForEach(this.items,(item:Item) > {})List组件 列表List是一种复杂的容器&#xff0c;…

C++动态内存的管理

今天来分享C动态内存管理相关知识&#xff0c;闲言勿谈&#xff0c;直接上干货。 1. 动态内存的开辟和销毁(new和delete) (1)前置知识&#xff1a;我们知道c语言有malloc和calloc和realloc三个函数可以进行动态的开辟内存&#xff0c;那么它们有什么区别呢&#xff1f;首先是…

乘积量化pq:将高维向量压缩 97%

向量相似性搜索在处理大规模数据集时&#xff0c;往往面临着内存消耗的挑战。例如&#xff0c;即使是一个包含100万个密集向量的小数据集&#xff0c;其索引也可能需要数GB的内存。随着数据集规模的增长&#xff0c;尤其是高维数据&#xff0c;内存使用量会迅速增加&#xff0c…

自适应巡航控制(ACC)功能—巡航车速控制功能介绍

自适应巡航控制中的跟车行驶功能详解 自适应巡航控制&#xff08;ACC&#xff09;功能—巡航车速控制功能介绍 自适应巡航控制&#xff08;ACC&#xff09;中的跟车车距控制功能&#xff1a;详解与应用 自适应巡航控制中的Cut in & Cut out功能详解 自适应巡航控制中的Stop…

为什么在芯片制造中不能用机械磨削(grinding)代替cmp?

知识星球里的学员问&#xff1a;为什么只有在晶圆背面减薄时会使用griniding工艺&#xff1f;在芯片制程中并未看到该工艺&#xff0c;同样有减薄作用&#xff0c;为什么在芯片制程中用的是cmp&#xff1f; Grinding与cmp的原理&#xff1f; Grinding&#xff0c;机械磨削&…

AV1技术学习:Affine Motion Compensation

一、Affine Model Parameter 除了传统的平移运动补偿&#xff0c;AV1 还支持仿射变换模型&#xff0c;将当前像素点 (x, y) 通过以下方式投影到参考帧中的预测像素点 (x, y). 参数 (h13, h23) 对应于平移模型中使用的常规运动向量。 参数 h11 和 h22 控制垂直和水平轴上的比例…

【React笔记初学总结一】React新手的学习流程笔记总结,掰开了揉碎了,下载安装基础结构学习

REACT学习记录 一、React是什么&#xff1a;二、尝试安装下载&#xff1a;三、理解都有什么四、基础网页学习&#xff1a;1.几个比较重要的资源包例子2.第一个react示例&#xff1a;&#xff08;掰开了揉碎了&#xff0c;咱们先看懂它最简单的结构&#xff09;3.第二个react示例…

【数学建模】高温作业专用服装设计(2018A)隐式差分推导

为方便计算&#xff0c;对区域进行离散化处理&#xff0c;采用隐式差分格式进行离散计算。隐式差分格式如图&#xff1a; 每层材料内部 对第 j j j层材料: 其中&#xff0c; λ j \lambda_j λj​表示第 j j j层的热扩散率&#xff0c; c j c_j cj​表示第 j j j层的比热容…

每日练习,不要放弃

目录 题目1.下面叙述错误的是 ( )2.java如何返回request范围内存在的对象&#xff1f;3.以下代码将打印出4.下列类定义中哪些是合法的抽象类的定义&#xff1f;&#xff08;&#xff09;5.以下代码段执行后的输出结果为6.以下代码运行输出的是总结 题目 选自牛客网 1.下面叙述…

Java 快速入门学习 -- Day 2

Java 快速入门 Ⅱ maven&#xff08;图书管理员&#xff09;IDEA使用 maven框架 maven&#xff08;图书管理员&#xff09; maven 仓库&#xff0c;图书馆。要看书的化先从家里找&#xff08;本地仓库&#xff09;&#xff0c;本地找不到就去中央仓库或者镜像仓库找&#xff0c…

用Python实现学生信息管理系统

用Python来实现学生信息管理系统 学生信息管理系统&#xff08;Python&#xff09; 简介&#xff1a;基本信息管理和学生成绩管理。基本信息管理模块的主要功能有学生信息的添加、删除、修改、显示和学生数据的导入导出&#xff0c;学生成绩管理模块的主要功能有统计课程最高分…

推荐 3个小众精品软件,个个能打实力强,快来看看

X-plore X-plore是一个多功能的文件管理工具&#xff0c;广泛应用于Android设备上。它不仅支持多种文件格式和操作&#xff0c;还提供了丰富的功能以满足用户的需求。 X-plore具有强大的文件管理功能&#xff0c;包括查看、复制、移动、删除、压缩到Zip、提取、重命名、共享等…

C++--lambda表达式

介绍 一个lambda表达式表示一个可调用的代码单元。我们可以将其理解为一个未命名的内联函数。和函数类型,lambda有一个返回值,一个参数列表和一个函数体,但比函数多一个捕获列表。具体形式如下: [捕获列表](参数列表) ->返回值类型 {函数体}其中:捕获列表:可以捕获定义lam…

Tita的OKR:高端制造行业的OKR案例

高端设备制造行业的发展趋势&#xff1a; 产业规模持续扩大&#xff1a;在高技术制造业方面&#xff0c;航空、航天器及设备制造业、电子工业专用设备制造等保持较快增长。新能源汽车保持产销双增&#xff0c;新材料新产品生产也高速增长。 标志性装备不断突破&#xff1a;例如…

美式键盘 QWERTY 布局的来历

注&#xff1a;机翻&#xff0c;未校对。 The QWERTY Keyboard Is Tech’s Biggest Unsolved Mystery QWERTY 键盘是科技界最大的未解之谜 It’s on your computer keyboard and your smartphone screen: QWERTY, the first six letters of the top row of the standard keybo…

亲测--linux下安装ffmpeg最新版本---详细教程

下载地址 Download FFmpeg 下载最新的https://ffmpeg.org/releases/ffmpeg-7.0.1.tar.xz 上传到服务器 解压 tar xvf ffmpeg-7.0.1.tar.xz 编译 cd ffmpeg-7.0.1 ./configure --prefix=/usr/local/ffmpeg make && make install 报错: 解决:在后面加 跳过检测…

【node-RED 4.0.2】连接操作 Oracle 数据库实现 增 删 改 查【新版,使用新插件:@hylink/node-red-oracle】

总览 上节课&#xff0c;我们说到&#xff0c;在 node-red 上链接 oracle 数据库 我们使用的插件是 node-red-contrib-agur-connector。 其实后来我发现&#xff0c;有一个插件更简便&#xff0c;并且也更好用&#xff1a;hylink/node-red-oracle &#xff01;&#xff01;&am…

LinuxShell编程1———shell基础命令

文章目录 前言 一、shell基础知识 1、shell概念 2、Shell的功能 接收&#xff1a;用户命令 调用&#xff1a;相应的应用程序 解释并交给&#xff1a;内核去处理 返还&#xff1a;内核处理结果 3、Shell种类&#xff08;了解&#xff09; 3.1、MS-DOS 3.2、Windows的…