大型语言模型 (LLM)全解读

一、大型语言模型(Large Language Model)定义

大型语言模型 是一种深度学习算法,可以执行各种自然语言处理 (NLP) 任务
大型语言模型底层使用多个转换器模型底层转换器是一组神经网络
大型语言模型是使用海量数据集进行训练的超大型深度学习模型。
这也是它们能够识别、翻译、预测或生成文本或其他内容的强大基础所在。

因此大型语言模型也称为神经网络 (NN),是受人类大脑启发而开发出的计算系统。这些神经网络利用分层的节点网络工作,就像神经元一样。这些神经网络由具有自注意力功能的编码器和解码器组成。编码器和解码器从一系列文本中提取含义,并理解其中的单词和短语之间的关系。转换器 LLM 能够进行无监督的训练,但更精确的解释是转换器可以执行自主学习。
通过此过程,转换器可学会理解基本的语法、语言和知识。与早期按顺序处理输入的循环神经网络(RNN)不同,转换器并行处理整个序列。这可让数据科学家使用 GPU 训练基于转换器的 LLM,从而大幅度缩短训练时间

除了向人工智能 (AI) 应用程序教授人类语言外,还可以训练大型语言模型来执行各种任务,如理解蛋白质结构、编写软件代码等。像人类大脑一样,大型语言模型必须经过预先训练,然后再进行微调,这样它们才能解决文本分类、问题解答、文档摘要和文本生成等问题。它们这些解决问题的能力可应用于医疗保健、金融和娱乐等多种领域;在这些领域中,大型语言模型用于支持各种 NLP 应用程序,例如翻译、聊天机器人、AI 助手等。

大型语言模型也具有大量的参数,类似于模型从训练中学习时收集的各种记忆。我们可以将这些参数视为模型的知识库。

LLM发展史
Generative Pre-trained Transformer 3 (GPT-3) is a large language model released by OpenAI in 2020

模型包括训练和推理两个阶段,训练的时候包含了前向传播和反向传播,推理只包含前向传播,所以预测时候的速度更重要。

二、大型语言模型如何运作?

LLM 运作原理的一个关键因素是它们表示单词的方式。早期的机器学习使用数字表来表示每个单词。但是,这种表示形式无法识别单词之间的关系,例如具有相似含义的单词。人们采用如下方式克服此限制:使用多维向量(通常称为单词嵌入)来表示单词,从而使具有相似上下文含义或其他关系的单词在向量空间中彼此接近。

使用单词嵌入,转换器可以通过编码器将文本预处理为数字表示,并理解含义相似的单词和短语的上下文以及单词之间的其他关系,例如语音部分。然后,LLM 就可以通过解码器应用这些语言知识来生成独特的输出。

即大型语言模型以转换器模型为基础,**其工作原理是:接收输入,对输入进行编码,然后解码以生成输出预测。**但是,在大型语言模型能够接收文本输入并生成输出预测之前,需要先对它进行训练,以便执行一些常规功能,然后再进行微调后才能执行特定任务。

训练:大型语言模型会使用维基百科、GitHub 或其他网站的大型文本数据集进行预先训练。这些数据集包含数以万亿计的字词,它们的质量会影响语言模型的性能。在这个阶段,大型语言模型主要进行无监督学习,这意味着它会在没有特定指令的情况下处理输入的数据集。在这个过程中,LLM 的 AI 算法可以学习字词的意思,以及字词之间的关系。此外,它还会根据上下文学习分辨字词。例如,它将学习理解“right”是“正确”的意思,还是“左”的反义词。

微调:为了让大型语言模型执行诸如翻译等特定任务,则必须针对特定活动对它进行微调。微调可优化特定任务的性能。

提示调优的作用与微调类似,也就是通过少样本提示或零样本提示来训练模型执行特定任务。提示是提供给 LLM 的指令。少样本提示会通过使用示例来教模型预测输出。例如,在这个情绪分析练习中,少样本提示将如下所示:

Customer review: This plant is so beautiful!
Customer sentiment: positive

Customer review: This plant is so hideous!
Customer sentiment: negative
语言模型通过“hideous”的语义,并基于提供的一个相反示例,理解第二个示例中的客户情感是“negative”。

另外,零样本提示不会使用示例来教语言模型如何对输入做出响应。相反,它会将问题表述为“The sentiment in ‘This plant is so hideous’ is….”(“‘这种植物太丑了’中的情感是……” 它会明确指出语言模型应执行的任务,但没有提供解决问题的示例。

三、如何训练大型语言模型?

基于转换器的神经网络非常庞大。这些网络包含多个节点和层。层中的每个节点都有指向后续层中所有节点的连接,并且每个节点都有权重和偏差。权重和偏差以及嵌入称为模型参数。基于转换器的大型神经网络可以有数十亿个参数。模型的大小通常由模型大小、参数数量和训练数据规模之间的经验关系决定。

使用大量高质量数据执行训练。在训练过程中,模型会迭代调整参数值,直到模型可根据前一个输入令牌序列正确预测下一个令牌。为此,模型使用自学技术,这些技术教导模型调整参数,以最大限度地提高训练示例中正确预测下一个令牌的可能性。

经过训练,LLM 可以很容易地适应使用相对较小的有监督数据集执行多项任务,这一过程称为微调。

训练语言模型需要向其提供大量的文本数据,模型利用这些数据来学习人类语言的结构、语法和语义。这个过程通常是通过无监督学习完成的,使用一种叫做自我监督学习的技术。在自我监督学习中,模型通过预测序列中的下一个词或标记,为输入的数据生成自己的标签,并给出之前的词。

训练过程包括两个主要步骤:预训练(pre-training)和微调(fine-tuning):

  • 在预训练阶段,模型从一个巨大的、多样化的数据集中学习,通常包含来自不同来源的数十亿词汇,如网站、书籍和文章。这个阶段允许模型学习一般的语言模式和表征。
  • 在微调阶段,模型在与目标任务或领域相关的更具体、更小的数据集上进一步训练。这有助于模型微调其理解,并适应任务的特殊要求。

存在三种常见的学习模型:
1)零样本学习;Base LLM 无需明确训练即可响应各种请求,通常是通过提示,但是答案的准确性各不相同。
2)少量样本学习:通过提供一些相关的训练示例,基础模型在该特定领域的表现显著提升。
3)微调:这是少量样本学习的扩展,其中数据科学家训练基础模型,使模型使用与特定应用相关的其他数据来调整其参数。

四、什么是自然语言处理 (NLP)?

自然语言处理会通过多种不同方式工作。
1)基于 AI 的 NLP 涉及使用 Machine Learning 算法和技巧来处理、理解和生成人类语言。
2)基于规则的 NLP 涉及创建一个可用来分析和生成语言数据的规则或模式的集合。
3)统计学 NLP 涉及使用从大型数据集中获得的统计模型来分析语言并做出语言方面的预测。
混合 NLP 将上述三种方法结合到一起。

基于 AI 的 NLP 方法当今最为热门。与任何其他数据驱动型学习方法一样,开发 NLP 模型需要对文本数据进行预处理并精心选择学习算法。

  • 第 1 步:数据预处理
    这是指清理并准备文本的过程,以便 NLP 算法能够对其进行分析。部分常见的数据预处理技巧包括文本挖掘(指使用大量文本并将文本拆分为数据)或词汇切分(指将文本拆分成单独的单元)。这些单独的单元可以是标点、单词或词组。停用词删除是一项工具,可移除对话中通常不太有助于分析的常用词和冠词。词干提取和词形还原会将单词拆分成其基本词根形式,以便更轻松地识别它们的意思。词性标注可识别一句话中的名词、动词、形容词和其他词性的词。语法分析会分析句子结构以及不同单词之间的关系。

  • 第 2 步:算法开发
    这是向预处理数据应用 NLP 算法的过程。它会从文本中提取有用信息。下面是一些最常见的自然语言处理任务:

情感分析确定一段文本中的情绪基调或者情感。情感分析会将单词、词组和表达标注为积极、消极或中立。
命名实体识别会识别命名实体并对其进行分类,例如人、位置、日期和组织。
主题建模会将相似的单词和词组分组到一起,以识别一系列文档或文本的主要话题或主题。
机器翻译会使用 Machine Learning 将文本自动从一种语言翻译成另一种语言。语言建模会预测特定上下文中单词序列的可能性。
语言建模用于自动完成、自动更正应用程序,还用于语音转文本系统。

需要注意的两个 NLP 分支是自然语言理解 (NLU) 和 自然语言生成 (NLG)

  • 1.NLU 专注于让计算机使用与人类所用工具类似的工具来理解人类语言。它的目的是让计算机理解人类语言的细微之处,包括上下文、意向、情感和模糊性。NLG 专注于基于数据库或规则集创建与人类语言类似的语言。
  • 2.NLG 的目标是生成可被人类轻松理解的文本。

五、什么是转换器模型呢?

转换器模型是大型语言模型中最常见的架构。它由一个编码器和一个解码器组成。转换器模型通过将输入信息转换为词元来处理数据,然后同时进行数学运算来发现词元之间的关系。这样,计算机就能够看到人类在面对同样查询时所看到的模式。

转换器模型使用自注意力机制工作,与长短期记忆模型等这类传统模型相比,这种模型的学习速度更快。自注意力让转换器模型能够考虑序列的不同部分或句子的整个上下文,从而生成预测。

六、大型语言模型的关键组件

大型语言模型由多个神经网络层组成。递归层、前馈层、嵌入层和注意力层协同工作,对输入文本进行处理并生成输出内容。

  • 1.递归层会按顺序解读输入文本中的字词,并获取句子中字词之间的关系。
  • 2.前馈层 (FFN) 由多个完全互联的层组成,用于转换基于输入文本生成的嵌入。这样,这些层就能够使模型收集更高层级的抽象概念,也就是理解用户输入文本的意图。
  • 3.嵌入层会基于输入文本创建嵌入。大型语言模型的这一部分会获取输入内容的语义和句法含义,从而让模型能够理解上下文。
  • 4.注意力层能够让语言模型专注于输入文本中与当前任务相关的各个部分。通过这一层,可让模型生成最准确的输出。

在您的搜索应用程序中应用转换器
大型语言模型主要有三种:

  • 1)通用或原始语言模型会根据训练数据中的语言预测下一个字词。这些语言模型可执行信息检索任务。
  • 2)指令调优的语言模型经过训练后,可预测输入中所给指令的响应。这可使用它们执行情感分析,或者生成文本或代码。
  • 3)对话调优的语言模型经过训练后,可通过预测下一个响应来进行对话。例如,聊天机器人或对话 AI。

七、大型语言模型与生成式 AI 之间的区别?

生成式 AI 是一个总称,是指有能力生成内容的人工智能模型。生成式 AI 可以生成文本、代码、图像、视频和音乐。例如,生成式 AI 有 Midjourney、DALL-E 和 ChatGPT。

大型语言模型是一种生成式 AI,它基于文本进行训练并生成文本内容。ChatGPT 就是一个广为流行的文本生成式 AI 示例。
所有大型语言模型都是生成式 AI1。

八、常用大型语言模型示例

很多常用的大型语言模型已经风靡全球。其中有许多已经被各行各业的人们所采用。您一定听说过 ChatGPT 这种生成式 AI 聊天机器人。

其他常用 LLM 模型还包括:

PaLM:Google 的 Pathways Language Model (PaLM) 是一种转换器语言模型,能够进行常识和算术推理、笑话解释、代码生成和翻译。
BERT:基于转换器的双向编码器表示 (BERT) 语言模型也是在 Google 开发的。它是一个基于转换器的模型,可以理解自然语言并回答问题。
XLNet:XLNet 是一种排列语言模型,以随机顺序生成输出预测,这是它与 BERT 的不同之处。它会先评估编码词元的模式,然后以随机顺序预测词元,而不是按顺序进行预测。
GPT:生成式预训练的转换器可能是最著名的大型语言模型。由 OpenAI 开发的 GPT 是一种热门基础模型,其带编号的迭代都是对前代(GPT-3、GPT-4 等)的改进。它可以进行微调以在下游执行特定任务。这方面的示例包括:Salesforce 开发的用于 CRM 的 EinsteinGPT,以及 Bloomberg 开发的用于金融的 BloombergGPT。

多模态与单模态

2021开年,推出两个跨越文本与图像次元的模型:DALL·E和CLIP,前者可以基于文本生成图像,后者可以基于文本对图片分类,两者都意在打破自然语言处理和计算机视觉两大门派“泾渭分明”的界限,实现多模态AI系统。CLIP是一个预训练模型,就像BERT、GPT、ViT等预训练模型一样。首先使用大量无标签数据训练这些模型,然后训练好得模型就能实现,输入一段文本(或者一张图像),输出文本(图像)的向量表示。CLIP和BERT,GPT,ViT的区别在于,CLIP是多模态的,包含图像处理以及文本处理两个方面的内容,而BERT,GPT是单模态的,VIT是单模态图像的。

                                                                                                    **扫描二维码进行NFT抽奖**

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/352414.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

P1042 [NOIP2003 普及组] 乒乓球 Java版最简单题解!

为什么说最简单,因为本人就是一个算法小白,只学过一点数据结构,打算备战蓝桥杯的,网上说备战蓝桥杯就去刷洛谷,早有听闻洛谷很难,今天一看算是真的被打醒了,对于小白是真的太难了。(;༎ຶД༎ຶ…

uni-app 微信小程序之红包雨活动

文章目录 1. 页面效果2. 页面样式代码 1. 页面效果 GIF录屏有点卡&#xff0c;实际比较丝滑 每0.5s掉落一个红包控制4s后自动移除红包点击红包消除红包&#xff08;或者自行1&#xff0c;或者弹窗需求&#xff09; 2. 页面样式代码 <!-- 红包雨活动 --> <template>…

拦截器的简单使用

拦截器的简单使用 拦截器的使用创建拦截器preHandle 目标方法执行前执行postHandle 目标方法执行后执行afterCompletion 视图渲染后执行 拦截器使用场景返回值注册拦截器运用拦截器 拦截器的使用 创建拦截器 首先,我们需要创建一个拦截器器的类,并且需要继承自HandlerIntercep…

Linux系统优化要义

这里不敢说 linux优化奥义&#xff0c;主要是本文比较浅显&#xff0c;适合普通开发相关人员去读 linux作为服务器系统的王者&#xff0c;以稳定性著称&#xff0c;但对于不同的“应用场景”&#xff0c;相关配置还需调整&#xff0c;才能保证业务稳定性。以下是相关总结 IO优…

快快销ShopMatrix 分销商城多端uniapp可编译5端-代理商收益管理:差价奖励和销售额统计

代理商收益管理是一种针对代理商的利润分配模式&#xff0c;主要通过差价奖励和销售额统计来实现。这种模式的核心思想是通过激励代理商的销售行为&#xff0c;提高代理商的积极性和销售效率&#xff0c;从而实现整个销售网络的增长。 差价奖励是代理商收益管理中的一种常见方…

兄弟DCP-7057黑白激光多功能一体机加粉后清零方法

硒鼓加粉机器上清零&#xff0c;方法如下&#xff1a; 打开安装硒鼓的前盖。按“清除”键&#xff0c;显示“更换硒鼓”。不用管提示&#xff0c;接着按“启用Start”&#xff0c;再按“”&#xff0c;屏幕上显示“01”。继续按“”&#xff0c;直到屏幕上显示“11”。按“OK”…

E5071C 是德科技网络分析仪

181/2461/8938产品概述&#xff1a; E5071C ENA 矢量网络分析仪&#xff0c;9 kHz 至 20 GHz&#xff0c;配有增强型 TDR 测量选件。 E5071C 是大规模无源元器件测试的理想解决方案。 它具有出色的测量性能&#xff0c;有助于提高测试吞吐量&#xff0c;尤其是与 E5092A 多端…

Discuz论坛搭建:Linux宝塔面板一键部署,固定地址畅享公网访问

&#x1f308;个人主页&#xff1a;聆风吟 &#x1f525;系列专栏&#xff1a;网络奇遇记、Cpolar杂谈 &#x1f516;少年有梦不应止于心动&#xff0c;更要付诸行动。 文章目录 &#x1f4cb;前言一. 安装基础环境二. 一键部署Discuz三. 安装cpolar工具四. 配置域名访问Discuz…

【小白教程】幻兽帕鲁服务器一键搭建 | 支持更新 | 自定义配置

幻兽帕鲁刚上线就百万在线人数&#xff0c;官方服务器的又经常不稳定&#xff0c;所以这里给大家带来最快捷的搭建教程&#xff0c;废话不多说直接开始。 步骤一&#xff1a;准备服务器 服务器建议 Linux 系统&#xff0c;资源占用低&#xff0c;而且一键脚本只需要一条命令&am…

架构篇27:如何设计计算高可用架构?

文章目录 主备主从集群小结计算高可用的主要设计目标是:当出现部分硬件损坏时,计算任务能够继续正常运行。因此计算高可用的本质是通过冗余来规避部分故障的风险,单台服务器是无论如何都达不到这个目标的。所以计算高可用的设计思想很简单:通过增加更多服务器来达到计算高可…

AI大模型开发架构设计(5)——人人能学会的Llama-2大模型微调

文章目录 人人能学会的Llama-2大模型微调1 什么是Llama-2以及关键特性分析什么是Llama-2?Llama-2关键特性分析2 Llama-2微调全流程剖析为什么要微调Llama-2?Llama-2微调全流程3 基于Llama-2微调3个应用案例案例1:电子游戏评价数据生成文本数据集合案例2:利用Llama-2微调模型…

Android如何通过按钮实现页面跳转方法

Hello大家好&#xff01;我是咕噜铁蛋&#xff01;在Android应用开发中&#xff0c;页面跳转是一项基本且常见的功能。通过按钮实现页面跳转可以为用户提供更好的交互体验&#xff0c;使应用更加灵活和易用。本文将介绍Android Studio中如何通过按钮实现页面跳转的方法&#xf…

OJ_日期问题

基础&#xff1a;已知某天的日期求下一天的日期 #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<string.h> using namespace std;void NextDay(int &year, int &month, int &day) {//存储一下 月份和天数的对应关系int dayOfMonth[] {…

Linux:命名管道及其实现原理

文章目录 命名管道指令级命名管道代码级命名管道 本篇要引入的内容是命名管道 命名管道 前面的总结中已经搞定了匿名管道&#xff0c;但是匿名管道有一个很严重的问题&#xff0c;它只允许具有血缘关系的进程进行通信&#xff0c;那如果是两个不相关的进程进行通信&#xff0…

C# Graphics对象学习

Graphics对象用于进行绘制&#xff1b; 从哪个对象获取的Graphics&#xff0c;然后进行绘制&#xff0c;就绘制到该对象上&#xff1b; 从位图获取Graphics&#xff0c;然后进行绘制&#xff0c;绘制到该位图上&#xff1b; 从某个控件获取Graphics&#xff0c;然后绘制&…

el-tree基础的树形节点设置节点不能选中高亮出来,对已经选中的节点设置disabled,对当前节点刚选中后设置禁用disabled

一、 el-tree基础的树形节点设置节点不能选中高亮出来 需求 我们使用element-ui或者element-plus的时候会遇到树形控件的使用&#xff0c;我们使用树形控件会限制有的节点不让选中和高亮出来&#xff0c;这个时候需要我们做限制。在实现中我们发现了element-ui和element-plus…

基于C语言的趣味游戏之五子棋

目录 趣味五子棋游戏 第一步 text.c文件 第二步 game.h文件 第三步 初始化 打印棋盘 玩家输入 电脑输入 判断输赢 game.c 趣味五子棋游戏 第一步 先写菜单&#xff0c;然后在主函数里调用&#xff0c;由于这是一个可以重复的游戏所以将do while循环里调用menu函数。…

《WebKit技术内幕》学习之十五(2):Web前端的未来

2 嵌入式应用模式 2.1 嵌入式模式 读者可能会奇怪本章重点表达的是Web应用和Web运行平台&#xff0c;为什么会介绍嵌入式模式&#xff08;Embedded Mode&#xff09;呢&#xff1f;这是因为很多Web运行平台是基于嵌入式模式的接口开发出来的&#xff0c;所以这里先解释一下什…

keepalived+nginx双主热备(有问题私信)

keepalivednginx双主热备 前言keepalivednginx双主热备keepalivednginx双主热备部署安装nginx安装keepalived修改master节点的keepalived配置文件 修改backup节点的keeepalived配置文件配置keepalived主备配置keepalived双主热备 前言 有关keepalived和nginx的一些工作原理&am…

uniapp封装公共的方法或者数据请求方法

仅供自己参考&#xff0c;不是每个页面都用到这个方法&#xff0c;所以我直接在用到的页面引用该公用方法&#xff1a; 1、新建一个util.js文件 export const address function(options){return new Promise((resolve,reject)>{uni.request({url:"https://x.cxniu.…