【大模型应用极简开发入门(1)】LLM概述:LLM在AI中所处位置、NLP技术的演变、Transformer与GPT、以及GPT模型文本生成逻辑

文章目录

  • 一. AI中大语言模型的位置与技术发展
    • 1. 从AI到Transformer
    • 2. NLP:自然语言处理
    • 3. LLM大型语言模型:NLP的一种特定技术
      • 3.1. LLM定义
      • 3.2. LLM的技术发展
        • 3.2.1. n-gram模型
        • 3.2.2. RNN与LSTM
  • 二. Transformer在LLM中脱颖而出
    • 1. Transformer架构能力
    • 2. 注意力机制
      • 2.1. 交叉注意力
      • 2.2. 自注意力机制
    • 3. Transformer的并行化
    • 4. Transformer架构与GPT模型
  • 三、GPT模型文本生成逻辑:标记化和预测
    • 1. 文本分词器:文字标记与关系梳理
    • 2. 预测标记生成完整句子

本文关键词:

  • Transformer:GPT-4和ChatGPT发展历程的基础模块。
  • NLP技术的演变
  • Transformer架构描述
  • GPT回答原理概述:GPT模型中的标记化和预测过程。

 

一. AI中大语言模型的位置与技术发展

1. 从AI到Transformer

机器学习与深度学习

机器学习(machine learning,ML)是AI的一个子集。ML通过开发算法,使系统能够通过示例自己学习。
深度学习(deep learning,DL)算法是ML的一个分支,主要开发受大脑结构启发的算法。这些算法被称为人工神经网络(artificial neural network)。它们可以处理大量的数据,并且在图像识别、语音识别及NLP等任务上表现出色。

 

Transformer理解文本并回答文本

Transformer是一种特定的神经网络架构,能够理解文本,并产生回答。
 
GPT-4和ChatGPT基于一种特定的神经网络架构,即Transformer。Transformer就像阅读机一样,它关注句子或段落的不同部分,以理解其上下文并产生连贯的回答。此外,它还可以理解句子中的单词顺序和上下文意思。这使Transformer在语言翻译、问题回答和文本生成等任务中非常有效。

如下图:从AI到Transformer的嵌套技术集合
在这里插入图片描述

 

2. NLP:自然语言处理

NLP自然语言处理(Natural Language Processing是AI的一个子领域,专注于使计算机能够处理、解释和生成人类语言。

现代NLP解决方案基于ML算法。NLP的目标是让计算机能够处理自然语言文本。它关注的是使计算机能够理解和处理人类语言的能力,包括语言的语法、语义、语用等方面。NLP应用广泛,涉及文本处理、语音识别、机器翻译、对话系统等各种任务。

NLP的能力如下:

  1. 文本分类:将输入文本归为预定义的类别。
    这类任务包括情感分析和主题分类。比如,某公司使用情感分析来了解客户对其服务的意见。
  2. 自动翻译:将文本从一种语言自动翻译成另一种语言
    请注意,这类任务可以包括将代码从一种程序设计语言翻译成另一种程序设计语言,比如从Python翻译成C++。
  3. 问题回答:根据给定的文本回答问题。
    比如,在线客服门户网站可以使用NLP模型回答关于产品的常见问题;教学软件可以使用NLP模型回答学生关于所学主题的问题。
  4. 文本生成:
    根据给定的输入文本(称为提示词)生成连贯且相关的输出文本。

 

3. LLM大型语言模型:NLP的一种特定技术

3.1. LLM定义

LLM是试图完成文本生成任务的一类ML模型。LLM使计算机能够处理、解释和生成人类语言,从而提高人机交互效率。

 

LLM的学习过程

为了做到这一点,LLM会分析大量文本数据或基于这些数据进行训练(怎么训练),从而学习句子中各词之间的模式和关系。这个学习过程可以使用各种数据源,包括维基百科、Reddit、成千上万本书,甚至互联网本身。在给定输入文本的情况下,这个学习过程使得LLM能够预测最有可能出现的后续单词,从而生成对输入文本有意义的回应。

2023年发布的一些现代语言模型非常庞大,并且已经在大量文本上进行了训练,因此它们可以直接执行大多数NLP任务,如文本分类、自动翻译、问题回答等。GPT-4和ChatGPT是在文本生成任务上表现出色的LLM。

 

3.2. LLM的技术发展

LLM的发展可以追溯到几年前。它始于简单的语言模型,如n-gram模型

3.2.1. n-gram模型

n-gram模型能够通过使用词频根据前面的词预测句子中下一个词,但在理解上下文和语法不够优秀,会生成不连贯的文本。

n-gram模型通过使用词频来根据前面的词预测句子中的下一个词,其预测结果是在训练文本中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点,但是n-gram模型在理解上下文和语法方面仍需改进,因为它有时会生成不连贯的文本。

 

3.2.2. RNN与LSTM

循环神经网络和长短期记忆网络,是比n-gram更先进的学习算法,能够学习更长的序列,能够更好的分析上下文,但处理数据时效率不佳,具体描述如下:

为了提高n-gram模型的性能,人们引入了更先进的学习算法,包括循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term memory,LSTM)网络。与n-gram模型相比,这些模型能够学习更长的序列,并且能够更好地分析上下文,但它们在处理大量数据时的效率仍然欠佳。尽管如此,在很长的一段时间里,这些模型算是最高效的,因此在自动翻译等任务中被广泛使用。

 

二. Transformer在LLM中脱颖而出

1. Transformer架构能力

Transformer架构能够处理长文本并记住上下文,且具备高效处理和编码上下文能力。

Transformer架构彻底改变了NLP领域,这主要是因为它能够有效地解决之前的NLP模型(如RNN)存在的一个关键问题:很难处理长文本序列并记住其上下文。换句话说,RNN在处理长文本序列时容易忘记上下文(也就是臭名昭著的“灾难性遗忘问题”),Transformer则具备高效处理和编码上下文的能力。

 

2. 注意力机制

注意力机制:在任务的每个步骤中关注最相关的词

这场革命的核心支柱是注意力机制,这是一个简单而又强大的机制。
 
模型不再将文本序列中的所有词视为同等重要,而是在任务的每个步骤中关注最相关的词。交叉注意力和自注意力是基于注意力机制的两个架构模块,它们经常出现在LLM中。Transformer架构广泛使用了交叉注意力模块和自注意力模块

 

2.1. 交叉注意力

交叉注意力有助于模型确定输入文本的不同部分与输出文本中下一个词的相关性。它就像一盏聚光灯,照亮输入文本中的词或短语,并突出显示预测下一个词所需的相关信息,同时忽略不重要的细节。

为了说明这一点,让我们以一个简单的句子翻译任务为例。

假设输入文本是这样一个英语句子:
Alice enjoyed the sunny weather in Brussels(Alice很享受布鲁塞尔阳光明媚的天气)。
如果目标语言是法语,那么输出文本应该是:Alice a profitédu temps ensoleillé à Bruxelles。

在这个例子中,让我们专注于生成法语单词ensoleillé,它对应原句中的sunny。对于这个预测任务,交叉注意力模块会更关注英语单词sunny和weather,因为它们都与ensoleillé 相关。

(为什么要专注于这两个词?因为两个相关的词?)

通过关注这两个单词,交叉注意力模块有助于模型为句子的这一部分生成准确的翻译结果,如图所示。

在这里插入图片描述

 

2.2. 自注意力机制

自注意力机制:评估(how ing)句子中更重要的词,并构建出新概念,实现对句子的理解。

具体到NLP领域,自注意力机制使模型能够评估句子中的每个词相比于其他词的重要性。这使得模型能够更好地理解各词之间的关系,并根据输入文本中的多个词构建新概念

来看一个更具体的例子。

考虑以下句子:Alice received praise from her colleagues(Alice受到同事的赞扬)。假设模型试图理解her这个单词的意思。
 
自注意力机制给句子中的每个单词分配不同的权重,突出在这个上下文中与her相关的单词。在本例中,自注意力机制会更关注Alice和colleagues这两个单词。如前所述,自注意力机制帮助模型根据这些单词构建新概念。在本例中,可能出现的一个新概念是Alice’s colleagues,如图。
 
在这里插入图片描述

 

3. Transformer的并行化

Transformer的并行化可以同时处理输入文本的多个部分,从而提高计算速度和训练速度。所以并行处理能力与GPU完美结合。具体描述如下:

  • 与RNN不同,Transformer架构具有易于并行化的优势。这意味着Transformer架构可以同时处理输入文本的多个部分,而无须顺序处理。这样做可以提高计算速度和训练速度,因为模型的不同部分可以并行工作,而无须等待前一步骤完成。
     
  • 基于Transformer架构的模型所具备的并行处理能力与图形处理单元(graphics processing unit,GPU)的架构完美契合,后者专用于同时处理多个计算任务。由于高度的并行性和强大的计算能力,GPU非常适合用于训练和运行基于Transformer架构的模型。硬件上的这一进展使数据科学家能够在大型数据集上训练模型,从而为开发LLM铺平了道路。

 

4. Transformer架构与GPT模型

Transformer架构设计来源《Attention Is All You Need》,标准架构有:编码器(处理输入文本,设别有价值的特征,生成有意义的文本表示)和 解码器(输出)。

  • Transformer架构由来自谷歌公司的Ashish Vaswani等人在2017年的论文“Attention Is All You Need”中提出,最初用于序列到序列的任务,如机器翻译任务。
  • 标准的Transformer架构有两个主要组件:编码器和解码器,两者都十分依赖注意力机制。编码器的任务是处理输入文本,识别有价值的特征,并生成有意义的文本表示,称为嵌入(embedding)。解码器使用这个嵌入来生成一个输出,比如翻译结果或摘要文本。这个输出有效地解释了编码信息。

 

GPT模型:仅仅依靠解码器内部的自注意力机制来生成上下文感知的表示和预测结果。

生成式预训练Transformer(Generative Pre-trained Transformer,GPT)是一类基于Transformer架构的模型,专门利用原始架构中的解码器部分。在GPT中,不存在编码器,因此无须通过交叉注意力机制来整合编码器产生的嵌入。

也就是说,GPT仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果

请注意,BERT等其他一些众所周知的模型基于编码器部分,但本书不涉及这类模型。

 

如下图展示了NLP技术的演变历程。

在这里插入图片描述

 

三、GPT模型文本生成逻辑:标记化和预测

GPT模型接收一段提示词作为输入,然后生成一段文本作为输出。这个过程被称为文本补全

举例来说,提示词可以是The weather is nice today, so I decided to(今天天气很好,所以我决定),模型的输出则可能是go for a walk(去散步)。

GPT模型是如何根据输入的提示词构建输出文本的 ? 这主要是一个概率问题。

 
具体生成步骤如下

1. 文本分词器:文字标记与关系梳理

a. 输入拆分成标记

当GPT模型收到一段提示词之后,它首先将输入拆分成标记(token)。这些标记代表单词、单词的一部分、空格或标点符号。比如,在前面的例子中,提示词可以被拆分成[The, wea, ther, is, nice, today, so, I, de, ci, ded, to]。

理解标记与词长的一条经验法则是,对于英语文本,100个标记大约等于75个单词(ing)。几乎每个语言模型都配有自己的分词器。

 

b. 解析标记关系(how ing)

因为有了注意力机制和Transformer架构,LLM能够轻松处理标记并解释它们之间的关系及提示词的整体含义。Transformer架构使模型能够高效地识别文本中的关键信息和上下文。

 

2. 预测标记生成完整句子

通过提示词的上下文作为整体得出后续概率最高的标记,然后重复得出后续最高概率标记模,最终生成完整的句子。
 

标记预测基本逻辑

为了生成新的句子,LLM根据提示词的上下文预测最有可能出现的下一个标记

OpenAI开发了两个版本的GPT-4,上下文窗口大小分别为8192个标记和32768个标记。与之前的循环模型不同,带有注意力机制的Transformer架构使得LLM能够将上下文作为一个整体来考虑。基于这个上下文,模型为每个潜在的后续标记分配一个概率分数,然后选择概率最高的标记作为序列中的下一个标记。

 

具体过程描述

  • 在前面的例子中,“今天天气很好,所以我决定”之后,下一个最佳标记可能是“去”。
  • 接下来重复此过程,但现在上下文变为“今天天气很好,所以我决定去”,之前预测的标记“去”被添加到原始提示词中。
  • 这个过程会一直重复,直到形成一个完整的句子:“今天天气很好,所以我决定去散步。”这个过程依赖于LLM学习从大量文本数据中预测下一个最有可能出现的单词的能力。

如图:GPT逐个标记地补全文本,整个过程是迭代式的。
在这里插入图片描述

 
参考:《大模型应用极简开发入门》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/560471.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】详解进程通信中信号量的本质同步和互斥的概念临界资源和临界区的概念

一、同步和互斥的概念 1.1、同步 访问资源在安全的前提下,具有一定的顺序性,就叫做同步。在多道程序系统中,由于资源有限,进程或线程之间可能产生冲突。同步机制就是为了解决这些冲突,保证进程或线程之间能够按照既定…

sketchup创建3D打印机的模型

查了一下,这玩意有几个版本,其中一个sketchup free是免费的,到官网上看看 下载 SketchUp | 免费试用 3D 建模软件 | SketchUp 是个在线网页版,然后可以再这个网站上注册一个账号 弄个邮箱试试看 创建好进入后,里面就…

解锁多智能体路径规划新境界:结合启发式搜索提升ML本地策略

引言:多智能体路径寻找(MAPF)问题的重要性与挑战 在现代自动化和机器人技术迅速发展的背景下,多智能体路径寻找(Multi-agent path finding,简称MAPF)问题的研究变得日益重要。MAPF问题涉及为一…

《QT实用小工具·二十七》各种炫酷的样式表

1、概述 源码放在文章末尾 该项目实现了各种炫酷的样式表,如单选、多选、按钮、日历、表格、下拉框、滚轮等,下面是项目demo演示: 项目部分代码如下: #include "frmmain.h" #include "ui_frmmain.h" #inc…

【C++】飞机大战项目记录

源代码与图片参考自《你好编程》的飞机大战项目,这里不进行展示。 本项目是仅供学习使用的项目 飞机大战项目记录 飞机大战设计报告1 项目框架分析1.1 敌机设计:1.2 玩家飞机控制:1.3 子弹发射:1.4 游戏界面与互动:1.5…

高精度算法(2)

前言 延续上次所讲的内容再对乘法和除法进行说明,希望有所帮助 注意这里的乘除法都是针对于整数如果要是涉及到小数,我们得使用二分法 通过二分同样可以解决小数精度问题 高精度乘法 思路 我们只能用字符串来读取一个很大很大的数,所以…

一文讲透彻Redis 持久化

文章目录 ⛄1.RDB持久化🪂🪂1.1.执行时机🪂🪂1.2.RDB原理🪂🪂1.3.小结 ⛄2.AOF持久化🪂🪂2.1.AOF原理🪂🪂2.2.AOF配置🪂🪂2.3.AOF文件…

按钮(秒懂CSS按钮的使用)

目录 一、按钮介绍 1.概念 2.特点 3.功能 二、按钮用法 1.按钮的使用 2.按钮的样式 3.按钮颜色 4.按钮大小 5.圆角按钮 6.按钮边框颜色 7.按钮鼠标悬停 8.按钮阴影 9.禁用按钮 10.按钮宽度 三、按钮实例 1.交互式按钮 2.扩展动画按钮 3.播放/暂停按钮 四、应用场景…

国产化里程碑:明道云HAP私有部署版获信创评估证书,荣登会员单位

近期,明道云HAP私有部署版荣获信创产品评估证书,这一成就不仅标志着我们在信创领域的深入布局和持续努力获得了行业的广泛认可,也是对我们积极拥抱和推动国产化技术发展的肯定。更值得一提的是,我们还被授予“成员单位”的称号&am…

【数字电路与系统】【北京航空航天大学】实验:时序逻辑设计——三色灯开关(二)、需求分析和系统设计

本次实验(一)见博客:【数字电路与系统】【北京航空航天大学】实验:时序逻辑设计——三色灯开关(一)、实验指导书 说明:本次实验的代码使用verilog编写,文章中为阅读方便&#xff0c…

kaggle 房价预测 得分0.53492

流程 导入需要的包引入文件,查看内容数据处理调用模型准备训练输出结果 导入需要的包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.linear_model i…

Claude 3 Opus 效果是否真的可以超过GPT-4?

实测,不仅是超过,而且我个人感觉这个差距甚至大于GPT3.5到GPT4的距离. claude3在长篇理学论文的解析能力是非常显著的,可以扩展补完作者省略的大量运用高等数学,复变函数以及更多数理方法的计算过程,并且将中间过程补完的非常完美.不会漏符号,错符号,偏差数值之类的问题.工科许…

【C语言】贪吃蛇项目(2)- 实现代码详解

文章目录 前言一、游戏开始界面设计首先 - 打印环境界面其次 - 游戏地图、蛇身及食物的设计1、地图2、蛇身设置及打印3、食物 二、游戏运行环节蛇的上下左右移动等功能蛇的移动 三、结束游戏代码 前言 在笔者的前一篇博客中详细记载了贪吃蛇项目所需的一些必备知识以及我们进行…

mysql_explain执行计划字段解析

【README】 本文对 explain打印的执行结果的字段进行解析; 本文总结自: MySQL :: MySQL 8.3 Reference Manual :: 10.8.2 EXPLAIN Output Formathttps://dev.mysql.com/doc/refman/8.3/en/explain-output.html 列名含义id选择标识select_type选择类型…

移动Web学习09-响应式布局bootstrap案例开发

3、综合案例-AlloyTeam移动全端 准备工作 HTML 结构 <title>腾讯全端</title> <link rel"shortcut icon" href"favicon.ico" type"image/x-icon"> <!-- 层叠性&#xff1a;咱们的css 要 层叠 框架的 --> <link rel&…

存储过程的使用(二)

目录 带 OUT 参数的存储过程 输入一个编号&#xff0c;查询数据表 emp中是否有这个编号&#xff0c;如果有返回对应员工姓名&#xff0c;如果没有&#xff0c;则提示没有对应员工 使用 EXEC 命令或者 PRINT执行含有 OUT参数的存储过程 使用 PL/SQL 块编辑程序调用含有 OUT …

JAVA 项目<果园之窗>_2

上节主要是理论流程&#xff0c;这次直接用实际例子过一遍整个流程 目标是向数据库添加一个员工 上述是前端页面&#xff0c;点击保存 浏览器向我后端发送http请求 后端这一部分专门接收employee请求 在这里对http post请求进行转换成JAVA数据&#xff0c;并处理数据&#xff…

Spring Boot后端与Vue前端融合:构建高效旅游管理系统

作者介绍&#xff1a;✌️大厂全栈码农|毕设实战开发&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。 &#x1f345;获取源码联系方式请查看文末&#x1f345; 推荐订阅精彩专栏 &#x1f447;&#x1f3fb; 避免错过下次更新 Springboot项目精选实战案例 更多项目…

python_列表和元组

介绍 列表&#xff08;List&#xff09;和元组&#xff08;Tuple&#xff09;是Python中两种不同的数据结构&#xff0c;它们都可以用来存储一系列的元素。下面是它们的主要特点和区别&#xff1a; 列表&#xff08;List&#xff09; 可变性&#xff1a;列表是可变的&…

广西模板厂有哪些厂家

在广西地区&#xff0c;建筑行业蓬勃发展&#xff0c;建筑模板作为建筑施工的重要材料&#xff0c;需求量逐渐增加。在这个市场中&#xff0c;贵港市能强优品木业有限公司以其卓越的产品质量和丰富的生产经验而闻名&#xff0c;成为广西地区的知名建筑模板生产厂家。 作为一家具…