科普神文,一次性讲透AI大模型的核心概念

img

令牌,向量,嵌入,注意力,这些AI大模型名词是否一直让你感觉熟悉又陌生,如果答案肯定的话,那么朋友,今天这篇科普神文不容错过。我将结合大量示例及可视化的图形手段,为你由浅入深一次性讲透AI大模型的核心概念。

引言

随着科技公司及国际竞争的不断推进,AI大模型已经越来越多融入我们的生活。作为一个普通人或许不需要研究高深的AI算法,但想在这次AI浪潮中不被抛弃,必须对LLM原理有一个基本的理解。

理解LLM(即Large Language Model,大语言模型)如何生成文本也就意味着理解这些模型为什么是如此通用的认知引擎——以及它们还能帮助创造什么。

令牌化和向量化(Token&Vectorization)

首先,让我们从令牌化和向量化开始,这一部分内容将为大家解开AI大模型的第一层面纱-AI大模型时如何理解人类语言的。通过这一部分的讲解也将为大家构建AI大模型的基础数学观

  • 为了读懂人类提问和输出回答,LLM必须先将单词翻译成它们能理解的语言。

img

  • 首先,一块文字被分割成令牌(tokens) ——可以编码的基本单位。令牌通常代表词的片段,但我们会将每个完整的词变成一个令牌。

img

  • 为了掌握一个词的意思,例如work,LLM首先通过使用大量训练数据观察它的上下文,注意它的 邻近词。这些数据集基于收集互联网上发表的文本,新LLM使用数十亿个词进行训练。

img

  • 最终,我们得到一个巨大的与work在训练数据中一起出现的词集(E.g:roof),以及那些没有(E.g:dove)与它一起出现的词集。

img

  • 当模型处理这个词集时,它会产生一个向量——或数值列表——并根据每个词在训练数据中与work的邻近程度来调整它。这个向量被称为词嵌入(embedding)

img

  • 一个词嵌入可以包含数百个值,每个值表示一个词意义的不同方面。就像你可能会通过其特征来描述一座房子——类型、位置、卧室、浴室、楼层——嵌入中的值可以定量表示一个词的语言特征。

img

  • 这些特征的派生方式意味着我们不确切知道每个值表示什么,但我们预期在可比较的方式中使用的词,其嵌入往往看起来相似。
    比如一对词组如seaocean,它们可能不会在完全相同的上下文中使用(“all at ocean”不是“all at sea”的直接替代),但它们的意思很接近,并且嵌入允许我们量化这种接近程度。

img

  • 通过将每个嵌入表示的数百个值减少到只有两个,我们可以更清楚地看到这些词之间的距离。

img

  • 我们可能会发现代词的簇集,或交通工具的模式,能够定量表示词汇的方式是模型生成文本的第一步。

img

Transformer

在搞清楚了大模型是如何理解人类语言之后,或许你会觉得不过如此,这与LLM表现出的强大功能似乎并不相符。没错仅仅靠令牌和向量化还不足以使LLM如此聪明,接下来我们将直抵AI大模型的心脏-Transformer,正是依靠Transformer,LLM才能够像今天这样流畅地解析和书写,它从根本上加快并增强了计算机理解语言的方式。

阐述transformer模型的研究首次由谷歌的8名AI研究人员在2017年6月发表,正是大家耳熟能详的《Attention is All You Need》开启了AI的新纪元,Attention也将是下文着重讲解的核心概念,我将带领大家在上述数学模型的基础上构建对LLM的基础概念抽象。

  • Transformer体系结构的一个关键概念是自注意力(Attention)。这就是允许LLM理解词之间关系的原因。

img

  • 自注意力查看文本中的每个令牌(token),并决定哪些对理解其含义最重要。

img

  • 在transformer之前,最先进的AI翻译方法是循环神经网络(RNN),它逐字扫描句子并顺序处理。

img

  • 通过自注意力,transformer可以同时计算句子中的所有单词。捕捉这种上下文为LLM提供了更复杂的语言处理能力。

img

  • 在这个例子中,同时评估整个句子意味着transformer能够理解interest在这里作为名词使用,以解释个人对政治的看法。

img

  • 如果我们调整句子…

img

  • …模型就会理解interest现在是在金融意义上使用。

img

当我们组合这些句子时,模型仍然能够识别每个词的正确含义,这要归功于它对伴随文本的注意力。

  • 第一次使用interest,它主要注意到no 和in。

img

  • 第二次,它主要注意到rate和bank。

img

  • 这种功能对于高级文本生成至关重要。没有它,在某些上下文中可以互换但在其他上下文中不可以的词可能会被错误使用。

img

  • 实际上,自注意力意味着如果这个句子的摘要被生成,您不会在讨论利率时使用enthusiasm这个词。

img

  • 这种能力远远超越像interest这样有多个意思的词。

img

  • 在下面的句子中,自注意力能够计算出it最有可能指代dog。

img

  • 如果我们改变句子,将hungry替换为delicious,模型能够重新计算,现在it最有可能指代bone。

img

  • 随着规模的扩大,自注意力对语言处理的好处也越来越大。它允许LLM从句子边界之外获取上下文(context),让模型对一个词的使用方式有更深入的理解。

img

LLM

理解了LLM基础数学原理和模型概念抽象后,大家是不是很兴奋,最后让我们看看目前世界上最先的大预言模型到底做了什么,构建了如此缤纷多彩的AI应用世界。

大模型之所以被称之为大,是因为其训练有我们整个互联网的基础语料库的支撑,从这巨大的语料库中,模型学会识别模式,最终预测下一个最佳选项。接下来我将带领大家直面大模型,为大家揭秘LLM是如何涌现智能,成为最像人的人工智能的。

  • 基于上文的Transformer模型,对互联网语料库处理后,我们可以生成人类语言的数据模型,表示机器所理解的输入,包括词义、位置和词之间的关系。

img

  • 基于以上数学模型,求取最优解最简单的方式,就是将模型的目标设定为预测一个序列中的下一个词,并重复此过程直到输出完成。

img

  • 为此,模型给每个令牌一个概率分数(probability score),表示它是序列中下一个词的可能性。

img

  • 它将继续这样做,直到对所产生的文本感到满意。

img

  • 但是,这种隔离地预测下一个词的方法(称为“贪心搜索”)会引入问题。虽然每个令牌可能是下一个最佳选择,但整个短语可能不太相关。
    并不一定总是错误,但可能也不是你所期望的。

img

  • Transformer使用多种方法来解决这个问题并提高输出质量。一个例子叫束搜索。
    它不仅关注序列中下一个词,而是考虑一组较大令牌集合的概率。

img

  • 通过束搜索,模型能够考虑多种路径并找到最佳选项。

img

  • 这会产生更好的结果,最终导致更连贯、更人性化的文本。

img

总结

Transformer已经引领了各种尖端的AI应用程序的创建。除了支持像Bard和ChatGPT这样的聊天机器人之外,它还驱动我们移动键盘上的自动完成功能和智能扬声器中的语音识别。

然而,它的真正威力在语言之外。它的发明者发现,transformer模型可以识别和预测任何重复的主题或模式。从图片中的像素,使用Dall-E、Midjourney和Stable Diffusion等工具,到计算机代码使用GitHub Copilot等生成器。它甚至可以预测音乐中的音符和蛋白质中的DNA来帮助设计药物分子。

数十年来,研究人员构建了专门的模型来总结、翻译、搜索和检索。transformer统一了那些动作到一个单一的结构中,使其能够执行大量各种各样的任务。

通过一个统一的语言模型,实现了从图像,音乐,视频多模态的应用,并且强于以往所有的AI应用,这就是这个故事神奇的地方。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/872420.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Centos Stream9系统安装及网络配置详解

1.镜像下载 如未拥有系统镜像文件的伙伴可通过前往下面的连接进行下载,下载完成后需将其刻录至U盘中。 PS:该U盘应为空盘,刻录文件会导该盘格式化,下载文件选择dvd1.iso完整包,适用于本地安装。 下载地址&#xff1…

恋爱相亲交友系统源码原生源码可二次开发APP 小程序 H5,web全适配

直播互动:平台设有专门的直播间,允许房间主人与其他异性用户通过视频连线的方式进行一对一互动。语音视频交流:异性用户可以发起语音或视频通话,以增进了解和交流。群组聊天:用户能够创建群聊,邀请自己关注…

【云计算】什么是云计算服务|为什么出现了云计算|云计算的服务模式

文章目录 什么是云计算服务本地部署VS云计算SaaS PaaS IaaS公有云、私有云、混合云为什么优先发展云计算服务的厂商是亚马逊、阿里巴巴等公司 什么是云计算服务 根据不同的目标用户,云计算服务(Cloud Computing Services)分为两种&#xff1…

探索动销方案创新路径,开启企业增长新引擎

在当今竞争激烈的市场中,动销方案的重要性不言而喻。然而,传统动销手段已难以应对多变的市场环境,企业急需探索创新路径。 当前动销方案面临哪些挑战呢? 首先,消费者需求越发多样化,他们追求个性化和多元化…

如何修复软件中的BUG

笔者上一篇博文《如何开发出一款优秀的软件》主要讲了如何开发一款优秀的软件及相应的必要条件。但对一个已上线,已经成型的产品,该如何解决存在的bug呢?这是本文要阐述的内容。 在这里,首先说一下bug的种类及bug严重程度分类&…

QT: Unable to create a debugging engine.

1.问题场景: 第一次安装QT,没有配置debug功能 打开控制面板》程序》找到Kit 重启电脑即可 2.问题场景: qt原本一直好好的,突然有天打开运行调试版本,提示Unable to create a debugging engine.错误。这个是指无法创…

【计算机网络】TCP连接如何确保传输的可靠性

一、确保可靠传输的机制 TCP(传输控制协议)是一种面向连接的、提供可靠交付的、面向字节流的、支持全双工的传输层通信协议 1、序列号 seq TCP头部中的序号,占32位(4字节); 发送方给报文段分配一个序列号&a…

如何锻炼自己深度思考的能力?4个方法让你快速看清事物的本质!

我们每天都会接触到海量的信息,但真正的智慧并不在于掌握多少信息,而在于如何从中提炼出有价值的知识,并对其进行深刻的理解与运用。 本周想和大家探讨一下深度思考的重要性,同时分享一些实用的方法和技巧,希望能帮你…

STM32(一)简介

一、stm32简介 1.外设接口 通过程序配置外设来完成功能 2.系统结构 3.引脚定义 4.启动配置 5.最小系统电路

【数据结构初阶】二叉树--堆(顺序结构实现)

hello! 目录 一、实现顺序结构二叉树 1.1 堆的概念和结构 1.2 堆及二叉树的性质 1.3 堆的实现 1.3.1 创建堆的结构 1.3.2 初始化和销毁 1.3.3 入堆向上调整算法(创建一个小堆) 1.3.4 出堆向下调整算法(小堆&#x…

2024Java基础总结+【Java数据结构】(2)

面向对象07:简单小结类与对象 面向对象08:封装详解 面向对象09:什么是继承 ctrlh看类的关系,所有的类都默认的或间接继承Object 面向对象10:Super详解 super注意点: super调用父类的构造方法,必须在构造方…

OCR经典神经网络(一)文本识别算法CRNN算法原理及其在icdar15数据集上的应用

OCR经典神经网络(一)文本识别算法CRNN算法原理及其在icdar15数据集上的应用 文本识别是OCR(Optical Character Recognition)的一个子任务,其任务为:识别一个固定区域的的文本内容。 在OCR的两阶段方法里,文本识别模型接…

七,Spring Boot 当中的 yaml 语法使用

七,Spring Boot 当中的 yaml 语法使用 文章目录 七,Spring Boot 当中的 yaml 语法使用1. yaml 的介绍2. yaml 基本语法3. yaml 数据类型4. 学习测试的准备工作4.1 yaml 字面量4.2 yaml 数组4.3 yaml 对象 5. yaml 使用细节和注意事项6. 总结:…

2024高教社杯数学建模竞赛解题思路

高教社杯数学建模竞赛解题思路:独家出版,思路解析模型代码结果可视化。 A题思路及程序链接:https://mbd.pub/o/bread/ZpqblJZs B题思路及程序链接:https://mbd.pub/o/bread/ZpqblJZx D题思路及程序链接:https://mbd.pu…

常用排序算法(上)

目录 前言: 1.排序的概念及其运用 1.1排序的概念 1.2排序运用 1.3 常见的排序算法 2.常见排序算法的实现 2.1 堆排序 2.1 1 向下调整算法 2.1 2 建堆 2.1 3 排序 2.2 插入排序 2.1.1基本思想: 2.1.2直接插入排序: 2.1.3 插…

elementUI——checkbox复选框监听不到change事件,通过watch监听来解决——基础积累

今天在写后台管理系统的时候,遇到一个需求,就是要求监听复选框的change事件,场景就是:两个复选框互斥,且可以取消勾选。 就是这两个复选框可以同时都不勾选,如果勾选的话,另一个一定要取消勾选。…

具身智能猜想 ——机器人进化

设想一个机器人进化的仿真模拟环境,可以通过 “基因突变” 产生新功能,让机器人逐步进化。以下是这个进化系统的关键要素和可能的实现步骤: 1. 仿真环境 虚拟世界:创建一个包含多样化任务和挑战的虚拟环境,如探索、抓…

多智能体强化学习:citylearn城市建筑能量优化和需求响应

今天分享一个用于能量优化的强化学习框架,citylearn 代码量非常庞大,我都不敢看,看也看不完,不花一定的时间难以搞懂它的原理。 CityLearn(CL)环境是一个类似 OpenAI Gym 的环境,它通过控制不…

UE5 C++ 读取图片插件(一)

原来UE可以使用 static,之前不知道&#xff0c;一用就报错。 static TSharedPtr<IImageWrapper> GetImageWrapperByExtention(const FString InImagePath); //智能指针&#xff0c;方便追寻引用C,加载ImageWrapperstatic UTexture2D* LoadTexture2D(const FString& …

代码随想录 刷题记录-28 图论 (5)最短路径

一、dijkstra&#xff08;朴素版&#xff09;精讲 47. 参加科学大会 思路 本题就是求最短路&#xff0c;最短路是图论中的经典问题即&#xff1a;给出一个有向图&#xff0c;一个起点&#xff0c;一个终点&#xff0c;问起点到终点的最短路径。 接下来讲解最短路算法中的 d…