大型语言模型(LLMs)是如何工作的?

大型语言模型(LLMs)如ChatGPT、Bing的“Sydney”模式和Google的Bard正在占据新闻头条。与其讨论它们将使哪些工作变得过时,本文将探讨这些模型的工作原理,包括它们从哪里获取数据以及使它们能够生成令人信服的真实文本的基本数学方法。

机器学习101LLMs是一种机器学习模型,就像许多其他模型一样。要理解它们的工作原理,让我们从了解一般的机器学习基础知识开始。

注意:有许多优秀的在线视觉资源可以更详细地解释机器学习,可能比我能解释得更好——我建议查看它们!然而,我将在这里介绍基本概念。

掌握基本的ML模型的最简单方法是考虑预测:基于我已经知道的,在一个新情况下会发生什么?这类似于你的大脑如何工作。

想象你有一个总是迟到的朋友。你正在计划一个聚会,所以你预计他还会迟到。虽然不确定,但根据他的记录,你认为有很大的可能性。如果他准时到达,你会感到惊讶,并且你会记住这一点;也许下次你会调整对他的迟到的期望。

你的大脑中有许多这样的模型不断工作,但目前我们还不完全了解它们在内部是如何实际工作的。在现实世界中,我们不得不使用算法来应对——有些简单,有些非常复杂——它们从数据中学习并预测新情况下可能会发生的事情。通常,模型被训练来做特定的事情(如预测股票价格或创建图像),但它们正变得越来越多功能化。

图片

机器学习模型有点像API:它接收输入,你教它产生特定的输出。以下是这个过程:

  1. 收集训练数据:收集关于你想要建模的数据的一堆信息。
  2. 分析训练数据:查看数据以找到模式和细节。
  3. 选择模型:选择一个算法(或几个)来理解数据及其工作原理。
  4. 训练:运行算法,它学习并存储它所推断出的内容。
  5. 推理:将新数据呈现给模型,它将给出它的想法。

根据模型需要完成的具体任务,你创建模型的接口,决定它接收什么信息以及返回什么信息。

图片

你可能会问,这个算法是做什么的?嗯,可以把它想象成一个超级聪明的分析师。它可以发现你提供的数据中的关联关系,这些关联关系通常是你自己很难发现的。数据通常包含一些X元素——比如特征、设置、细节——以及一些Y元素——实际发生的事情。如果你正在查看这些数据:

图片

你不需要机器学习来告诉你当X为15时,Y约为150,000。但是如果有30个不同的X因素呢?或者数据看起来很怪异?或者是文本?机器学习就是解决我们人类技能不足的棘手情况。就是这样。

这就是为什么ML算法可以像线性回归(如统计1)一样简单,也可以像具有数百万节点的神经网络一样复杂。最近新闻中的超级先进模型非常复杂,需要很多人和多年的研究。但在许多公司中,数据科学家使用简单的算法仍然可以获得良好的结果。

从零开始构建强大的ML模型是一个非常专业化的领域。一些数据科学家和机器学习工程师使用PyTorch和Tensorflow等工具创建模型,而其他人则增强现有的开源模型。您还可以选择将整个模型开发过程外包,并使用别人创建的现成模型。

创建模型就像是一个试错的过程。除非你的数据非常直接,否则你可能需要测试不同的方法并在你的模型开始有意义之前进行不断的调整。它融合了科学、数学、艺术和一些随机性。

语言模型和生成文本当你的数据有时间元素时——比如预测未来股票价格或理解即将到来的选举——模型的作用就很明显了。它使用过去来预测未来。然而,许多机器学习模型,如语言模型,根本不处理时间序列数据。

语言模型只是处理文本数据的机器学习模型。你可以在所谓的“语料库”(或仅仅是文本)上训练它们,然后你可以将它们用于各种任务,例如:

1、回答

2、问题搜索

3、摘要

4、转录语言模型的概念已经存在一段时间了,但最近深度学习和神经网络的兴起是一个重大事件;我们将讨论这两者。

概率语言模型简单来说,概率语言模型就像单词或词组的概率图。在英语中,它检查一段文本并分析哪些单词出现,何时出现,出现的频率以及它们出现的次序等等。所有这些信息都是通过统计捕获的。

现在,让我们快速制作自己的语言模型。

以下是两个可能或不一定表达我真实想法的句子:

“最好的曼哈顿鸡尾酒配方使用两盎司Van Brunt帝国黑麦威士忌,一盎司Cocchi Di Torino甜苦艾酒,一撮安格斯图拉苦味酒和一撮橙子苦味酒。我在调酒杯中搅拌大约60次,倒入一个冷却的Nick and Nora杯中,并用一颗樱桃装饰。”

要制作一个简单的概率语言模型,我们将收集n-grams,这是一组词的高级统计术语。让我们将n设置为1,这意味着我们只会计算单词出现的频率。

图片

如果n设置为2:

图片

模型所做的是生成一堆n-grams,关注哪些单词一起出现以及它们的顺序。

😰 不要担心细节 😰

我通过n-gram练习只是为了说明许多模型正在做的事情并不是那么复杂(尽管对某些人来说是这样的)。因此,如果您没有理解上述所有细节,请不要感到压力。

😰 不要担心细节 😰

一旦您存储了这些信息,就可以预测接下来可能出现的单词。如果我们要从两个鸡尾酒句子中创建一个新的句子,我们会以一种类似于之前的方式将单词组合在一起。

神经网络和语言模型概率语言模型已经存在了几十年。然而,最近使用神经网络(一种更复杂的算法)进行语言建模变得越来越流行。这些网络使用称为嵌入的东西以更有意义的方式学习发生了什么。对于模型来说,直接从单词中学习是很困难的,但更容易从这些单词的数学表示中学习。

嵌入是一种方法,可以将具有大量维度的数据(如包含大量离散单词和组合的大型文本)以较少的数据进行数学表示,同时不会丢失太多细节。对于一个机器学习模型来说,处理关于制作鸡尾酒的100个不同1500字的博客文章的文本(总共有15万个单词!)是一项艰巨的任务。但是,如果我们能够将这些信息转化为一系列数字,那么我们就走对了路。

配备了更易于使用的单词和文本表示形式后,神经网络可以学习有关文本的重要信息,例如:

单词之间的语义关系引入更多上下文(单词或句子前后的句子)确定哪些单词重要,哪些不重要这些东西变得相当复杂。但是目标很简单:一个足够强大的模型,在预测下一个单词、句子或段落时可以考虑很多上下文,就像我们的大脑一样。

大型语言模型现在ChatGPT及其同类本质上是大规模语言模型(这就是为什么它们被称为这样)。它们建立在过去十年的层层进展之上,包括:

Word2Vec模型LSTM(长短时记忆)模型RNN(循环神经网络)Transformers(是的)(也称为“基础模型”)您不必真正了解每个模型是什么。关键是要认识到这些大型语言模型并不是某种突然的科学突破。研究人员多年来一直在稳步迈向今天的现实,并且每一项新的发展都对达到这一点起到了至关重要的作用。当LSTM在2019年获得关注时(尽管该概念在90年代就引入了),有一个大的炒作周期,而所有这些也是如此。研究有点奇怪!

ChatGPT和LLMs创建整段文本的方式是通过反复进行单词猜测游戏。

以下是概述:

  1. 您给模型一个提示(这是“预测”短语)。
  2. 它根据提示预测一个单词。
  3. 它根据第一个单词预测第二个单词。
  4. 它根据前两个单词预测第三个单词。

当您将其分解时,这很简单。但是事实证明,当您的模型在互联网的所有文本上进行训练时,单词猜测游戏可以非常强大。数据科学家经常说关于ML模型:“垃圾输入意味着垃圾输出”,意思是您的模型只与用于训练它们的数据一样好。通过与微软合作,OpenAI能够使用大量的计算资源来收集这些数据并在强大的服务器上训练这些模型。

以整个书面互联网为上下文,LLMs可以生成很少偏离“正常”的句子,与旧模型不同。如果短语“我在玻璃杯周围用曼哈顿冰镇鸡尾酒安格斯图拉”在网页上不存在,那么该模型可能不会生成它。而这个简单的事实是这些模型如此出色的一个主要原因。

图片

这引出了一个重要的问题:这些大型语言模型真的理解它们提供的答案吗?弄清楚这个问题涉及到数学、哲学和语义学(“理解”到底是什么意思?)的混合。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/707952.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【课程总结】Day8(上):深度学习基本流程

前言 在上一篇课程《【课程总结】Day7:深度学习概述》中,我们了解到: 模型训练过程→本质上是固定w和b参数的过程;让模型更好→本质上就是让模型的损失值loss变小;让loss变小→本质上就是求loss函数的最小值&#xf…

Postman接口测试工具详解(高清图例)

一、引言 1. 介绍接口测试的重要性 在当今软件开发领域,接口(API)已成为不同系统、服务或组件之间交互的桥梁。随着微服务架构的普及,接口的重要性日益凸显。然而,接口的复杂性和多样性也带来了诸多挑战,其…

【中间件】Pulsar集群安装

目录 一、Pulsar介绍 1.1 Pulsar基本介绍 1.2 Pulsar架构 Producer & Consumer Apache Zookeeper Pulsar Brokers Apache Bookkeeper 二、Zookeeper集群安装 三、Pulsar集群安装 3.1 bookie与broker配置 3.1.1 修改bookie配置文件 3.1.2 修改broker配置文件 3…

轮到国产游戏统治Steam榜单

6月10日晚8点,《黑神话:悟空》实体版正式开启全款预售,预售开启不到5分钟,所有产品即宣告售罄。 Steam上,《黑神话:悟空》持续占据着热销榜榜首的位置。 但在《黑神话:悟空》傲人的光环下,还有一款国产游戏取得出色的成绩。 6月10日&#…

32T存储删除视频的恢复方法

由于存储技术的发展和普及目前很多行业都开始使用小型存储,NAS可以通过网络进行数据上传和读取,使用极为方便。但是由于NAS设备容量较大且碎片较多,所以此类设备删除或者格式后恢复难度是比较大的,下边我们来分享下32T存储的恢复方…

Android面试题之ActivityManagerService的启动流程

本文首发于公众号“AntDream”,欢迎微信搜索“AntDream”或扫描文章底部二维码关注,和我一起每天进步一点点 SystemServer启动 创建SystemContex 用于加载系统相关的资源,比如theme,android命名空间下的资源等创建引导服务&#…

关于Ubuntu24.04嘉立创EDA无法启动的问题

关于Ubuntu24.04嘉立创EDA无法启动的问题 查看无法启动原因解决办法1解决办法2 查看无法启动原因 在终端使用启动文件命令报错 解决办法1 输入如下命令可以正常启动 ./lceda-pro --no-sandbox 解决办法2 找到desktop文件进行修改 cd /usr/share/applications sudo vim lce…

基于顺序表与链表的顺序查找(顺序表的折半查找)

内容 基于任意一个顺序表、链表&#xff0c;实现顺序查找算法&#xff1b;实现折半查找算法&#xff0c;并思考折半查找算法的适用场景&#xff1b; #代码实现 #include<iostream> #include <stdlib.h> using namespace std; #define MAX 20 #define datatype int…

JS手写题解析

手写Promise class MyPromise {constructor(executor) { // executor执行器this.status pending // 等待状态this.value null // 成功或失败的参数this.fulfilledCallbacks [] // 成功的函数队列this.rejectedCallbacks [] // 失败的函数队列const that thisfunction reso…

PCL 任意二维图像转点云

目录 一、概述二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫。 一、概述 给定任意一张图片,通过代码操作将图片转成点云。图像中包含大量可用信息,其中必不可少的信息为像素坐标和像素值,将像…

基于Python+OpenCV的车牌识别停车场管理系统(PyQt界面)【含Python源码 MX_009期】

简介&#xff1a; 基于Python和OpenCV的车牌识别停车场管理系统是一种利用计算机视觉技术来自动识别停车场进出车辆的系统。该系统通过摄像头捕获车辆图像&#xff0c;并使用OpenCV库中的图像处理和模式识别技术来识别图像中的车牌号码。一旦车牌被成功识别&#xff0c;系统就会…

今年的就业环境不容乐观,你想好怎么应对了吗

今年的就业环境不容乐观&#xff0c;你想好怎么应对了吗 毕业生进入职场的历程往往充满挑战和未知&#xff0c;尤其是在当前经济环境下&#xff0c;失业问题愈发凸显。本文通过分享几位年轻人的真实经历&#xff0c;剖析大学生及职场人士面临的困境&#xff0c;并提供应对策略…

字符串及其应用

内容 编写程序实现字符串的基本运算&#xff1a; (1) 求串的长度、两串连接、串比较、子串匹配&#xff1b; (2) 用库函数直接实现上一步的字符申操作 完整代码 #include <iostream> #include <stdio.h> #include<string.h> using namespace std; #define M…

【乐吾乐2D可视化组态编辑器】下载离线部署包

下载离线部署包 乐吾乐2D可视化/大屏可视化支持导出为可直接部署运行的html文件。 乐吾乐2D可视化组态编辑器地址&#xff1a;https://2d.le5le.com/ 1. 从“文件”菜单选择“下载离线部署包” 【提示】离线部署包是需要付费下载&#xff0c;首次体验&#xff0c;可以选择&…

注解 - @ControllerAdvice

注解简介 在今天的每日一注解中&#xff0c;我们将探讨ControllerAdvice注解。ControllerAdvice是Spring框架中的一个注解&#xff0c;用于集中处理应用程序中所有控制器的全局异常处理、数据绑定和数据预处理。 注解定义 ControllerAdvice注解用于定义一个全局的异常处理、数…

SQL优化选对执行计划,查询速度提升1000倍 | OceanBase 应用实践

作者&#xff1a;爱可生数据库高级工程师任仲禹&#xff0c;擅长故障分析和性能优化。 本文通过一个案例&#xff0c;分享使用OceanBase时&#xff0c;SQL走错执行计划&#xff0c;而导致慢SQL的排查方法论。 案例背景 在使用OceanBase 3.2.3 版本的过程中&#xff0c;项目组反…

【Da-SimaRPN】《Distractor-aware Siamese Networks for Visual Object Tracking》

ECCV-2018 中科大 文章目录 1 Background and Motivation2 Related Work3 Advantages / Contributions4 Method4.1 Features and Drawbacks in Traditional Siamese Networks4.2 Distractor-aware Training4.3 Distractor-aware Incremental Learning4.4 DaSiamRPN for Long-t…

【详解Python文件: .py、.ipynb、.pyi、.pyc、​.pyd !】

今天同事给我扔了一个.pyd文件&#xff0c;说让我跑个数据。然后我就傻了。。 不知道多少粉丝小伙伴会run .pyd代码文件&#xff1f;如果你也懵懵的&#xff0c;请继续往下读吧。。 Python文件是存储Python代码或数据的文本文件&#xff0c;通常以.py作为文件扩展名。这些文件…

k8s 自动伸缩机制-------HPA 超详细解读

目录 在K8s中扩缩容分为两种&#xff1a; 前言 弹性伸缩是根据用户的业务需求和策略&#xff0c;自动“调整”其“弹性资源”的管理服务。通过弹性伸缩功能&#xff0c;用户可设置对定时、周期或监控策略&#xff0c;恰到好处地增加或减少“弹性资源”&#xff0c;并完成实例…

单片机课设-基于单片机的电子时钟设计(仿真+代码+报告)

基于单片机的电子时钟设计 前言一、课设任务是什么?二、系统总体方案硬件设计2.1 系统硬件总体设计2.2 键盘电路设计2.3 DS1302实时时钟芯片电路设计2.4 复位电路2.5 LCD电路设计 三、软件设计3.1 主程序流程图3.2 主要程序设计代码3.3 修改时间函数3.4 扫描键盘函数 四、仿真…