LLM vs SLM 大模型和小模型的对比

语言模型是能够生成自然人类语言的人工智能计算模型。这绝非易事。

这些模型被训练为概率机器学习模型——预测适合在短语序列中生成的单词的概率分布,试图模仿人类智能。语言模型在科学领域的重点有两个方面:

  1. 领悟情报的本质。
  2. 并将其本质体现为与真实人类进行有意义的智能交流。


在展现人类智能方面,当今自然语言处理 (NLP)领域的前沿人工智能模型尚未通过图灵测试。(如果机器无法辨别通信是来自人类还是计算机,则机器通过了图灵测试。)

特别有趣的是,我们已经非常接近这个标记:当然是被大肆宣传的大型语言模型 (LLM) 和有前途但不那么被大肆宣传的 SLM。(SLM 可以代表小型语言模型或短语言模型。)


小型语言模型与大型语言模型

如果你关注过这些炒作,那么你可能对 ChatGPT 等LLM很熟悉。这些生成式人工智能在学术、工业和消费者领域都极具吸引力。这主要是因为它们能够以语音通信的形式进行相对复杂的交互。

目前,LLM 工具被用作互联网上可用知识的智能机器接口。LLM 会从互联网上提取相关信息,这些信息用于对其进行训练,并向用户提供简明易懂的知识。这是一种替代方法,可以避免在互联网上搜索查询、阅读数千个网页并得出简明扼要的答案。

事实上,ChatGPT 是 LLM 的第一个面向消费者的用例,之前仅限于 OpenAI 的 GPT 和谷歌的 BERT 技术。

最近的迭代(包括但不限于 ChatGPT)已在编程脚本上进行了训练和设计。开发人员使用 ChatGPT 编写完整的程序功能——假设他们可以通过文本用户提示充分指定要求和限制。



NLP 模型的主要三种类型包括符号 NLP、统计 NLP 和神经 NLP。AI训练营,请访问 2img.ai

大模型 (LLM) 的工作原理

那么大型语言模型是如何工作的呢?让我们回顾一下使用 LLM 生成自然语言的关键步骤。

步骤 1. 通用概率机器学习

这个想法是开发一个具有参数的数学模型,该模型可以以最高的概率表示真实的预测。

在语言模型中,这些预测是自然语言数据的分布。目标是使用学习到的自然语言概率分布,根据可用的上下文知识(包括用户提示查询)生成最有可能出现的短语序列。

第 2 步:架构 transformer 和自注意力

为了学习单词和连续短语之间的复杂关系,ChatGPT 和 BERT 等现代语言模型依赖于所谓的基于Transformers的深度学习架构。Transformers 的总体思路是在进行序列预测时将文本转换为按重要性 加权的数字表示。

步骤3.预训练和微调

语言模型针对特定任务领域进行了大量的微调和设计。设计语言模型的另一个重要用例是消除对仇恨言论和歧视等不良语言结果的偏见。

该过程涉及通过以下方式调整模型参数:

  1. 利用特定领域的知识对模型进行训练。
  2. 根据预训练数据初始化模型参数。
  3. 监控模型性能。
  4. 进一步调整模型超参数。


LLM 和 SLM 之间的区别

SLM 和 LLM 在其架构设计、训练、数据生成和模型评估方面都遵循概率机器学习的类似概念。

现在,让我们讨论一下 SLM 和 LLM 技术的区别。

更多资讯,请访问 2img.ai

尺寸和模型复杂性

也许 SLM 和 LLM 之间最明显的区别就是模型大小。

  • ChatGPT(GPT-4)等 LLM 据称包含1.76 万亿个参数。
  • 开源SLM如Mistral 7B可以包含70亿个模型参数。


差异在于模型架构中的训练过程。ChatGPT 在编码器-解码器模型方案中使用自注意力机制,而 Mistral 7B 使用滑动窗口注意力,允许在仅解码器模型中进行高效训练

语境理解和领域特异性

SLM 是使用特定领域的数据进行训练的。它们可能缺乏来自所有多个知识领域的整体背景信息,但很可能在所选领域表现出色。

另一方面,LLM 的目标是在更广泛的层面上模拟人类智能。它基于更大的数据源进行训练,预计在所有领域都表现良好,而特定领域的 SLM 则表现相对较好。

这意味着 LLM 也更加通用,并且可以进行调整、改进和设计,以更好地完成编程等下游任务。

资源消耗

训练 LLM 是一个资源密集型过程,需要大规模的云端 GPU 计算资源。从头开始训练 ChatGPT 需要数千个GPU进行训练,而 Mistral 7B SLM 可以在具有不错 GPU的本地机器上运行- 训练 7B 参数模型仍然需要在多个 GPU 上进行几个小时的计算。

偏见

LLM 往往存在偏见。这是因为它们没有经过充分微调,而且它们训练的原始数据是公开可访问的,并发布在互联网上。由于训练数据的来源,训练数据可能存在偏差……

  • 低估或歪曲某些群体或思想
  • 被错误地标记。


其他地方也出现了进一步的复杂性:语言本身会引入自己的偏见,这取决于方言、地理位置和语法规则等各种因素。另一个常见问题是模型架构本身可能会无意中强化偏见,而这种偏见可能不会被注意到。

由于 SLM 在相对较小的特定领域数据集上进行训练,与 LLM 相比,偏差风险自然较低。

推理速度

SLM 的模型尺寸较小意味着用户可以在本地机器上运行模型,并且仍能在可接受的时间内生成数据。

LLM 需要多个并行处理单元来生成数据。根据访问 LLM 的并发用户数量,模型推理速度往往会变慢。

那么,LLM 是一切问题的正确选择吗?

这个问题的答案完全取决于你的语言模型的使用情况和你可用的资源。在商业环境中,LLM 可能更适合担任你的呼叫中心和客户支持团队的聊天代理。

在大多数特定于功能的用例中,SLM 可能会表现出色。

考虑医疗、法律和金融领域的用例。这里的每个应用都需要高度专业化和专有的知识。利用这些知识在内部培训 SLM 并对其进行微调以供内部使用,可以作为高度监管和专业化行业中特定领域用例的智能代理。

更多资讯,请访问 2img.ai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/749131.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java学习十一—Java8特性之Stream流

一、Java8新特性简介 2014年3月18日,JDK8发布,提供了Lambda表达式支持、内置Nashorn JavaScript引擎支持、新的时间日期API、彻底移除HotSpot永久代。 ​ Java 8引入了许多令人兴奋的新特性,其中最引人注目的是Lambda表达式和Stream API。以…

十年磨一剑,华火电燃组合灶重磅问世,引领厨房新时代

十年磨一剑,华火研发团队经过不懈努力,成功将等离子电生明火技术与电陶炉红外线光波炉技术精妙融合,打造出的这款具有划时代是意义的电燃组合灶HH-SZQP60,终于在 2024 年6月震撼登场,该灶以其卓越的创新技术和独特的产…

day01-项目介绍及初始化-登录页

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 day01-项目介绍及初始化-登录页一、人力资源项目介绍1.1项目架构和解决方案主要模块解决的问题 二、拉取项目基础代码1.引入库2.升级core-js版本到3.25.5按照完整依…

一篇文章带你玩懂数据库的基础函数

数据库的函数 单行函数1.数据函数2.字符串函数3.时间函数4.流程函数 多行函数聚合函数 阅读指南: 本文章讲述了对于数据库的单行和多行函数,如果读者感兴趣,后续我们会更新高级的操作在我们的对于数据库教程的合集中,大家可以来很…

振弦采集仪在大型工程安全监测中的应用探索

振弦采集仪在大型工程安全监测中的应用探索 振弦采集仪是一种用于监测结构振动和变形的设备,它通过采集振弦信号来分析结构的动态特性。在大型工程安全监测中,振弦采集仪具有重要的应用价值,可以帮助工程师和监测人员实时了解结构的状况&…

红队内网攻防渗透:内网渗透之内网对抗:横向移动篇Kerberos委派安全非约束系约束系RBCD资源系Spooler利用

红队内网攻防渗透 1. 内网横向移动1.1 委派安全知识点1.1.1 域委派分类1.1.2 非约束委派1.1.2.1 利用场景1.1.2.2 复现配置:1.1.2.3 利用思路1:诱使域管理员访问机器1.1.2.3.1 利用过程:主动通讯1.1.2.3.2 利用过程:钓鱼1.1.2.4 利用思路2:强制结合打印机漏洞1.1.2.5 利用…

利用Linked SQL Server提权

点击星标,即时接收最新推文 本文选自《内网安全攻防:红队之路》 扫描二维码五折购书 利用Linked SQL Server提权 Linked SQL server是一个SQL Server数据库中的对象,它可以连接到另一个SQL Server或非SQL Server数据源(如Oracle&a…

Techviz:XR协作工作流程,重塑远程电话会议新形式

在当今快速发展的数字环境中,无缝远程协作的需求正在成为企业多部门协同工作的重中之重,尤其是对于制造业、建筑和设计等行业的专业人士而言,这一需求更加迫切。传统的远程电话会议协作形式存在着延滞性,已经渐渐跟不上当今快节奏…

脑洞爆裂,OLED透明屏与红酒柜相结合

当OLED透明屏与红酒柜相结合时,我们可以设想一个极具创新性和实用性的产品,将科技美学与品酒文化完美融合。以下是我为这种结合提出的一些创新设想: 透明展示与虚拟标签 透明展示:OLED透明屏能够直接安装在红酒柜的玻璃门或侧面&a…

面试突击指南:Java基础面试题3

1.介绍下进程和线程的关系 进程:一个独立的正在执行的程序。 线程:一个进程的最基本的执行单位,执行路径。 多进程:在操作系统中,同时运行多个程序。 多进程的好处:可以充分利用CPU,提高CPU的使用率。 多线程:在同一个进程(应用程序)中同时执行多个线程。 多线程…

Redis 7.x 系列【9】数据类型之自动排重集合(Set)

有道无术,术尚可求,有术无道,止于术。 本系列Redis 版本 7.2.5 源码地址:https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 前言2. 常用命令2.1 SADD2.2 SCARD2.3 SISMEMBER2.4 SREM2.5 SSCAN2.6 SDIFF2.7 SU…

Jmeter,badboy学习

1、注意Jmeter与jdk之间的版本对应 2、Jmeter的作用: jmeter可以做接口测试和压力测试。其中接口测试的简单操作包括做http脚本(发get/post请求、加cookie、加header、加权限认证、上传文件)、做webservice脚本、参数化、断言、关联&#x…

Polyplus转染试剂的优点,你知道吗?

Polyplus专注于为生命科学研究、体内转染、生物制品制造以及细胞和基因治疗的客户,提供创新的核酸递送解决方案。其深耕转染领域,产品力强劲。在科研领域,其产品转染效果以及价格都优于lipo系列。无论是在基础科学研究中,还是在临…

Node.js下载及安装详细教程

目录 Node.js安装详细教程 下载安装环境变量配置文件结构配置npm在安装全局模块时的路径和缓存cache的路径测试常见命令 Node.js安装详细教程 👁官网下载地址:Download | Node.js (nodejs.org) 下载速度慢的话 可以使用网盘下载: https://pan.quark.…

文心一言 VS 讯飞星火 VS chatgpt (290)-- 算法导论21.3 3题

三、给出一个包含 m 个 MAKE-SET 、UNION 和 FINDSET 操作的序列(其中有 n 个是 MAKE-SET 操作),当仅使用按秩合并时,需要 Ω(mlgn) 的时间。如果要写代码,请用go语言。 文心一言: 在并查集(Union-Find)数…

RabbitMQ WEB管理端介绍

页面功能概览 Overview(概述)Connections(连接)Channels(通道)Exchanges(交换器)Queues(队列)Admin(用户管理)。 1. Overview(概述) 主要分为三部分 1.1 Queued messages(所有队列的消息情况) Ready:待消费的消息总数Unacked:待应…

今日好料(网易数据治理白皮书)

今日好料(网易数据治理白皮书) 在当前的数字经济时代,数据已经成为企业最重要的资产之一。然而,如何管理和利用这些数据,成为企业成功的关键所在。本文将探讨数据治理的概念、重要性及其实施策略,结合网易…

国标GB/T 28181详解:国标GBT28181-2022的目录通知流程

目录 一、定义 二、作用 1、实时同步设备目录状态 2、优化资源管理和调度 3、增强系统的可扩展性和灵活性 4、提高系统的可靠性和稳定性 5、支持多级级联和分布式部署 6、便于用户管理和监控 三、基本要求 1、目录通知满足以下基本要求 2、关键要素 (1…

Python调用外部系统命令详细讲解

利用Python调用外部系统命令的方法可以提高编码效率。调用外部系统命令完成后可以通过获取命令执行返回结果码、命令执行的输出结果进行进一步的处理。本文主要描述Python常见的调用外部系统命令的方法,包括os.system()、os.popen()、subprocess.Popen()等。 本文分…

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【14】缓存与分布式锁

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【14】缓存与分布式锁 缓存本地缓存分布式缓存-本地模式在分布式下的问题分布式缓存整合 redis 作为缓存JMeter测试出OutOfDirectMemoryError【堆外内存溢出】 高并发读下缓存失效问题缓存…