大型语言模型简介

大型语言模型简介

大型语言模型 (LLM) 是一种深度学习算法,可以使用非常大的数据集识别、总结、翻译、预测和生成内容。

文章目录

  • 大型语言模型简介
    • 什么是大型语言模型?
    • 为什么大型语言模型很重要?
    • 什么是大型语言模型示例?
    • 大型语言模型如何工作?
    • 大型语言模型的挑战是什么?
    • 如何开始使用大型语言模型?

什么是大型语言模型?

大型语言模型主要代表一类称为transformer网络的深度学习架构。transformer模型是一种神经网络,它通过跟踪顺序数据中的关系(例如本句中的单词)来学习上下文和含义。

transformer由多个transformer块(也称为层)组成。例如,transformer具有自注意力层、前馈层和规范化层,它们共同作用以解密输入以预测推理时的输出流。这些层可以堆叠在一起以形成更深的transformer和强大的语言模型。谷歌在 2017 年的论文“注意力就是你所需要的一切”中首次介绍了transformer。

在这里插入图片描述

有两项关键创新使得 Transformer 特别适合用于大型语言模型:位置编码和自注意力。

位置编码嵌入了输入在给定序列中出现的顺序。本质上,由于位置编码,单词可以非顺序地输入神经网络,而不是按顺序将句子中的单词输入神经网络。

自注意力在处理输入数据的每个部分时为其分配权重。此权重表示该输入在上下文中相对于其余输入的重要性。换句话说,模型不再需要对所有输入投入相同的注意力,而可以专注于输入中真正重要的部分。随着模型筛选和分析大量数据,神经网络需要关注输入的哪些部分的这种表示会随着时间的推移而学习。

这两种技术结合起来可以分析不同元素在长距离上非顺序地相互影响和关联的微妙方式和背景。

非顺序处理数据的能力使得复杂问题能够分解为多个较小的同时计算。自然,GPU 非常适合并行解决这些类型的问题,从而可以大规模处理大规模未标记数据集和庞大的transformer网络。

为什么大型语言模型很重要?

从历史上看,人工智能模型一直专注于感知和理解。

然而,大型语言模型是在具有数千亿个参数的互联网规模数据集上训练的,现在已经释放了人工智能模型生成类似人类内容的能力。

模型可以以可靠的方式阅读、编写、编码、绘制和创建,增强人类创造力并提高各行各业的生产力,以解决世界上最棘手的问题。

这些 LLM 的应用涵盖了大量用例。例如,人工智能系统可以学习蛋白质序列的语言,以提供可行的化合物,帮助科学家开发突破性的救命疫苗。

或者计算机可以帮助人类做他们最擅长的事情——发挥创造力、沟通和创造。患有写作障碍的作家可以使用大型语言模型来激发他们的创造力。

或者软件程序员可以提高工作效率,利用 LLM 根据自然语言描述生成代码。

什么是大型语言模型示例?

整个计算堆栈的进步使得开发越来越复杂的 LLM 成为可能。2020 年 6 月,OpenAI 发布了 GPT-3,这是一个拥有 1750 亿个参数的模型,可以使用简短的书面提示生成文本和代码。2021 年,NVIDIA 和 Microsoft 开发了 Megatron-Turing 自然语言生成 530B,这是世界上最大的阅读理解和自然语言推理模型之一,拥有 5300 亿个参数。

随着 LLM 规模的扩大,其能力也在不断增强。广义上讲,LLM 的文本内容用例可以按以下方式划分:

  • 生成(例如,故事写作、营销内容创建)

  • 总结(例如,法律释义、会议记录总结)

  • 翻译(例如,语言之间、文本到代码)

  • 分类(例如,毒性分类、情绪分析)

  • 聊天机器人(例如,开放域问答、虚拟助手)

世界各地的企业开始利用 LLM 来解锁新的可能性:

  • 医学研究人员在来自教科书、研究论文和患者电子健康记录的数据语料库上训练医疗保健领域的大型语言模型,以完成蛋白质结构预测等任务,这些任务可以揭示疾病的模式并预测结果。
  • 零售商可以利用 LLM 通过动态聊天机器人为客户提供一流的客户体验。
  • 开发人员可以利用 LLM 编写软件并教机器人如何执行物理任务。
  • 财务顾问可以使用 LLM 来总结收益电话会议并创建重要会议的记录。
  • 营销人员可以训练 LLM 将客户反馈和请求组织成集群或根据产品描述将产品细分为类别。

大型语言模型仍处于早期阶段,其前景广阔;具有零样本学习能力的单个模型可以通过即时理解和生成类似人类的想法来解决几乎所有可以想象到的问题。用例涵盖每个公司、每笔业务交易和每个行业,从而带来巨大的价值创造机会。

大型语言模型如何工作?

大型语言模型使用无监督学习进行训练。通过无监督学习,模型可以使用未标记的数据集在数据中找到以前未知的模式。这也消除了对大量数据标记的需求,这是构建 AI 模型的最大挑战之一。

由于 LLM 经历了广泛的训练过程,这些模型不需要针对任何特定任务进行训练,而是可以服务于多种用例。这些类型的模型被称为基础模型。

基础模型无需太多指导或训练即可为各种目的生成文本的能力称为零样本学习。这种能力的不同变体包括一次性或少量学习,其中基础模型被输入一个或几个示例,说明如何完成任务以理解和更好地执行选定的用例。

尽管大型语言模型的零样本学习具有巨大的能力,但开发人员和企业天生就希望驯服这些系统以他们期望的方式运行。为了将这些大型语言模型部署到特定用例,可以使用多种技术定制模型以实现更高的准确性。一些技术包括快速调整、微调和适配器。

在这里插入图片描述

有几类大型语言模型适用于不同类型的用例:

  • 仅编码器:这些模型通常适用于可以理解语言的任务,例如分类和情感分析。仅编码器模型的示例包括 BERT(来自 Transformers 的双向编码器表示)。
  • 仅解码器:这类模型非常擅长生成语言和内容。一些用例包括故事写作和博客生成。仅解码器架构的示例包括 GPT-3(生成式预训练 Transformer 3)。
  • 编码器-解码器:这些模型结合了 Transformer 架构的编码器和解码器组件,以理解和生成内容。这种架构的一些出色用例包括翻译和摘要。编码器-解码器架构的示例包括 T5(文本到文本 Transformer)。

大型语言模型的挑战是什么?

开发和维护大型语言模型所需的大量资本投资、大型数据集、技术专业知识和大规模计算基础设施一直是大多数企业的进入壁垒。

在这里插入图片描述

  1. 计算、成本和时间密集型工作负载:维护和开发 LLM 需要大量资本投资、技术专长和大规模计算基础设施。训练 LLM 需要数千个 GPU 和数周至数月的专门训练时间。一些估计表明,对具有 1750 亿个参数、在 3000 亿个 token 上进行训练的 GPT-3 模型进行一次训练,仅在计算方面就可能花费超过 1200 万美元。
  2. 所需数据规模:如上所述,训练大型模型需要大量数据。许多公司难以获得足够大的数据集来训练他们的大型语言模型。对于需要私有数据(例如财务或健康数据)的用例,这个问题更加严重。事实上,训练模型所需的数据可能根本不存在。
  3. 技术专长:由于规模庞大,训练和部署大型语言模型非常困难,需要对深度学习工作流程、Transformer 和分布式软件和硬件有深入的了解,以及同时管理数千个 GPU 的能力。

如何开始使用大型语言模型?

NVIDIA 提供各种工具来简化大型语言模型的构建和部署:

  • NVIDIA NeMo 服务是 NVIDIA AI Foundations 的一部分,是一种用于企业超个性化和大规模部署智能大型语言模型的云服务。
  • NVIDIA BioNeMo 服务是 NVIDIA AI Foundations 的一部分,是一种用于药物发现生成 AI 的云服务,可让研究人员大规模定制和部署特定领域的、最先进的生成和预测生物分子 AI 模型。
  • NVIDIA Picasso 服务是 NVIDIA AI Foundations 的一部分,是一种用于构建和部署生成 AI 驱动的图像、视频和 3D 应用程序的云服务。
  • NVIDIA NeMo 框架是 NVIDIA AI 平台的一部分,是一个端到端、云原生的企业框架,用于构建、定制和部署具有数十亿个参数的生成 AI 模型。

尽管面临挑战,但大型语言模型的前景是巨大的。 NVIDIA 及其生态系统致力于让消费者、开发者和企业能够享受大型语言模型带来的好处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/688301.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[NOVATEK] NT96580行车记录仪功能学习笔记

一、u-Boot升级灯 运行u-Boot程序时LED灯闪烁,找到运行过程中一直在运行的函数在里面进行LED引脚电平的翻转 宏定义 Z:\SunFan\AHD580\pip\na51055_PIP\BSP\u-boot\include\configs\nvt-na51055-evb.h Z:\SunFan\AHD580\pip\na51055_PIP\BSP\u-boot\drivers\mtd\nvt_flash_…

华为鸿蒙开发-鸿蒙基于ARKTS开发之启动模式

前言 鸿蒙生态取得爆发式增长! 截至3月底,已有超4000个应用加入鸿蒙生态。 而在今年1月中旬,华为刚宣布HarmonyOS NEXT鸿蒙星河版面向开发者开放申请,这一版本鸿蒙系统也被称为“纯血鸿蒙”。 当时,华为宣布首批200…

构建自动化API数据抓取系统

构建一个自动化API数据抓取系统是一个涉及多个技术领域的复杂任务。这样的系统不仅要求高效的数据获取能力,还需要有稳定的数据处理、存储和错误处理机制。 1. 需求分析 在开始构建之前,明确你的需求至关重要。你需要确定要抓取的API、数据的频率、数据的…

自然语言处理:第三十三章FILCO:过滤内容的RAG

文章链接: [2311.08377] Learning to Filter Context for Retrieval-Augmented Generation (arxiv.org) 项目地址: zorazrw/filco: [Preprint] Learning to Filter Context for Retrieval-Augmented Generaton (github.com) 在人工智能领域,尤其是在开放域问答和事…

240508Scala笔记

240508Scala笔记 Scala概述: SCala是Java的拓展,在Java的基础上又拓展了一些语法,例如: 输出Hello World println("HelloWorld")System.out.println("Hello Scala from Java") 上面两段代码都可以输出内容. package chapter01 ​ /*object: 关键字,声明…

4_XMR交易过程

XMR交易过程 参考文档 书: 《精通门罗币 : 私密交易的未来》(Mastering Monero) 书中的代码示例: 《精通门罗币 : 私密交易的未来》深入探究门罗币与密码学门罗币的环签名分析官方介绍视频 1.隐匿地址 Stealth Address_Monero官方介绍视频2.环签名 Ring Signature_Monero官方…

Cortex-M7——NVIC

Cortex-M7——NVIC 小狼http://blog.csdn.net/xiaolangyangyang 一、NVIC架构 二、中断及异常编号 三、中断屏蔽寄存器(__disable_irq和__enable_irq操作的是PRIMASK寄存器) 四、中断分组寄存器(SCB->AIRCR[10:8]) 五、NVIC寄…

【转】ES, 广告索引

思考: 1)直接把别名切换到上一个版本索引 --解决问题 2)广告层级索引如何解决? -routing、join 3)查询的过程:query and fetch, 优化掉fetch 4)segment合并策略 5)全量写入时副…

阿里云对象存储OSS简单使用

文章目录 概念基本概念Bucket 准备工作控制台操作对象存储OSSJava客户端操作对象存储OSS参考来源 概念 基本概念 阿里云对象存储 OSS是一款海量、安全、低成本、高可靠的云存储服务,提供最高可达 99.995 % 的服务可用性。而且提供了多种存储类型,降低我…

如何安装 CleanMyMac X 4.15.3破解版

CleanMyMac X 4.15.3破解版是一款专业的Mac系统清理软件,可一键智能扫描清理mac系统日志缓存磁盘垃圾和多余语言安装包,快速释放电脑内存,轻松管理和升级Mac上的应用。同时CleanMyMac X 破解版可以强力卸载恶意软件,修复系统漏洞&…

ChatGPT-4o在临床医学日常工作、数据分析与可视化、机器学习建模中的技术

2022年11月30日,可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT-3.5,将人工智能的发展推向了一个新的高度。2023年11月7日,OpenAI首届开发者大会被称为“科技界的春晚”,吸引了全球广大…

Vue3_上传文件_下载文件

目录 一、上传文件 二、下载文件 vue3对接后端进行文件上传和下载。 一、上传文件 点击上传资料按钮,选择文件,进行上传。 创建一个proFile.vue,文件,这个文件可以作为一个子组件在其他页面引用。 组件用的element-Plus的ElM…

【Unity游戏制作】地精寻宝Gnome‘s Well That Ends Well卷轴动作游戏【一】场景搭建

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 专栏交流🧧&…

2024北京消防展6.26召开-看消防安全企业如何升级赋能

2024北京消防展6.26召开-看消防安全企业如何升级赋能 随着社会的快速发展,消防安全已经成为企业安全生产的重要一环。作为消防领域的品质盛会,2024中国(北京)消防技术与设备展览会将于6月26-28 日在北京.首钢会展中心召开&#xf…

【代码随想录】【算法训练营】【第31天】 [455]分发饼干 [376]摆动序列 [53]最大子序和

前言 思路及算法思维,指路 代码随想录。 题目来自 LeetCode。 day 31,放假前的周五,总是令人激动的~ 题目详情 [455] 分发饼干 题目描述 455 分发饼干 解题思路 前提: 思路:贪心算法,小饼干优先满…

揭秘!如何从精益生产转向智能制造

企业在“工业4.0、智能制造、互联网”等概念满天飞的环境下迷失了方向,不知该如何下手,盲目跟风。 君不见,很多企业在“工业4.0、智能制造、互联网”等概念满天飞的环境下迷失了方向,不知该如何下手,盲目跟风&#xf…

【TB作品】MSP430F5529 单片机,温度控制系统,DS18B20,使用MSP430实现的智能温度控制系统

作品功能 这个智能温度控制系统基于MSP430单片机设计,能够实时监测环境温度并根据预设的温度报警值自动调节风扇和加热片的工作状态。主要功能包括: 实时显示当前温度。通过OLED屏幕显示温度报警值。通过按键设置温度报警值。实际温度超过报警值时&…

Linux网络编程——概念及实现双方聊天

网络编程的场景: 假设你面前有五座房子(服务器),你要走到其中一座房子的某一间,此时你站在五座房子面前很迷茫,突然,第二座房子上面有人在叫,并且用汉语(TCP/UDP&#xf…

seerfar丨OZON运营工具,OZON选品插件

随着全球电商市场的蓬勃发展,OZON作为俄罗斯及东欧地区的重要电商平台,吸引了众多中国商家的目光。然而,如何在OZON平台上脱颖而出,实现高效的商品运营,成为了众多商家亟待解决的问题。在这样的背景下,seer…

tailwindcss的@apply使用

tailwindcss的apply是把在html写的tailwindcss可以挪到style里面 简化页面的可读性 没写之前的 <section class"block-risk absolute flex flex-col items-center p-4 text-center left-0 text-white;" :style"{ top, left: 60px }"> </section…