翻译|解开LLMs的神秘面纱:他们怎么能做没有受过训练的事情?

大语言模型(LLMs)通过将深度学习技术与强大的计算资源结合起来,正在彻底改变我们与软件互动的方式。
在这里插入图片描述
虽然这项技术令人兴奋,但许多人也担忧LLMs可能生成虚假的、过时的或有问题的信息,他们有时甚至会产生令人信服的幻觉(产生不存在的信息)。值得庆幸的是,我们可以立即澄清一个谣言。根据GitHub Copilot的机器学习(ML)高级研究员Alireza Goudarzi的说法:“LLMs并未接受推理训练。它们并不试图理解科学、文学、代码或其他任何事物。它们只是被训练来预测文本中的下一个标记。
让我们深入了解LLMs如何做出意想不到的事情,以及为什么会这样。本博客文章将全面介绍LLMs,包括它们的训练方法和伦理考虑。我们的目标是帮助你更好地了解LLM的能力,以及他们为什么他们能在没有训练的情况下掌握语言。

什么是大语言模型

LLMs是在大量文本数据上进行训练的人工智能系统,使它们能够生成类似人类的行为,并以传统机器学习模型无法做到的方式理解自然语言。
“这些模型使用深度学习领域的先进的tricks,涉及多层深度神经网络的训练,用于学习复杂的模式和关系。”GitHub Copilot团队的机器学习高级研究员John Berryman解释道。
LLMs的独特之处在于它们擅长概括和理解上下文。他们不受预定的规则或模式的限制,而是通过大量数据学习,形成对语言的独立理解。这使它们能够对各种提示和查询生成连贯而上下文适当的响应。
尽管LLMs因此可以成为非常强大且灵活的工具,但用于训练它们的机器学习方法以及它们的训练数据的质量或限制,有时也可能导致生成不准确、不实用和不可靠信息的偶发性失误。

Deep Learning

现代机器学习实践的出现,如深度学习,已经成为释放LLMs潜力的重要变革者。与依赖预定义规则和模式的最早语言模型不同,深度学习使这些模型能够以更类似人类的方式生成自然语言输出。
“深度学习和神经网络的整个学科基础是‘我们可以将规则简化到多么简单,以尽可能接近人脑的行为?’”Goudarzi说道。
通过使用具有多层的神经网络,深度学习使LLMs能够分析和学习语言数据中的复杂模式和关系。这意味着这些模型可以生成连贯而上下文适当的响应,即使面对复杂的句子结构、成语表达和语言中微妙的细微差别。
虽然初始的预训练赋予了LLMs广泛的语言理解能力,但精调是它们变得多才多艺和适应性强的地方。“当开发者希望这些模型执行特定任务时,他们提供任务描述和示例(few-shot learning)或仅提供任务描述(zero-shot learning)。然后,模型根据这些信息对其预训练的权重进行精细调整,”Goudarzi说。这个过程帮助模型适应特定任务,同时保留它在广泛预训练中获得的知识。
但即使深度学习的多层和注意机制使LLMs能够生成类似人类的文本,它也可能导致过度概括,即模型生成的响应可能在上下文中不准确或过时。

为什么LLM不是总是正确的

有几个因素可以解释为什么基于LLMs构建的工具有时可能不准确,即使听起来相当令人信服。

1、有限的知识和过时的信息

LLMs通常缺乏对外部世界或实时背景的理解。它们仅依赖于它们接受训练的文本,而且它们没有对世界当前状态的固有意识。GitHub Next研究与开发团队的首席研究员Albert Ziegler表示:“通常整个训练过程需要很长时间,对于任何给定的LLM,训练数据过时两年是很常见的情况。”

这一限制意味着它们可能基于过时的假设生成不准确的信息,因为它们无法实时验证事实或事件。如果它们在接受训练后的某个领域或主题发生了发展或变化,LLMs可能不会意识到这些变化,可能提供过时的信息。这就是为什么仍然重要的原因,即使看起来基于事实,也要对从LLM收到的任何响应进行事实核查。

2、缺乏上下文信息

LLMs有时提供不正确信息的主要原因之一是缺乏上下文。这些模型在很大程度上依赖于输入文本中提供的信息,如果输入模糊或缺乏细节,模型可能会做出导致不准确响应的假设。

3、训练数据偏差和局限性

LLMs在预训练期间接触到大量未标记的文本数据集,这些数据集是多样化的,代表了模型应该理解的语言。常见的数据来源包括书籍、文章、网站,甚至是社交媒体帖子!
由于这个原因,它们可能会无意中产生反映这些偏见或在训练数据中存在的不正确信息的响应。在涉及敏感或有争议的主题时,这尤其令人担忧。
Ziegler表示:“它们的偏见往往更严重。这适用于机器学习总体,而不仅仅是LLMs。机器学习的做法是识别模式,而诸如刻板印象之类的东西可能变成极为方便的简便表达。它们可能是真实存在的模式,或者在LLMs的情况下,是基于人类偏见的模式,这些偏见可能是明确讨论或隐含使用的。”
如果模型在包含有偏见或歧视性语言的数据集上进行训练,它可能生成具有偏见或歧视性的响应。这可能产生实际影响,例如强化有害的刻板印象或歧视性实践。

4、过度自信

LLMs没有评估它们生成信息准确性的能力。由于它们的深度学习,它们通常以高度自信的方式提供响应,优先生成看起来合理且流畅的文本,即使信息是不正确的时候也是如此!

5、幻觉

LLMs有时会因为它们生成文本的方式(通过模式和关联)而产生“幻觉”。有时,在面对不完整或模糊的查询时,它们试图通过借助这些模式来完成它们,有时生成的信息可能不准确或不符合事实。最终,这些幻觉并不得到证据或真实世界数据的支持。

例如,假设你询问ChatGPT关于20世纪的一个历史问题。相反,它可能描述两位从未真正见过面的著名历史人物之间的会面!

在GitHub Copilot的背景下,Ziegler解释说,“我们遇到的典型幻觉是当GitHub Copilot开始谈论甚至不存在的代码时。我们的缓解措施是确保它为它谈论的每一段代码提供足够的上下文,以便我们可以检查并验证它实际上是否存在。”

但GitHub Copilot团队已经在思考如何在编码的“自上而下”方法中利用幻觉。想象一下,你正在解决一个积压问题,而你希望GitHub Copilot给出建议。正如GitHub Next的首席研究员Johan Rosenkilde所解释的那样,“理想情况下,你希望它提出对你复杂问题的一个子划分,委托给 nicely delineated 的助手函数,并为这些助手给出良好的名称。在建议调用(尚不存在的)助手的代码后,你希望它还能提出它们的实现!”

这种对幻觉的处理方式就像获得解决编码挑战的蓝图和构建块一样。

LLMs的使用道德和责任倡导

使用LLMs时要注意伴随而来的伦理考虑是很重要的。话虽如此,尽管LLMs有生成虚假信息的潜力,但它们并不是有意伪造或欺骗。相反,这些问题源于模型试图基于其训练数据学到的模式和信息生成一致和与上下文相关的文本。

GitHub Copilot团队已经开发了一些工具来帮助检测有害内容。Goudarzi说:“首先,我们有一个重复检测过滤器,它帮助我们检测生成的代码与我们可以访问的所有开源代码之间的匹配,从而过滤掉这样的建议。我们使用的另一个工具是名为“负责任人工智能”(RAI)的分类器,它可以过滤掉滥用词汇。最后,我们还单独过滤掉已知的不安全模式。”

了解LLMs背后的深度学习过程可以帮助用户理解它们的局限性以及它们的积极影响。为了有效地应对这些问题,关键是要从可靠的来源验证信息,提供清晰而具体的输入,并在解释LLMs生成的响应时运用批判性思维。

正如Berryman提醒我们的那样,“引擎本身是无道德的。用户可以随心所欲地使用它们,这可以涵盖从道德到不道德的整个范围。但通过意识到这些问题并积极致力于道德实践,我们可以确保LLMs被以一种负责任和有益的方式使用。”

开发人员、研究人员和科学家不断努力提高这些模型的准确性和可靠性,使它们成为未来越来越有价值的工具。我们所有人都可以倡导对LLMs的负责任和道德使用。这包括在这些模型的开发和部署中促进透明性和问责制,以及在我们互联网角落中采取措施减轻偏见和刻板印象。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/792021.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

顶顶通呼叫中心中间件-打电话没声音检查步骤(mod_cti基于FreeSWITCH)

顶顶通呼叫中心中间件-电话没声音检查步骤(mod_cti基于FreeSWITH) 检查步骤 1、检查配置文件 检查配置文件:打开ccadmin -> 配置文件 -> vars -> external_ip$${local_ip_v4}看一下这个有没有配置正确的外网IP,如果没有配置正确就需要配置正…

方格验证码输入框实现方式

引言 在实际开发过程中验证码输入框是一个很常见UI界面。通常来讲有简单的输入框,也有方格的输入框,其中相对较为棘手就是这种方格输入框里面还需要显示光标的情况。本篇博客我们就来主要讨论一下方格带光标的验证码输入框样式。 实现方案 在着手实现…

顺序结构 ( 六 ) —— 顺序结构实例 【互三互三】

🚀欢迎互三👉:程序猿方梓燚 💎💎🚀所属专栏:C教程💎 🚀关注博主,后期持续更新系列文章 🚀如果有错误感谢请大家批评指出,及时修改 &am…

什么是RLHF(基于人类反馈的强化学习)?

什么是RLHF(基于人类反馈的强化学习)? 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)是一种结合强化学习和人类反馈的技术,用于训练智能体,使其行为更符合人类期…

农牧行业CRM洞察:打造营、销、服一体化数字营销平台

01、行业应用背景 保持企业活力,支撑业务单元协调发展,稳定核心产品竞争力,将成为农牧行业企业数字化、数智化建设的指导方向。 积极发挥数据在生产、流通、消费各个环节的决策支撑,为农牧企业特别是多业态集团型企业&#xff0…

1.浅谈蓝牙BLE的总体框架

这里只展开BLE这一部分, 框图如下所示 蓝牙也是使用分层的结构组织代码。 Application:是自己的业务逻辑实现的地方。当然应用程序需要根据BLE的规定,实现配置文件(profile)、服务(service)和…

【话题】开源项目:从边缘到主流的转变之旅

目录 开源项目有哪些机遇与挑战? 前言 宏观视角:开源项目的发展趋势 开源运动,作为一股不可忽视的创新力量,正在重塑全球科技版图。其核心价值在于打破知识的壁垒,推动技术的民主化,让信息与技术不再为少…

C++ :内联函数inline|nullptr

欢迎来到HarperLee的学习笔记! 博主主页传送门:HarperLee博客主页! 欢迎交流学习! 一、inline关键字 1.1 什么是内联函数? 内联函数:用** inline 修饰的函数叫做内联函数,编译时C编译器会在调用…

PostgreSQL行级安全策略探究

前言 最近和朋友讨论oracle行级安全策略(VPD)时,查看了下官方文档,看起来VPD的原理是针对应用了Oracle行级安全策略的表、视图或同义词发出的 SQL 语句动态添加where子句。通俗理解就是将行级安全策略动态添加为where 条件。那么PG中的行级安全策略是怎…

R包:‘ggcharts好看线图包‘

介绍 ggcharts提供了一个高级{ggplot2}接口,用于创建通用图表。它的目标既简单又雄心勃勃:让您更快地从数据可视化的想法到实际的绘图。所以如何?通过处理大量的数据预处理,为您模糊{ggplot2}细节和绘图样式。生成的图是ggplot对象,可以使用…

CTF php RCE(三)

0x07 日志文件包含 判断类型 使用kali curl -I urlF12 打开F12开发者工具,选中之后F5刷新查看server类型即可 配置文件 直接包含或者访问如果有回显就是, NGINX:NGINX 的配置文件通常位于 /etc/nginx/ 目录下,具体的网站配…

【深度学习入门篇 ④ 】Pytorch实现手写数字识别

【🍊易编橙:一个帮助编程小伙伴少走弯路的终身成长社群🍊】 大家好,我是小森( ﹡ˆoˆ﹡ ) ! 易编橙终身成长社群创始团队嘉宾,橙似锦计划领衔成员、阿里云专家博主、腾讯云内容共创官…

LLMs可以进行任务规划吗?如果不行,LLMs+GNN可以吗?

深度图学习与大模型LLM(小编): 大家好,今天向大家介绍一篇最新发布的研究论文(20240530)。这篇论文探讨了如何通过引入GNN来提高大模型在任务规划(task planning)中的性能。*论文分析了LLMs在任务规划上的局限性,并提出了一种简单而有效的解决方案。* 1.…

VIM模式之间的切换

命令行界面下,常用的文本编辑器是 VI / VIM(VI增强版),VI 是 Linux 最通用的文本编辑器,VIM相较于VI,提供了代码高亮等功能,两者用法完全兼容; 1. 进入 VIM 工作界面 vim 文件名 2. 进入编辑模式 三种方…

深入分析与解决4.3问题:iOS应用版本更新审核被拒原因解析

深入分析与解决4.3问题:iOS应用版本更新审核被拒原因解析 在iOS应用开发和发布过程中,遇到4.3问题(设计 - 垃圾邮件)是一个常见且令人头疼的情况。即使您的应用已成功发布其第一个版本,但在进行版本更新时&#xff0c…

【React Hooks原理 - useState】

概述 useState赋予了Function Component状态管理的能力,可以让你在不编写 class 的情况下使用 state 。其本质上就是一类特殊的函数,它们约定以 use 开头。本文从源码出发,一步一步看看useState是如何实现以及工作的。 基础使用 function …

数据结构day6链式队列

主程序 #include "fun.h" int main(int argc, const char *argv[]) { que_p Qcreate(); enqueue(Q,10); enqueue(Q,20); enqueue(Q,30); enqueue(Q,40); enqueue(Q,50); show_que(Q); dequeue(Q); show_que(Q); printf(&qu…

小程序复制功能不可用 setClipboardData:fail no permission

先上图 用户协议剪切板也更新但是依旧报错了 最后在公众平台通知里发现是用户之前小程序有规格被封禁了该功能

【常见开源库的二次开发】基于openssl的加密与解密——openssl认识与配置(一)

目录: 目录: 一、什么是openssl? 二、所需要具备的开发工具 三、Windows上编译OpenSSL3.0 四、Linux编译openssl3.0 一、什么是openssl? OpenSSL 是一个开源的软件库,它提供了一系列加密工具和协议,主要用…

apple watch程序出错 Cannot launch apps while in nightstand mode

开发的时候运行apple watch程序出错: ailure Reason: The request was denied by service delegate (IOSSHLMainWorkspace) for reason: Busy ("Cannot launch apps while in nightstand mode"). 这是因为: 将Apple Watch放在充电器上并直立…