写在前面
- 博文内容涉及通过通俗的易懂的方式理解认知大语言模型定义,关键技术术语,以及历史演进简述
- 理解不足小伙伴帮忙指正 😃,生活加油
我看远山,远山悲悯
大语言模型定义
LLM(Large Language Models)
是基于 Transformer
架构(可以理解为不同寻常的大脑)的深度神经网络,通过海量文本数据训练
获得语言理解
和生成能力
。其核心特征包括:
参数规模达数十亿级别(GPT-3 175B参数)
知识储备惊人,可以理解为脑细胞数量是普通人的千亿倍(1750亿参数),相当于把整个图书馆的书都装进大脑
自回归生成机制(逐词预测)
说话方式像接龙,当它写作文时,就像我们玩词语接龙:先写"今天",然后根据"今天"想"天气",接着根据"今天天气"想"晴朗",逐字逐句生成内容。
注意力机制实现长程依赖建模
特别会抓重点就像我们读小说时,会自动记住关键人物关系(比如注意到"陈平安喜欢宁姚"),它能自动捕捉文字间的深层联系。
涌现能力(Emergent Abilities)
无师自通的学霸,腹有诗书气自华,典型案例:GPT-3在未专门训练情况下通过上下文学习掌握翻译、数学运算等能力,展示出突破性的零样本学习能力。
关键技术术语
Transformer架构
1. 核心创新:自注意力机制突破序列建模瓶颈
- 传统 RNN 的缺陷:
类似快递站分拣员逐个处理包裹(单词),RNN 必须按顺序处理序列。当处理长序列时(如第 50 个词),早期信息易丢失(如忘记“我”还是“他”),导致长距离依赖失效。 - Transformer 的革新:
通过自注意力机制(Self-Attention),所有包裹(单词)同时被“透视扫描”,每个词直接关联全局信息(如“苹果”关联到“水果店”“红富士”),彻底解决长序列依赖问题。
2. 关键架构特点
(1)并行化计算架构
- 传统 RNN:需按顺序处理(如包裹1→2→3),效率低下。
- Transformer:所有词通过矩阵运算并行处理(如同时拆包扫描),计算速度提升百倍。
(2)编码器-解码器协作
- 编码器(理解部):分析输入序列的全局语义(如将“我想吃苹果”解析为人物、动作、对象)。
- 解码器(生成部):基于编码器信息生成输出(如翻译为英文),GPT 系列仅用解码器实现文本生成。
(3)位置编码与多头注意力
- 位置编码:为词嵌入添加位置信息(如“苹果”是第3个词),弥补并行计算丢失的顺序性。
- 多头注意力:多个“专家”并行分析不同语义维度(语法、情感、事实),综合结果增强模型理解能力。
3. 典型应用场景
- 生成式模型:GPT 系列(仅解码器)用于文本创作、对话。
- 理解式模型:BERT(仅编码器)用于文本分类、问答。
- 跨模态任务:图像生成(如 DALL·E)、视频生成(如 Sora)、代码生成(如 GitHub Copilot)。
技术价值总结
Transformer 通过自注意力全局建模和并行计算架构,解决了 RNN 的长序列依赖与低效问题,成为大模型时代的核心技术。其模块化设计(编码器/解码器可拆分)和灵活扩展性(如多头注意力),使其在 NLP、CV 等领域实现突破性应用。
语言建模(Language Modeling)
核心目标
语言建模的核心是通过学习自然语言的统计规律,建立词序列(token)
的概率分布模型,实现基于上下文预测序列中下一个词的能力
。
主要方法
-
自回归语言模型(如GPT,DeepSeek)
- 特点:以单向上下文建模为基础,通过序列生成方式逐词预测(即当前预测依赖已生成的全部历史信息)
- 典型应用:文本生成(如对话系统、故事创作)、开放式任务(无需特定任务标注数据)
-
掩码语言模型(如BERT)
- 特点:基于双向上下文建模,通过随机掩码部分词汇并预测被遮蔽内容,捕捉全局语义关系
- 典型应用:语义理解任务(如文本分类、问答系统)、需要深层语义推理的场景
技术演进
- 传统方法:基于
N-gram
统计模型,依赖局部词频统计,但无法捕捉长距离依赖 - 深度学习方法:
- 循环神经网络(RNN/LSTM)解决序列建模的时序依赖问题
- Transformer架构突破性引入自注意力机制,实现并行化计算与全局上下文建模
- 预训练范式:通过大规模无监督预训练(如GPT-3、BERT)学习通用语言表示,再通过微调适配下游任务
预训练范式是当前人工智能领域(尤其是自然语言处理)的核心技术之一。它的核心思想是通过两个阶段的学习,让模型从“通用语言理解”逐步过渡到“特定任务适配”。
分词(Tokenization)
将文本分割成一个个小的单元,即 token
。比如,“I love apples”
这句话可能被分成 【“I”“love”“apples”】
这三个 token
,我是中国人
被分解成 【我,是,中国人】三个 token
以便模型进行处理。
子词分词(Byte-Pair Encoding等)
,遇到"乐高飞船"时,拆成"底座+翅膀+驾驶舱"标准组件, 为什么要分词:
- 影响模型词汇表大小:控制词汇表大小,就像用1000个基础乐高块,能拼出10万种造型
- 处理未登录词能力:应对意外情况,遇到陌生词"抗核抗体":拆成"抗"+“核”+“抗体”(医学常见组件)
- 跨语言统一表示: 跨语言通用,
中文"人工智能" → ["人工","智能"]
,英文"Artificial Intelligence" → ["Artificial","Intelligence"]
嵌入(Embeddings)
嵌入是指将离散 token
映射为连续向量,高维,捕获语义和语法关系
,通过模型训练学习分布,通俗的话讲,就是把 token
转化为 Transformer
可以理解的数据
通俗解释:
嵌入就像给每个乐高零件贴上"属性条形码" 当AI拿到"color"这个乐高块时,不是直接使用塑料块本身,而是扫描它身上的隐形条形码:
- 红色 → 0.87
- 动词属性 → 0.92
- 与"paint"相似度 → 0.85
- 与"dark"关联度 → 0.63
- …(总共12,000种属性)
就像每个乐高块的固有指纹或者属性的,颜色代码(决定能拼什么风格的建筑),形状指纹(决定能连接哪些零件),材质DNA(决定适合做飞船还是城堡),比如我需要做一个红色的房子,那么我就会考虑选择所有 红色的乐高零件
嵌入的特点:高维度
(如GPT-3使用12,000维),捕获语义/语法关系(相似词向量距离近
),通过模型自动学习语义空间分布
通俗解释:
高维度=超能力观察镜
人类看乐高:只能分辨颜色/形状/大小,AI的12,000维"观察镜"能看到:适合做机甲关节的弧度(维度127),与中世纪套装的兼容性(维度582),儿童抓握舒适度评分(维度7048)
自动学习零件属性
初期:AI以为"红色块"只适合做消防车,看多了图纸后发现,红色也能做苹果(维度202→水果关联+0.7),还能做超级英雄披风(维度916→动态感+0.8),类似人类发现回形针除了夹文件,还能当手机支架
捕获语义
当AI看到"硅谷创业公司融资千万美元"时:
- “硅谷” → 科技=0.95,美国=0.88,创新=0.93…
- “融资” → 金钱=0.97,风险=0.85,增长=0.91…
- 自动联想到:
- 相似案例:维度2048与"字节跳动早期融资"匹配度89%
- 潜在风险:维度6975与"估值泡沫"关联度76%
- 就像乐高大师看到几个零件,立刻知道能拼出直升机还是潜水艇
这相当于给每个词语装上GPS定位器,让AI在12,000维的语义宇宙中,精确找到它们所在的星座位置!
训练与微调
预训练
就像九年义务教育+3年中学
,什么都学,掌握文理科基础知识,有认知世界的能力,微调
就像读高中,分文理,读大学分专业
,最终变成某个领域的打工人(落地应用)
预训练:
- 海量通用文本(如CommonCrawl)
- 目标:基础语言理解能力
用做饭来比喻:预训练 就像是 大厨的基本功训练,让厨师学徒先吃遍全国各种菜系(通用文本)
,掌握切菜、火候、调味的基础规律(语言规律)
。这时候他不懂做具体菜品,但能凭经验判断"西红柿炒蛋应该先放蛋"这类常识(基础理解能力)。
微调:
- 领域特定数据(如医学/金融文本)
- 任务特定训练(如翻译/摘要)
微调,开餐厅前的专项培训,比如要开川菜馆:先给学徒看10本川菜菜谱(领域数据)
,记住豆瓣酱和花椒的使用场景(领域知识)
,再手把手教他做宫保鸡丁(任务训练)
,直到他能稳定复刻这个菜(任务适配)
,最终他既保留通用厨艺,又成为川菜专家(领域专家模型)
预测生成
预测生成(Autoregressive Generation)是指大型语言模型(LLM)基于已输入的上下文逐词生成后续内容的过程
。
预测过程:
- 输入序列编码
- 自回归生成(逐token预测)
- 采样策略(贪婪搜索/核采样等)
- 限制条件:受上下文窗口约束
还是使用用做菜流程比喻预测生成,连限制条件都容易记:预测生成,大厨现炒客制化菜品
- 看订单(输入编码):客人说"微辣的水煮牛肉加莴笋",大厨先拆解需求(把文本转成向量)
- 颠勺式推进(自回归生成):
- 先热油→爆香辣椒→下牛肉→… 每个步骤都基于前序动作决定下一步(逐token预测)
- 类似菜谱接龙:每次只写下一句,但必须和前文连贯
- 调味自由度(采样策略):
- 严格派:必须按经典菜谱放3克盐(
贪婪搜索,选最高概率token
) - 创意派:允许随机从"2-4克盐+半勺糖"里选(
核采样,增加多样性
)
- 严格派:必须按经典菜谱放3克盐(
限制: 厨房工作台太小(上下文窗口)
- 比喻:灶台只能同时摆5种食材,如果客人突然加需求"顺便做个鱼香肉丝",大厨可能忘记最初要微辣(
长文本生成时可能丢失前文信息
) - 实际表现:生成到3000字时,模型可能
复读调料比例(重复生成)
或突然开始炒西兰花(逻辑漂移)
就像厨师不会无限度记住两小时前的订单细节,模型也无法突破上下文窗口的记忆极限
上下文窗口(Context Window)
定义:模型单次处理的最大token数,直接影响其对长文本的连贯理解和多轮对话的记忆能力
- 典型值:
- GPT-4:32K tokens(约50页)
- Claude 3:200K tokens
- DeepSeek-V3: 128K tokens
- 优化技术:
- FlashAttention
- 稀疏注意力
- 位置编码改进(如ALiBi)
大模型的“上下文窗口”就像一个人同时能记住的对话内容范围。举个例子,假设你在读一本小说,可以理解为AI的“短期记忆容量”。比如GPT-4能记住约32页书的内容(32K token),而DeepSeek-V3能记住128页(128K token),Claude 3更是能记住整本中篇小说(200K token)。这直接影响AI能否连贯分析长文章,或者在聊天时不忘记你10分钟前提过的事情。
技术优化类比:
- FlashAttention:像快速翻书时用荧光笔标重点,只关注关键部分,既快又省脑力(减少计算量)。
- 稀疏注意力:类似读书时跳着看目录和章节标题,忽略无关段落(只处理部分内容)。
- 位置编码改进:相当于给书本每页编号+贴彩色标签,防止记混页数顺序(解决长文本位置错乱问题)。比如DeepSeek用“分段页码法”,前一半页码正常标,后一半自动扩展,还能无限续写。
扩展法则(Scaling Laws)
扩展法则三要素:
- 参数量(N)
- 训练数据量(D)
- 计算量(FLOPs)
扩展法则的三要素可以想象成做菜:
- 参数量(N):相当于厨师的厨艺水平。就像经验丰富的厨师能处理更多复杂菜品,模型参数越多,"经验"越丰富,能处理更复杂的任务。
- 训练数据量(D):相当于食材的数量。要做一锅够百人吃的佛跳墙,食材必须足够多,否则再好的厨师也会"巧妇难为无米之炊"。
- 计算量(FLOPs):相当于厨具的性能。用柴火灶做菜可能需要10小时,但用高压锅1小时就能完成,计算量就是这口"锅"的做饭效率。
Chinchilla法则(N×20≈D 可以理解为厨师和食材的黄金配比。假设你请了70位厨师(70B参数),按照法则需要准备1.4吨食材(1.4T tokens),也就是每位厨师分配20公斤食材。这背后的逻辑是:
- 如果只给10公斤食材(数据不足),厨师们会互相抢食材,导致浪费才华(模型欠拟合)
- 如果给100公斤食材(数据过多),厨师们累死也处理不完(训练效率低下)
这个法则颠覆了以往"厨师越多越好"的认知。比如过去大家觉得1750亿参数的GPT-3(相当于175位厨师),用3000亿token(相当于1.7吨食材)已经很多,但Chinchilla指出应该配3.5万亿token(35吨食材),相当于每位厨师分到200公斤——这说明之前的训练其实让厨师们"饿着肚子工作"。
涌现能力(Emergent Abilities)
用苏轼的一句诗最能表达 腹有诗书气自华。
涌现能力很容易理解,不多讲
涌现能力表现:
- 算术运算
- 复杂推理(如思维链)
- 跨任务泛化
重点需要关注一下 评估基准
评估基准:
- BIG-Bench(200+任务)
- MMLU(57学科测试)
- TruthfulQA(真实性评估)
如何评估这些能力? 科学家用各种“考题”测试模型,类似人类考试:
- BIG-Bench(200+任务) :像是综合题库,包含数学、语言游戏(比如从乱序字母猜单词)、冷知识(比如波斯语问答)。大模型在这些任务中突然“开窍”,小模型却像学渣一样蒙圈。
- MMLU(57学科测试) : 考法律、历史、数学等学科知识。大模型像突然变成“百科全书”,而小模型连基础题都答不对。
- TruthfulQA(真实性测试) 比如问“地球是平的吗?”大模型能避开陷阱,诚实回答“地球是球体”,而小模型可能被错误问题带偏。
为什么会有争议?
有人质疑:“涌现能力可能只是统计假象!”比如斯坦福研究发现,某些评估指标(如非线性的打分方式)会让能力看起来是“突然出现”,实际上模型进步是连续的。但无论如何,大模型表现出的“类人智能”确实让研究者惊喜,也推动着技术发展。
简而言之,涌现能力=大数据+大模型+意外惊喜,就像给AI喂了“知识酵母”,让它发酵出超乎预料的本领。
提示工程(Prompting)
提示工程(Prompting)
是指通过设计有效的输入提示(Prompt)来引导大语言模型(如GPT)生成符合预期的输出
。通俗来说,就是“怎么问问题,才能让AI更好地回答你”。
设计原则:
- 明确性(“写500字关于…”)
- 上下文提供(时代/场景设定)
- 示例引导(few-shot learning)
-
明确性:简单来说,就是“问得清楚”。比如,如果你想让AI写一篇500字的文章,直接告诉它“写500字关于气候变化的文章”,而不是模糊地问“写点关于气候变化的东西”。明确的指令能帮助AI更准确地理解你的需求。
-
上下文提供: 就是“给AI一些背景信息”。比如,如果你想让它写一篇关于19世纪工业革命的文章,可以告诉它“假设你是19世纪的历史学家,写一篇关于工业革命的文章”。这样AI就能更好地代入场景,生成更符合你期望的内容。
-
示例引导(few-shot learning): 就是“给AI举例子”。比如,如果你想让它写一段产品描述,可以先给它几个例子:“这是一款轻便的笔记本电脑,适合商务人士。”、“这是一款高性价比的智能手机,适合学生。”然后让它根据这些例子生成新的描述。这样AI更容易理解你的要求。
高级技巧:
- 思维链(Chain-of-Thought)
- 自洽性(Self-Consistency)
简单来说:
-
思维链(Chain-of-Thought): 就是“让AI一步步思考”。比如,如果你问AI“一个商店有350个苹果,第一天卖出40%,第二天卖出剩余的30%,还剩多少个苹果?”,AI可能会直接给出答案。但如果你让它“一步步思考:先算第一天卖了多少,再算第二天卖了多少,最后算剩下的”,AI会更准确地解决问题。
-
自洽性(Self-Consistency): 就是“让AI多试几次,选最靠谱的答案”。比如,如果你让AI解一个数学题,它可以尝试用不同的方法(如因式分解、求根公式)来解,然后比较结果是否一致。如果几种方法得出的答案一样,那这个答案就更可信。
幻觉与偏见
幻觉:生成事实错误内容
幻觉在心理学中指“没有客观刺激时的虚假知觉体验”,如幻听、幻视等。而在AI领域,幻觉表现为模型生成与事实不符的内容,例如虚构事件、错误数据或逻辑矛盾。
成因与影响
- 数据局限性:训练数据覆盖不足或存在噪声,导致模型“脑补”信息。
- 生成机制缺陷:模型过度依赖概率预测,缺乏真实世界验证机制。
- 影响:可能误导用户决策,降低可信度(如医疗建议中的错误信息)。
缓解方法
- RAG(检索增强生成):通过外部知识库实时检索事实数据,约束生成内容的准确性。
- 事实核查与后处理:引入第三方验证工具(如知识图谱)或人工审核流程,修正错误输出。
- 多模态输入:结合图像、文本等多源信息,减少单一模态的歧义。
偏见:训练数据偏差导致输出偏颇
偏见是“基于片面或不正确信息形成的偏颇态度”。AI中的偏见表现为输出隐含性别、种族、职业等刻板印象,例如将“护士”关联为女性、“程序员”关联为男性。
成因与影响
- 数据偏差:训练数据反映社会历史偏见(如性别不平等)。
- 算法放大效应:模型可能强化数据中的少数群体负面标签。
- 影响:加剧社会歧视,损害公平性(如招聘算法中的性别歧视)。
缓解方法
- 数据去偏:
- 重采样与平衡:增加少数群体数据比例(如女性工程师案例)。
- 语义过滤:识别并删除含偏见的语料(如贬义词汇)。
- RLHF(人类反馈强化学习):
- 通过人工标注修正偏颇输出,引导模型学习公平表达。
- 公平性评估框架:
- 开发评估指标(如群体平等性分数),监控模型输出的偏差程度。
历史演进脉络
2017:Transformer架构革命
- 自注意力机制替代RNN,建立全局语义关联
- 奠定现代大模型的核心架构基础
2018:BERT引领预训练时代
- 双向编码器突破单向建模局限
- 开启"预训练+微调"范式
2020:GPT-3展示涌现能力
- 175B参数规模验证scaling law
- 小样本学习能力突破引发行业震动
2022:ChatGPT引爆应用革命
- RLHF技术实现人类偏好对齐
- 对话式交互开启AI平民化时代
2024:架构创新加速
- Gemini 1.5:MoE架构+百万token上下文
- DeepSeek-V2/V3:第二代开源MoE模型,支持动态专家路由与万亿级稀疏激活()
- 模型推理成本降至GPT-4的1/30()
DeepSeek的最新进展印证了AI发展的三大定律——模型架构创新驱动性能突破、系统工程决定落地成本、开源生态重塑产业格局。其技术路线已形成"基础研究-工程实现-行业渗透"的完整闭环。
博文部分内容参考
© 文中涉及参考链接内容版权归原作者所有,如有侵权请告知 😃
《Enhancing LLM Abilities and Reliability with Prompting, Fine-Tuning, and RAG》
© 2018-至今 liruilonger@gmail.com, All rights reserved. 保持署名-非商用-相同方式共享(CC BY-NC-SA 4.0)