目录
- 前言 —— 本系列博文内容
- 何谓语言
- 语言、图形符号、编码与解码
- 基于规则、基于统计
- 语言模型(Language Model)
- 预训练语言模型
- BERT 与 GPT
- 大模型范式
- 预训练 + 微调大模型
- 提示 / 指令
- OpenAI
若一个语言模型亮起一盏灯,你会发现,窗外已是灯火阑珊。
前言 —— 本系列博文内容
本系列博文内容,将以语言模型的发展脉络铺设展开:
本系列的博文的终点是语言模型 BERT 与 GPT,而后系列,就是大模型的应用策略,包含:LangChain、AI Agent 等。
何谓语言
语言、图形符号、编码与解码
最早的语言,以声音为媒介,通过话语进行传送。但是口头传播信息存在不易积累,很难传播的缺点,故古人发明以图形符号辅助记事。而当图形符号简化到一定程度,能够与语言形成特定对应时,早期的文字就形成了。无论是最古老的象形文字、楔形文字、还是甲骨文、现代文字,其本质上,作用都是承载信息。
但是,不同语言之间传递信息存在壁垒,我们在不同语言间交流需要翻译(语言编码和解码),才能进行有效的信息传达。同理,计算机也不能直接理解人类自然语言,因为缺少编码和解码的过程。顺着这个逻辑,可以推断出,自然语言处理作用就是要将语言编码,将其转换成计算机能够读懂的形式,并将处理好的结果解码,转换为目标语言形式。
基于规则、基于统计
基于规则:20世纪70年代始,人们不断尝试通过积累语法语义规则解决 NLP 问题。然而,规则无法定义语言的灵活性,无法涵盖所有语言现象。
基于统计:1970年,IBM 科学家提出基于统计的自然语言处理方法。基于统计,旨在通过数学方法,估计给定文本序列出现的概率,以帮助理解语言的结构和生成新的文本。
语言模型(Language Model)
语言模型,基于统计,根据给定的上下文,预测接下来出现的单词。
统计语言模型出现的很早,但是主要由于网络结构和数据量的局限,早期的统计语言模型并没有实现突破性的应用。且,这些语言模型存在着不少缺点,例如过拟合、无法处理文本间长距离的依赖性、无法捕捉微妙的语义信息等等。
经过几十年不断地探索与积累,NLP 领域涌现出更高级地思路和算法,伴随深度学习时代,实现问题的破解与技术上的突破。
预训练语言模型
预训练,指的是在大量无标注文本上训练语言模型。预训练所得的大规模语言模型被称为 “基础模型”(Base Model)。在预训练过程中,模型学会了词汇、语法、句子结构以及上下文信息等丰富的语言知识。
BERT 与 GPT
“ChatGPT, Yes !”
在讨论大规模语言模型(Large Language Models, LLMs)时,BERT 和 GPT 这两大模型无疑占据了重要地位。它们都基于 Transformer 架构,但为什么,当下 GPT 独领风骚?
- BERT 的预训练方式类似于完成填空题,通过随机遮蔽部分词汇并预测这些被遮蔽的词,从而实现了对上下文的双向理解。这使得 BERT 在理解句子结构、语法和词汇关系方面表现出色。
- 相比之下,GPT 的预训练则像是文字接龙,它专注于根据上文来预测下一个单词,这种单向的学习方式让 GPT 更擅长于生成流畅的文本。
尽管 BERT 的双向学习策略看起来更为巧妙,有效地提升了模型的语言理解能力,但它却并未直接针对语言模型的核心任务——文本生成。
GPT,则更接近语言模型的本质、应用的本质。通过从左到右逐个预测单词,使得模型在生成过程中能够学习到自然语言中的连贯表达、句法和语义信息。
大模型范式
预训练 + 微调大模型
-
预训练:
预训练过程,是在大规模无标注的数据集上进行模型的训练,让模型学习自然语言的基础表达、上下文信息和语义知识,为后续任务提供一个通用的、丰富的语言表示基础。 -
微调:
在预训练模型的基础上,应用人员根据特定下游任务,对模型的头部或者部分参数进行适应性调整。通常方法是在有标注的数据集上进行有监督学习,让模型适应特定任务的需求。
提示 / 指令
提示 Prompt 与指令 Instruct 都基于这样一种思想:
大模型通过训练,已然掌握了语言的结构、语法和一定程度的语义知识。那么在应用阶段,只需提供恰当的信息和引导,运用大模型本身的知识,即可生成有效的结果输出。
当然,提示与指令之间也存在区别:
- Prompt 提示:通过给出部分内容对大模型进行引导。
- Instruct 指令:通过完整的明确的指令,要求大模型完成特定任务。
OpenAI
OpenAI 是一个年轻的科技公司,成立于 2015年,有众多知名创业者和科技领域的引领者共同发起,其宗旨是推动人工智能技术的发展和进步。
以下是 OpenAI 成立以来的大事记:
- 2015年:成立 OpenAI
- 2018年:Five 在 Dota2 中战胜人类选手
- 2019年:微软向 OpenAI 注资 10 亿美元
- 2020年:发布 OpenAI API
- 2022年:ChatGPT 问世
- 2023年:GPT-4 问世,微软再注资 100 亿美元
…
ChatGPT 是从初代的 GPT 逐渐演变而来的。在进化的过程中,GPT 系列模型的参数呈现指数级增长
模型 | 参数 |
---|---|
GPT | 0.12B |
GPT-2 | 1.5B |
GPT-3 | 175B |
最早发布的 ChatGPT 是在 GPT-3.5 的基础上训练出来的。在 GPT-3 迈向 ChatGPT 的过程中,技术进展主要集中在基于聊天场景的微调、提示工程、性能控制以及安全性等方面。这些进步极大程度提升了用户的交互体验感。
以上内容为本系列【大模型基础】博文第一节:大模型之路。
2024.09.06