大模型的发展历程

1、早期模型的探索与局限性

1.1早期模型的探索与局限性

从早期的符号逻辑到现代的深度学习 1 模型，AI 领域经历了数十年的探索和迭代，为后续突破打下了坚实基础。随着大数据的发展和 AI 计算能力的爆炸式增长，深度学习模型的崛起显得尤为突出。然而，尽管这些模型在特定任务上取得了令人瞩目的成就，其在初期也面临着许多局限性，如存在数据依赖、计算消耗大、缺乏可解释性等。这些局限性不仅为 AI 领域带来技术挑战，也引发了对模型偏见、安全性和应用范围的深入思考。1956 年 6 月举行的达特茅斯夏季人工智能研究项目，被广泛认为是人工智能作为一个研究学科的开端。自“人工智能”概念被提出，大模型的发展经历了三个阶段：

早期发展期(1956-2005)：该阶段主要是传统神经网络模型的阶段，例如循环神经网络(Recurrent Neural Network，“RNN”)卷积神经网络(ConvolutionalNeuralNetworks，“CNN”)起初，AI发展主要基于小规模的专家知识，然后逐渐转向机器学习，1980年和1998年诞生的CNN和LeNet-55奠定了深度学习模型的基础。

快速成长期(2006-2019)：该阶段是全新的神经网络模型阶段，模型的发展方向主要聚焦长序列的处理和计算效率的提升，以Transformer架构的出现为代表。从2013年的Word2Vec7到2017年的Transformer，都标志着深度学习模型正走向一个全新的时代。在该阶段，如GPT和BERT等预训练模型逐渐成为主流。

全面爆发期(2020-至今)：该阶段是预训练大模型阶段。以GPT为代表，预训练大模型处于快速发展的阶段，特别是OpenAI推出的GPT-3和GPT-4，标志着大模型技术正迈向新高度。

机器学习有三种主要的方式，分别是监督学习、无监督学习、强化学习。

1) 监督学习(Supervised Learning)：“模板规范”（投喂好的资料），我们向模型投喂带有标签的数据（包括数据特征和期望的输出值），让算法学习输入和输出之间的映射关系。经典的监督学习包括分类和回归。

分类：例如学习大量猫和狗的图片和标签，当模型接收新的动物图片时可以将其根据特征识别是猫还是狗；

回归：例如学习猫的产地、毛色、习性等特征，并将猫的价值作为输出标签进行训练，当模型接收新的猫咪图片时可以根据特征预测猫的价值。

2)无监督学习(Unsupervised Learning)：“开卷有益”（多投喂资料），我们向模型投喂不带标签的数据，让模型自行寻找其中的规律，并进行处理。经典的无监督学习包括聚类和降维。

聚类：例如学习大量房屋的信息，模型自行寻找其中的价格、面积、户型的规律，并自动将相同类型的房屋进行汇总。

降维：例如学习大量房屋的信息，模型自行寻找其中用户决策最关心的因素，在保留价格和其他少量辅助数据的同时对房屋数据进行压缩，以便简化建模。

3)强化学习(Reinforcement Learning)：“创意引导”（进行条件反射），我们向模型设置特定环境，让模型在其中采取行动，我们再对其进行反馈，让模型从反馈中学习以便优化下一次的行动。这一过程就类似以条件反射的方式训练小狗。

在机器学习领域的早期阶段，研究者们的主要关注点是基于统计、线性回归和决策树等的简单模型。早期模型具有以下特点：简单性: 早期的模型，如线性回归和逻辑回归，是基于明确的数学方程，使其容易被理解和解释。计算消耗低: 由于模型的简单性，其在计算上相对高效，不需要大量的计算资源: 表示能力存在上限。虽然早期模型在特定方面表现良好，但其表示能力有限，尤其体现在处理复杂任务和非线性问题上。

大模型早期所面临的主要局限性包括：

1)存在数据依赖：早期的模型对于大量高质量数据有极高的依赖性。在没有足够训练数据的情况下，这些模型往往难以达到令人满意的性能，但获取、清洗、标注这些数据却昂贵且极为耗时。

2)缺乏可解释性：大模型通常被视为“黑盒”，即模型的内部工作原理很难被理解。由于用户需要理解模型的决策过程，模型的解释性不足在很多关键领域(如医疗和司法)构成障碍。

3)泛化能力不足：尽管早期的大模型在特定任务中表现性能优秀，但其在新数据或新场景中的泛化能力仍受到质疑。

4)存在环境和任务依赖：早期的AI模型通常需要根据特定任务定制和调整，这意味着为特定任务训练的模型可能难以直接应用于其他任务。

5)模型具有一定偏见：由于训练数据往往包含现实世界的偏见，大模型可能反映这些偏见，导致应用于实际场景时出现歧视或不公平的决策。

6)安全性和稳定性不足：由于早期大模型的复杂性，其易受到对抗性攻击或在特定条件下表现不稳定。

以上局限性不仅为 AI 领域的研究者和工程师带来挑战，也为 AI 技术的未来发展和应用提出反思和探索的方向。随着技术发展，许多问题已经得到解决或缓解。

2、深度学习的崛起

深度学习从其最初的简单尝试到现今所达到的辉煌高峰，不仅展现了技术的快速发展，更揭示了人类在追求智慧和知识上的不懈努力。深度学习源自人类对人脑工作原理的好奇和模仿，意图借助数学和算法的力量，赋予计算机对信息的处理和认知能力。随着技术日益成熟，深度学习赋予计算机识别图像、处理自然语言甚至复杂决策的能力，不仅体现技术进步，也标志人工智能正逐步走向更加深入、广泛的应用领域，为人类生活带来无尽可能性。因此，深度学习的崛起可以被视为人类科技史上的一大里程碑。

神经网络的早期探索。1957 年，FrankRosenblatt 提出感知器模型，被称为最简单的神经网络，通过简单的线性组合实现分类任务。尽管当时的应用领域有限，但其为后续神经网络的发展奠定了基础。19 世纪 80 年代，Rumelhart、Hinton及其团队引入了反向传播算法，通过多层神经网络训练，为复杂模型和任务提供强大工具。

数据与计算能力的融合。21 世纪初，互联网的广泛传播和智能设备的普及，使得数据呈现指数级增长，为深度学习提供丰富的训练数据。同时，硬件技术也在飞速发展，NVIDIA 等厂商投入 GPU 研发，其能够大幅度加速数值计算，尤其是深度学习中的矩阵运算，软硬件的进步大大加速了模型的训练过程。

关键技术突破与模型创新。1997 年Hochreiter 和 Schmidhuber 提出长短时记忆网络(LongShort-TermMemory，LSTM)，解决了循环神经网络的梯度消失 / 梯度爆炸的问题，使得神经网络可以更好的处理长文本内容，为序列数据的处理开辟了新天地。1998 年YannLeCun 及其团队提出 LeNet-5，但真正让深度学习走向世界舞台的是 2012 年由 AlexKrizhevsky 等人设计的AlexNet，其在 ImageNet 挑战赛中大胜，展示了深度学习在图像处理上的潜力。2014 年生成式对抗网络 (GenerativeAdversarialNetworks，“GAN”) 被提出。GAN的原理是通过竞争机制来逐步提高生成器的准确性。2016年横空出世击败围棋世界冠军李世石的AlphaGo就是基于 GAN架构训练的模型。2017 年Google 提出Transformer 架构，此后 BERT、GPT 等模型皆以其为基础，在自然语言处理任务中达到新高度。

3、GPT等代表性大模型的影响

一个原始的 Transformer 架构由编码器 (Encoder) 和解码器 (Decorder)两部分构成，其中编码器用于将输入序列转换为一系列特征向量，解码器则将这些特征向量转换为输出序列，即：输入内容——编码器——解码器——输出内容。如果给编码器输入一句英语“She is a student”，解码器返回一句对应的中文“她是一名学生”。Transformer 的架构和自注意力机制能够实现这些的关键在于“将词汇转换为词向量，并通过多头注意力机制（Multi-Head Attention）和前馈神经网络（Feed-Forward Network）两个子层进行处理”。

第一步：模型对接收到的输入序列文本Token化，Token可以被理解为文本的基本单元，短单词可能是一个Token，长单词可能是多个Token。Token是GPT的收费单元也是源于此。

第二步：将Token转换成一个数字成为 Token ID，因为计算机语言只能存储和运算数字。

第三步：将 Token ID传入嵌入层 (Embedding Layer)，转换为词向量 (Word Embedding)，词向量是一串数字。可以将这个过程想象为将一个单词放到多维空间中，每个数字就表达了这个单词某个维度的含义，一串数字所能表达和蕴含的信息量多于Token ID的一个数字，可以记载这个单词的词义、语法和不同语境、语序中的变化关系。

第四步：对词向量的语序和语境进行位置编码形成位置向量。上文提到语境和语序对理解词义至关重要。之后将词向量合并位置向量，将合并后的结果传给编码器，这样模型既能理解词义也能理解语境和语序。

第五步：接收到上述信息后，编码器中的多头注意力机制将会运作，捕捉其中的关键特征，编码器在处理时不仅会关注这个词与临近的词，还会关注输入序列中所有其他词，将输入的信息根据上下文进行调整输出了降维后的向量。

第六步：进入编码器的前馈神经网络处理，前馈神经网络“思考”之前步骤中收集的信息，并增强模型的表达能力尝试进行预测。

第七步：降维后的向量将继续传输给解码器运算。解码器具有带掩码的多头注意力机制，解码器在处理时仅关注这个词及其之前的词，遮盖输入序列中后面的内容，并结合已经生成的文本，保持未来输出文本的时间顺序及逻辑连贯性。

第八步：进入解码器的前馈神经网络处理，解码器中的前馈神经网络与第六步类似，也是增强模型的表达能力。

第九步：解码器的最后处理环节经过 linear 层和 softmax 层，这两个子层将解码器输出内容转换为词汇表的概率分布，概率分布反映下一个 Token 生成概率。通常模型选择概率最高的 Token 作为输出，生成输出序列。因此解码器本质上是在做“单词接龙”的游戏，猜下一个输出单词。

从上图可以看出，经过演变，大模型大致分为三种：

其一是舍弃 Decoder、仅使用 Encoder 作为编码器的预训练模型，以 Bert 为代表，但 Bert 未突破Scaling Laws，Encoder-Only 分支在 2021 年后逐渐没落。

其二是同时使用Encoder、Decoder 的预训练模型，代表模型有清华大学的chatGLM。

其三是舍弃Encoder、仅使用 Decoder 作为编码器的预训练模型，以 GPT 为代表，其通过预测下一个单词，基于给定的文本序列进行训练。GPT 最初主要被视为文本生成工具，而 GPT-3 的推出成为该分支发展的历史性时刻。自 GPT-3 问世后，不断涌现出诸多如ChatGPT、PaLM、GPT-4等优秀的大模型，Decoder-Only分支现发展势头强劲。

3.1 大模型带来的效率与准确度革命

大模型的出现也标志着信息处理和知识推断的准确性革命。大模型代表了可以更深入、更广泛地理解和处理人类语言的能力，使得很多任务的执行准确性得到前所未有的提高。大模型背后的深度学习算法使得系统能够从大量数据中提取规律和关系。与此同时，模型的庞大规模意味着它们能够记忆和处理的细节越来越丰富，这确保了其在诸如文本解析、情感分析和复杂问题回答等任务中的出色表现。传统的机器学习模型通常需要针对特定任务进行训练，而GPT 之类的模型由于其通用性，可以被微调以适应特定的领域或任务，从而在医学、法律、工程等专业领域中展现出惊人的准确性。在机器翻译、图像识别等许多应用场景中，大模型相较过去错误率显著降低，准确性的提高对于如医疗诊断和自动驾驶汽车等关键领域具有特殊重要性。

3.2 大模型带来的机会与挑战

大模型当前已经覆盖了许多领域，为我们的日常生活、工作和娱乐带来了深刻的变革。例如，在零售业，大模型能够根据消费者的购买记录和浏览习惯为其生成个性化的购物推荐；在新闻和媒体领域，它可以快速地为记者生成初稿或摘要，加速新闻的传播速度；在娱乐领域，音乐、艺术和电影制作人开始尝试利用 AI 生成原创作品。同时，大模型在医疗、金融和交通领域的应用也都在逐步展开，为我们的健康、财富和出行安全提供了前所未有的支持。