大模型的发展历程

1、早期模型的探索与局限性

        1.1早期模型的探索与局限性

       从早期的符号逻辑到现代的深度学习 1 模型,AI 领域经历了数十年的探索和迭代,为后续突破打下了坚实基础。随着大数据的发展和 AI 计算能力的爆炸式增长,深度学习模型的崛起显得尤为突出。然而,尽管这些模型在特定任务上取得了令人瞩目的成就,其在初期也面临着许多局限性,如存在数据依赖、计算消耗大、缺乏可解释性等。这些局限性不仅为 AI 领域带来技术挑战,也引发了对模型偏见、安全性和应用范围的深入思考。1956 年 6 月举行的达特茅斯夏季人工智能研究项目,被广泛认为是人工智能作为一个研究学科的开端。自“人工智能”概念被提出,大模型的发展经历了三个阶段:

        早期发展期(1956-2005):该阶段主要是传统神经网络模型的阶段,例如循环神经网络(Recurrent Neural Network,“RNN”)卷积神经网络(ConvolutionalNeuralNetworks,“CNN”)起初,AI发展主要基于小规模的专家知识,然后逐渐转向机器学习,1980年和1998年诞生的CNN和LeNet-55奠定了深度学习模型的基础。

        快速成长期(2006-2019):该阶段是全新的神经网络模型阶段,模型的发展方向主要聚焦长序列的处理和计算效率的提升,以Transformer架构的出现为代表。从2013年的Word2Vec7到2017年的Transformer,都标志着深度学习模型正走向一个全新的时代。在该阶段,如GPT和BERT等预训练模型逐渐成为主流。

        全面爆发期(2020-至今):该阶段是预训练大模型阶段。以GPT为代表,预训练大模型处于快速发展的阶段,特别是OpenAI推出的GPT-3和GPT-4,标志着大模型技术正迈向新高度。

机器学习有三种主要的方式,分别是监督学习、无监督学习、强化学习。

        1) 监督学习(Supervised Learning):“模板规范”(投喂好的资料),我们向模型投喂带有标签的数据(包括数据特征和期望的输出值),让算法学习输入和输出之间的映射关系。经典的监督学习包括分类和回归。

        分类:例如学习大量猫和狗的图片和标签,当模型接收新的动物图片时可以将其根据特征识别是猫还是狗;

        回归:例如学习猫的产地、毛色、习性等特征,并将猫的价值作为输出标签进行训练,当模型接收新的猫咪图片时可以根据特征预测猫的价值。

        2)无监督学习(Unsupervised Learning):“开卷有益”(多投喂资料),我们向模型投喂不带标签的数据,让模型自行寻找其中的规律,并进行处理。经典的无监督学习包括聚类和降维。

        聚类:例如学习大量房屋的信息,模型自行寻找其中的价格、面积、户型的规律,并自动将相同类型的房屋进行汇总。

        降维:例如学习大量房屋的信息,模型自行寻找其中用户决策最关心的因素,在保留价格和其他少量辅助数据的同时对房屋数据进行压缩,以便简化建模。

        3)强化学习(Reinforcement Learning):“创意引导”(进行条件反射),我们向模型设置特定环境,让模型在其中采取行动,我们再对其进行反馈,让模型从反馈中学习以便优化下一次的行动。这一过程就类似以条件反射的方式训练小狗。

       在机器学习领域的早期阶段,研究者们的主要关注点是基于统计、线性回归和决策树等的简单模型。早期模型具有以下特点:简单性: 早期的模型,如线性回归和逻辑回归,是基于明确的数学方程,使其容易被理解和解释。计算消耗低: 由于模型的简单性,其在计算上相对高效,不需要大量的计算资源: 表示能力存在上限。虽然早期模型在特定方面表现良好,但其表示能力有限,尤其体现在处理复杂任务和非线性问题上。

大模型早期所面临的主要局限性包括:

        1)存在数据依赖:早期的模型对于大量高质量数据有极高的依赖性。在没有足够训练数据的情况下,这些模型往往难以达到令人满意的性能,但获取、清洗、标注这些数据却昂贵且极为耗时。

        2)缺乏可解释性:大模型通常被视为“黑盒”,即模型的内部工作原理很难被理解。由于用户需要理解模型的决策过程,模型的解释性不足在很多关键领域(如医疗和司法)构成障碍。

        3)泛化能力不足:尽管早期的大模型在特定任务中表现性能优秀,但其在新数据或新场景中的泛化能力仍受到质疑。

        4)存在环境和任务依赖:早期的AI模型通常需要根据特定任务定制和调整,这意味着为特定任务训练的模型可能难以直接应用于其他任务。

        5)模型具有一定偏见:由于训练数据往往包含现实世界的偏见,大模型可能反映这些偏见,导致应用于实际场景时出现歧视或不公平的决策。

        6)安全性和稳定性不足:由于早期大模型的复杂性,其易受到对抗性攻击或在特定条件下表现不稳定。

        以上局限性不仅为 AI 领域的研究者和工程师带来挑战,也为 AI 技术的未来发展和应用提出反思和探索的方向。随着技术发展,许多问题已经得到解决或缓解。

2、深度学习的崛起 

       深度学习从其最初的简单尝试到现今所达到的辉煌高峰,不仅展现了技术的快速发展,更揭示了人类在追求智慧和知识上的不懈努力。深度学习源自人类对人脑工作原理的好奇和模仿,意图借助数学和算法的力量,赋予计算机对信息的处理和认知能力。随着技术日益成熟,深度学习赋予计算机识别图像、处理自然语言甚至复杂决策的能力,不仅体现技术进步,也标志人工智能正逐步走向更加深入、广泛的应用领域,为人类生活带来无尽可能性。因此,深度学习的崛起可以被视为人类科技史上的一大里程碑。

        神经网络的早期探索。1957 年,FrankRosenblatt 提出感知器模型,被称为最简单的神经网络,通过简单的线性组合实现分类任务。尽管当时的应用领域有限,但其为后续神经网络的发展奠定了基础。19 世纪 80 年代,Rumelhart、Hinton及其团队引入了反向传播算法,通过多层神经网络训练,为复杂模型和任务提供强大工具。

        数据与计算能力的融合。21 世纪初,互联网的广泛传播和智能设备的普及,使得数据呈现指数级增长,为深度学习提供丰富的训练数据。同时,硬件技术也在飞速发展,NVIDIA 等厂商投入 GPU 研发,其能够大幅度加速数值计算,尤其是深度学习中的矩阵运算,软硬件的进步大大加速了模型的训练过程。

        关键技术突破与模型创新。1997 年Hochreiter 和 Schmidhuber 提出长短时记忆网络(LongShort-TermMemory,LSTM),解决了循环神经网络的梯度消失 / 梯度爆炸的问题,使得神经网络可以更好的处理长文本内容,为序列数据的处理开辟了新天地。1998 年YannLeCun 及其团队提出 LeNet-5,但真正让深度学习走向世界舞台的是 2012 年由 AlexKrizhevsky 等人设计的AlexNet,其在 ImageNet 挑战赛中大胜,展示了深度学习在图像处理上的潜力。2014 年生成式对抗网络 (GenerativeAdversarialNetworks,“GAN”) 被提出。GAN的原理是通过竞争机制来逐步提高生成器的准确性。2016年横空出世击败围棋世界冠军李世石的AlphaGo就是基于 GAN架构训练的模型。2017 年Google 提出Transformer 架构,此后 BERT、GPT 等模型皆以其为基础,在自然语言处理任务中达到新高度。

3、GPT等代表性大模型的影响

        一个原始的 Transformer 架构由编码器 (Encoder) 和解码器 (Decorder)两部分构成,其中编码器用于将输入序列转换为一系列特征向量,解码器则将这些特征向量转换为输出序列,即:输入内容——编码器——解码器——输出内容。如果给编码器输入一句英语“She is a student”,解码器返回一句对应的中文“她是一名学生”。Transformer 的架构和自注意力机制能够实现这些的关键在于“将词汇转换为词向量,并通过多头注意力机制(Multi-Head Attention)和前馈神经网络(Feed-Forward Network)两个子层进行处理”。

第一步:模型对接收到的输入序列文本Token化,Token可以被理解为文本的基本单元,短单词可能是一个Token,长单词可能是多个Token。Token是GPT的收费单元也是源于此。

第二步:将Token转换成一个数字成为 Token ID,因为计算机语言只能存储和运算数字。

第三步:将 Token ID传入嵌入层 (Embedding Layer),转换为词向量 (Word Embedding),词向量是一串数字。可以将这个过程想象为将一个单词放到多维空间中,每个数字就表达了这个单词某个维度的含义,一串数字所能表达和蕴含的信息量多于Token ID的一个数字,可以记载这个单词的词义、语法和不同语境、语序中的变化关系。

第四步:对词向量的语序和语境进行位置编码形成位置向量。上文提到语境和语序对理解词义至关重要。之后将词向量合并位置向量,将合并后的结果传给编码器,这样模型既能理解词义也能理解语境和语序。

第五步:接收到上述信息后,编码器中的多头注意力机制将会运作,捕捉其中的关键特征,编码器在处理时不仅会关注这个词与临近的词,还会关注输入序列中所有其他词,将输入的信息根据上下文进行调整输出了降维后的向量

第六步:进入编码器的前馈神经网络处理,前馈神经网络“思考”之前步骤中收集的信息,并增强模型的表达能力尝试进行预测。

第七步:降维后的向量将继续传输给解码器运算。解码器具有带掩码的多头注意力机制,解码器在处理时仅关注这个词及其之前的词,遮盖输入序列中后面的内容,并结合已经生成的文本,保持未来输出文本的时间顺序及逻辑连贯性

第八步:进入解码器的前馈神经网络处理,解码器中的前馈神经网络与第六步类似,也是增强模型的表达能力。

第九步:解码器的最后处理环节经过 linear 层和 softmax 层,这两个子层将解码器输出内容转换为词汇表的概率分布,概率分布反映下一个 Token 生成概率。通常模型选择概率最高的 Token 作为输出,生成输出序列。因此解码器本质上是在做“单词接龙”的游戏,猜下一个输出单词。

从上图可以看出,经过演变,大模型大致分为三种:

        其一是舍弃 Decoder、仅使用 Encoder 作为编码器的预训练模型,以 Bert 为代表,但 Bert 未突破Scaling Laws,Encoder-Only 分支在 2021 年后逐渐没落。

        其二是同时使用Encoder、Decoder 的预训练模型,代表模型有清华大学的chatGLM。

        其三是舍弃Encoder、仅使用 Decoder 作为编码器的预训练模型,以 GPT 为代表,其通过预测下一个单词,基于给定的文本序列进行训练。GPT 最初主要被视为文本生成工具,而 GPT-3 的推出成为该分支发展的历史性时刻。自 GPT-3 问世后,不断涌现出诸多如ChatGPT、PaLM、GPT-4等优秀的大模型,Decoder-Only分支现发展势头强劲。

        3.1 大模型带来的效率与准确度革命 

       大模型的出现也标志着信息处理和知识推断的准确性革命。大模型代表了可以更深入、更广泛地理解和处理人类语言的能力,使得很多任务的执行准确性得到前所未有的提高。大模型背后的深度学习算法使得系统能够从大量数据中提取规律和关系。与此同时,模型的庞大规模意味着它们能够记忆和处理的细节越来越丰富,这确保了其在诸如文本解析、情感分析和复杂问题回答等任务中的出色表现。传统的机器学习模型通常需要针对特定任务进行训练,而GPT 之类的模型由于其通用性,可以被微调以适应特定的领域或任务,从而在医学、法律、工程等专业领域中展现出惊人的准确性。在机器翻译、图像识别等许多应用场景中,大模型相较过去错误率显著降低,准确性的提高对于如医疗诊断和自动驾驶汽车等关键领域具有特殊重要性。

        3.2 大模型带来的机会与挑战

       大模型当前已经覆盖了许多领域,为我们的日常生活、工作和娱乐带来了深刻的变革。例如,在零售业,大模型能够根据消费者的购买记录和浏览习惯为其生成个性化的购物推荐;在新闻和媒体领域,它可以快速地为记者生成初稿或摘要,加速新闻的传播速度;在娱乐领域,音乐、艺术和电影制作人开始尝试利用 AI 生成原创作品。同时,大模型在医疗、金融和交通领域的应用也都在逐步展开,为我们的健康、财富和出行安全提供了前所未有的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/693724.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

有序二叉树java实现

类实现: package 树;import java.util.LinkedList; import java.util.Queue;public class BinaryTree {public TreeNode root;//插入public void insert(int value){//插入成功之后要return结束方法TreeNode node new TreeNode(value);//如果root为空的话插入if(r…

人工智能_机器学习096_PCA主成分分析降维算法_PCA降维原理_介绍和使用_模式识别_EVD特征值分解_SVD奇异值分解---人工智能工作笔记0221

首先我来看PCA降维,可以看到在图像处理中经常用到PCA,经过对数据进行降维可以去除数据噪声,发现数据中的模式,也就是 发现数据的规律. 这里的模式识别就是 机器学习中的一个分支 就是在数据中找规律的意思 我们使用代码看一下 from sklearn.docomposition import PCA from skl…

kivy 百词斩项目 报错

AttributeError: FigureCanvasKivyAgg object has no attribute resize_event AttributeError: FigureCanvasKivyAgg object has no attribute resize_event 是一种常见的Python错误,当你试图访问一个对象(在这个例子中是 FigureCanvasKivyAgg 对象&am…

六、主存储器管理,计算机操作系统教程,第四版,左万利,王英

文章目录 [toc]一、存储管理的功能1.1 存储分配1.2 存储共享1.3 存储保护1.4 存储扩充1.5 地址映射 二、内存资源管理2.1 内存分区2.1.1 静态分区与动态分区2.1.2 等长分区与异长分区 2.2 内存分配2.2.1 静态等长分区的分配2.2.2 *动态异长分区的分配 2.3 碎片与紧凑 三、界地址…

从C到C++,C++入门(2)

在C入门篇(1)中,博主为大家简单介绍了什么是C,以及C中的关键字,命名空间,输入与输出和缺省参数的相关知识。今天就让我们继续一起学习C的基础知识点吧!! 1.函数重载 1.1函数重载的概…

C# WPF入门学习主线篇(十九)—— 布局管理实战『混合布局案例』

C# WPF入门学习主线篇(十九)—— 布局管理实战『混合布局案例』 欢迎来到C# WPF入门学习系列的第十九篇。在前几篇文章中,我们详细介绍了各个布局容器的基本概念和使用方法。本篇博客将通过一个综合的实战案例,展示如何在WPF中使用…

Comfyui容器化部署与简介

目前使用 Stable Diffusion 进行创作的工具主要有两个:Stable Diffusion WebUI 和 ComfyUI。本文重点介绍ComfyUI的部署使用。 ComfyUI 可定制性很强,可以让创作者搞出各种新奇的玩意,通过工作流的方式,也可以实现更高的自动化水平…

k8s学习--kubernetes服务自动伸缩之水平收缩(pod副本收缩)VPA详细解释与安装

文章目录 前言VPA简介简单理解详细解释VPA的优缺点优点1.自动化资源管理2.资源优化3.性能和稳定性提升5.成本节约6.集成性和灵活性 缺点1.Pod 重启影响可用性2.与 HPA 冲突3.资源监控和推荐滞后:4.实现复杂度: 核心概念Resource Requests 和 Limits自动调…

【MySQL】(基础篇三) —— 创建数据库和表

管理数据库和表 管理数据库 创建数据库 在MySQL中,创建数据库的SQL命令相对简单,基本语法如下: CREATE DATABASE 数据库名;如果你想避免在尝试创建已经存在的数据库时出现错误,可以添加 IF NOT EXISTS 子句,这样如…

AI 边缘计算平台 - 6 TOPS 低功耗 RK3576

RK3576 是瑞芯微第二代 8nm 高性能 AIOT 平台,CPU 采用八核大小核构架(4A72 2.2GHz 4A53 1.8GHz),以及一个 M0 协处理器。其 CPU 算力高达 58K DMIPS,足以应对各种复杂计算任务。搭载 Mali-G52 MC3 GPU,14…

vscode软件上安装 Fitten Code插件及使用

一. 简介 前面几篇文章学习了 Pycharm开发工具上安装 Fitten Code插件,以及 Fitten Code插件的使用。 Fitten Code插件是是一款由非十大模型驱动的 AI 编程助手,它可以自动生成代码,提升开发效率,帮您调试 Bug,节省…

【CS.AI】GPT-4o:重新定义人工智能的新标杆

文章目录 1 序言2 GPT-4o的技术亮点3 GPT-4o与前代版本的对比3.1 热门AI模型对比表格GPT-3.5GPT-4GPT-4oBERTT5 3.2 其他 4 个人体验与感受5 结论 1 序言 嘿,大家好!今天要聊聊一个超级酷的AI新突破——GPT-4o!最近,OpenAI发布了…

【报文数据流中的反压处理】

报文数据流中的反压处理 1 带存储体的反压1.1 原理图1.2 Demo 尤其是在NP芯片中,经常涉及到报文的数据流处理;为了防止数据丢失,和各模块的流水处理;因此需要到反压机制; 反压机制目前接触到的有两种:一是基…

ARM功耗管理框架之SCP

安全之安全(security)博客目录导读 目录 一、功耗管理框架中的SCP 二、SCP的示例 三、SCP固件 四、SCP启动流程 五、SCP的memory map 六、SCP与AP的通信 思考:功耗管理框架?SCP?PPU?LPI?之间的关系&#xff1f…

(三)React事件

1. React基础事件绑定 语法&#xff1a; on 事件名称 { 事件处理程序 }&#xff0c;整体上遵循驼峰命名法 App.js //项目根组件 //App -> index.js -> public/index.html(root)function App() {const handleClick () > {console.log(button被点击了)}return (<…

测试开发之自动化篇 —— 使用Selenium IDE录制脚本!

今天&#xff0c;我们开始介绍基于开源Selenium工具的Web网站自动化测试。 Selenium包含了3大组件&#xff0c;分别为&#xff1a;1. Selenium IDE 基于Chrome和Firefox扩展的集成开发环境&#xff0c;可以录制、回放和导出不同语言的测试脚本。 2. WebDriver 包括一组为不同…

ATTCK红队评估(五)

环境搭建 靶场拓扑图&#xff1a; 靶机下载地址: 漏洞详情 外网信息收集 确定目标靶机地址&#xff1a; 发现主机192.168.135.150主机是本次攻击的目标地址。探测靶机开放的端口信息&#xff1a; 目标靶机开放了两个端口&#xff1a;80、3306&#xff0c;那没什么意外的话就是…

企业如何运用信息化、智能化、数字化等技术手段规避企业合同风险?

在企业运营中&#xff0c;合同管理是至关重要的一环。它涉及到企业的各个方面&#xff0c;从供应链管理到客户关系&#xff0c;从财务交易到法律合规。然而&#xff0c;传统的合同管理方式往往存在效率低下、风险控制不足等问题。 随着信息化、智能化和数字化技术的发展&#…

go语言后端开发学习(一)——JWT的介绍以及基于JWT实现登录验证

什么是JWT JWT,全名为JSON Web Token&#xff0c;是当下主流的一种服务端通信认证方式&#xff0c;具有轻量,无状态的特点&#xff0c;它实现了让我们在用户与服务器之间传递安全可靠的Json文本信息&#xff0c;它的使用过程主要是这样的&#xff1a; 当用户注册的时候&#x…

Linux——nginx部署

部署Nginx 构建Nginx服务器 &#xff08;实验需要DNS支持&#xff0c;或添加hosts条目&#xff0c;例如&#xff1a; &#xff09; 安装Nginx&#xff08;yum安装即可&#xff09; 安装依赖软件包&#xff1a; 重启、启用服务并查看服务状态&#xff1a; 默认页面&#xff0…