GPT
GPT,全称为Generative Pre-Trained Transformer(生成式预训练Transformer模型),是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。GPT的目标是生成自然语言文本,并能够通过机器学习算法进行自我改进。GPT可以通过学习大量文本数据来理解语言的语法、语义和上下文信息,并生成与输入相似的自然语言文本。GPT也可以被训练用于其他任务,如翻译、问答、摘要生成等。
GPT发展
生成式预训练(Generative pretraining,简称GP)是机器学习应用中一个历史悠久的概念,但直到2017年,Google的员工发明了Transformer模型,这才使得大型语言模型成为可能,这些模型是预训练的转换器(Pre-trained transformers,简称PT),但未被设计为生成式,而是“仅编码器”(encoder-only)。2018年,OpenAI发表了题为《通过生成式预训练提高语言理解能力》(Improving Language Understanding by Generative Pre-Training)的文章,在其中首次介绍了基于转换器的生成式预训练模型(GPT)系统(“GPT-1”)
在基于转换器的架构出现之前,表现最优秀的神经自然语言处理(NLP)模型通常通过大量手动标记的数据进行监督学习。这种依赖于监督学习的开发途径限制了在未经充分标记的数据集上的应用,并且使得训练极大型语言模型相当耗时且开支非常昂贵。
但OpenAI采用半监督学习方法来构建大规模生成式系统,同时也是首个使用Transformer模型的方法。该方法包括两个阶段:无监督的生成式“预训练”阶段,使用目标函数来设置初始参数;以及有监督的判别式“微调”阶段,将这些参数在目标任务上进行微调。
首个GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神经网络,在大型未标记文本数据集上进行预训练,并能够生成类似于人类自然语言的文本( 截至现在,大多数LLM都具备这些特征,并广泛被称为GPT。)
OpenAI GPT
OpenAI GPT的发展可以分为几个阶段,每个阶段都有其特点和重要的技术进步。
GPT-1(2018年6月发布):这是GPT系列的第一款模型,拥有1.17亿个参数。GPT-1主要基于无监督学习,通过大量未标注的数据训练,使模型能够理解和生成自然语言。
GPT-2(2019年2月发布):GPT-2在GPT-1的基础上进行了扩展,拥有15亿个参数。GPT-2的一个重要特点是多任务学习,它可以处理多种不同的自然语言处理任务,而无需针对每个任务进行单独的训练。
GPT-3(2020年5月发布):GPT-3是GPT系列中参数量最大的模型,拥有1,750亿个参数。GPT-3的特点是它的巨大规模,这使得它在理解和生成自然语言方面表现出色。GPT-3能够处理非常复杂的NLP任务,例如文章生成、代码生成、机器翻译和Q&A等。
GPT-4(2023年3月发布):GPT-4是GPT系列的最新模型,它不仅能够处理文本,还能识别图像,并生成文本结果。GPT-4标志着GPT系列从单一模态向多模态任务的扩展。