GPT的前世今生：从gpt1到chatgpt的能力提升

从2017年google brain提出transformer模型，到2018年基于transformer模型open ai推出了gpt1模型以及google推出了bert模型，到2019-2021年open ai陆续推出gpt2和gpt3，再到2022-2023年推出chat-gpt和gpt4，大语言模型已经发展成了一个具有3个大分支的参天大树[LLM：大语言模型]。在这里主要写写关于gpt的那些事。

GPT发展路径

GPT-1到GPT-3到ChatGPT

各GPT的技术路线：

各GPT的模型大小：

模型	发布时间	参数量	预训练数据量
GPT	2018 年 6 月	1.17 亿	约 5GB
GPT-2	2019 年 2 月	15 亿	40GB
GPT-3	2020 年 5 月	1,750 亿	45TB

GPT-3.5 的进化树：

GPT-1、GPT-2和GPT-3模型

参考[GPT-1、GPT-2和GPT-3模型详解]

codex

[论文：Evaluating Large Language Models Trained on Code]

InstructGPT

参考[InstructionGPT]

[论文：Training language models to follow instructions with human feedback]

ChatGPT

ChatGPT的博客中讲到ChatGPT和InstructGPT的训练方式相同，不同点仅仅是它们采集数据上有所不同，但是并没有更多的资料来讲数据采集上有哪些细节上的不同。

考虑到ChatGPT仅仅被用在对话领域，猜测ChatGPT在数据采集上有两个不同：1. 提高了对话类任务的占比；2. 将提示的方式转换Q&A的方式。

关于多轮对话

微调模型如 standard_alpaca，或者alpaca-lora，这些都是单轮的对话。对于多轮对话的模型，我们该怎么去组织数据呢？

1 进行对话推理的时候，历史信息的处理和训练的时候是类似的，维护一个列表叫做history。操作起来的时候，就是将历史信息分别按照User和Assistant的角色拼起来，再镶嵌到模板里面，第一轮对话的时候，这个history是个空列表。[Chinese-Vicuna中的对话数据处理方式 - 知乎]

2 ChatGPT也可以使用记忆网络（MemoryNetwork）等技术对对话历史进行编码和表示，然后使用生成模型或分类模型等方法进行回复生成。