从2017年google brain提出transformer模型,到2018年基于transformer模型open ai推出了gpt1模型以及google推出了bert模型,到2019-2021年open ai陆续推出gpt2和gpt3,再到2022-2023年推出chat-gpt和gpt4,大语言模型已经发展成了一个具有3个大分支的参天大树[LLM:大语言模型]。在这里主要写写关于gpt的那些事。
GPT发展路径
GPT-1到GPT-3到ChatGPT
各GPT的技术路线:
各GPT的模型大小:
模型 | 发布时间 | 参数量 | 预训练数据量 |
---|---|---|---|
GPT | 2018 年 6 月 | 1.17 亿 | 约 5GB |
GPT-2 | 2019 年 2 月 | 15 亿 | 40GB |
GPT-3 | 2020 年 5 月 | 1,750 亿 | 45TB |
GPT-3.5 的进化树:
GPT-1、GPT-2和GPT-3模型
参考[GPT-1、GPT-2和GPT-3模型详解]
codex
[论文:Evaluating Large Language Models Trained on Code]
InstructGPT
参考[InstructionGPT]
[论文:Training language models to follow instructions with human feedback]
ChatGPT
ChatGPT的博客中讲到ChatGPT和InstructGPT的训练方式相同,不同点仅仅是它们采集数据上有所不同,但是并没有更多的资料来讲数据采集上有哪些细节上的不同。
考虑到ChatGPT仅仅被用在对话领域,猜测ChatGPT在数据采集上有两个不同:1. 提高了对话类任务的占比;2. 将提示的方式转换Q&A的方式。
关于多轮对话
微调模型如 standard_alpaca,或者alpaca-lora,这些都是单轮的对话。对于多轮对话的模型,我们该怎么去组织数据呢?
1 进行对话推理的时候,历史信息的处理和训练的时候是类似的,维护一个列表叫做history。操作起来的时候,就是将历史信息分别按照User和Assistant的角色拼起来,再镶嵌到模板里面,第一轮对话的时候,这个history是个空列表。[Chinese-Vicuna中的对话数据处理方式 - 知乎]
2 ChatGPT也可以使用记忆网络(MemoryNetwork)等技术对对话历史进行编码和表示,然后使用生成模型或分类模型等方法进行回复生成。
GPT-4
官网说明[GPT-4][GPT-4]
from:-柚子皮-
ref: