前言
我司自去年7月份成立大模型项目团队以来,至今已有5个项目组,其中
- 第一个项目组的AIGC模特生成系统已经上线在七月官网
- 第二项目组的论文审稿GPT则将在今年3 4月份对外上线发布
- 第三项目组的RAG知识库问答第1版则在春节之前已就绪
- 至于第四、第五项目组的大模型机器人、Agent则正在迭代中
所有项目均为会对外上线发布的商用项目,而论文审稿GPT至今在过去的半年已经迭代两个版本,其中第二版的效果甚至超过了GPT4(详见《七月论文审稿GPT第2版:用一万多条paper-review数据集微调LLaMA2最终反超GPT4》),为了持续累积与原始GPT4的优势,我们如今正在迭代第2.5版本:包括对GPT3.5 turbo 16K的微调以及llama2 13B的微调,本文也因此而成
第一部分 微调GPT3.5 Tubor 16K
我们微调第一版的时候,曾经考虑过微调ChatGPT,不过其开放的微调接口的上下文长度不够大部分论文的长度(截止到23年10月底暂只有4K),故当时没来得及,好在23年11.6日,OpenAI在其举办的首届开发者大会上,宣布开放GPT3.5 16K的微调接口
因此,我们在第2.5版便可以微调ChatGPT了,即我司正在尝试用我们自己爬取一万多条的paper-review数据集去微调GPT3.5 16k,最终让它们大乱斗,看哪个是最强王者
不过,考虑到可能存在的数据泄露给OpenAI的风险,故我们打算先用1/3的数据 微调试下,看能否把这条路径走通,以及看下胜率对比
- 如果能超过咱们微调的开源模型,那ChatGPT确实强
- 如果没超过,则再上全量
1.1 GPT3.5 Tubor 16K的微调
1.1.1 微调GPT3.5的前期调研:费用、微调流程、格式转换等
- 首先,计算一下微调GPT所需的费用
由于我司爬取的15566条paper-review数据集的token数量为:118689950
根据OpenAI微调gpt3.5 turbo的定价策略(Pricing) 可知,全量样本Traning阶段预计要花费的费用为(按2个epoch):118689950个token ✖️ 2个epoch ✖️ 0.008 ✖️ 汇率7.18 = 13635元 - 其次,这是微调的页面:https://platform.openai.com/finetune
此外,这是OpenAI官网上关于微调的教程:https://platform.openai.com/docs/guides/fine-tuning/fine-tuning-examples - 接着,根据OpenAI微调教程给的提示 把我们自己爬的数据转成做成chatml的格式,即
{"messages": [{"role": "system", "content": "xxx"}, {"role": "user", "content": "xxx"}, {"role": "assistant", "content": "zzz"}]}
那种 - 在微调页面上传自己的数据
1.1.2 先后用150多条、1500多条、15000多条数据微调GPT3.5 Tubor 16K
为了先验证一下微调这个模式,故我们先用了156条paper-review数据集去微调gpt3.5 16k,然后跑完之后,我还和项目组的同事打趣说,搞不好我们是国内第一批微调gpt3.5 16k的呢,毕竟高质量的长文本数据非常稀缺
效果如何呢,我们先随机试一篇训练集之外的论文,做个验证,至于专业全面的评估下节详述
第二项目组的文弱同学用传七月大模型线上营群里的10pct那个数据集的倒数第二行的input(因为微调这个数据只用了群里10%的数据,所以后面的这个input数据可以做验证集),分别让gpt3.5、微调过的gpt3.5对该input进行审稿意见的输出,且对比原始的人工审稿意见
这三个输出按顺序如下从左至右展示
1.2 对微调后的gpt3.5 16K的效果评估
// 待更
第二部分 微调13B:首选Llama-2-13b-chat-hf
在我司这个论文审稿场景下,对于13B模型的微调,首选还是微调llama 13B(模型地址:Llama-2-13b-chat-hf)
其对卡的要求:双48g的卡或者单卡80g,即13b的话双A40用longqlora差不多
24年,2.3日开跑..
// 待更
参考文献与推荐阅读
- 第一阶段 开始后续第2.5版的迭代:微调GPT3.5 16K
2.3日,新增一节的内容,即
7.1.1 微调GPT3.5的前期调研:费用、微调流程等 - 2.4日,新增一节,即
7.1.2 先后用150多条、1500多条、15000多条数据微调GPT3.5 Tubor 16K