大模型微调数据构造(补充课程)_哔哩哔哩_bilibili
Tutorial/FineTune at main · Focusshang/Tutorial · GitHub
一、大模型训练数据介绍
- 预训练:
- 网络、论文数据,无标签数据
- transform算法
- base model
- 典型:GPT
- 监督微调
- 对话数据:prompt和response,
- 人工标注或者模型生成,规模小但是质量高
- SFT Model:xtuner
- RHF
- 一般不涉及,人工排序、打分,数据少,质量高
- 二分类算法
- reward model
- 强化学习
- prompts:问题,模型提供输出revive model排序打分
- 强化学习算法
- RL model
二、微调是什么
- 预训练:无标签、规模大、质量低、内容杂
- 微调:规模小、质量高、面向特定任务场景,人工或模型标注的问答对
三、指令微调
-
大模型微调fine-tuning:特定领域问题回答的不好
-
指令微调instruction tuning:特定任务指令
四、微调目的
- 预训练无法满足需求:专业问答、组织自身信息
- prompt engineering局限性:输入过长、推理成本高、效果不理想
- 数据安全问题:企业内部数据,敏感数据
- 需要个性化服务:微调轻量级模型
五、微调方式
六、微调步骤☆☆☆☆
七、微调数据分类
八、微调数据质量
九、微调结果评价
十、微调实践
Tutorial/FineTune at main · Focusshang/Tutorial · GitHub
标注工具:
OpenDataLab · GitHub
OpenDataLab 引领AI大模型时代的开放数据平台