论文链接
arxiv:
论文目标与背景
大语言模型有很好的性能,在对接下游任务(DownStream)完成大语言模型的微调
主要方法
:冻结预训练模型的权重,插入可训练的秩分解矩阵到Transformer结构的每一层,可以极大程度的降低下游任务的训练参数。
效果
:对标使用Adam的GPT-3 175B全参微调,LoRA仅需要调整的训练参数,GPU内存需要约为1/3.但是性能仍然不会下降,甚至略有上升
关键技术:1. 预训练模型可以被共享并用于构建许多用于不同任务的LoRA模块。通过冻结共享模块和替代迁移模块,来显著减少存储和任务切换时的资源开销;
2. LoRA让训练更高效和低硬件代价约3倍,当使用自适应优化器时。因为LoRA不需要计算梯度或者维护大多数参数的优化器信息,相反,它仅关注植入的小得多的低秩矩阵;
3.LoRA的简单线性设计使得应用过程中可以讲冻结权重与可训练矩阵合并,在部署时,相比全微调模型不引入任何额外延迟
4. LoRA与许多先验方法是正交的,例如prefix-tuning,因此可以和他们组合使用。