一、论文信息
1 论文标题
Chain of LoRA: Efficient Fine-tuning of Language Models via Residual Learning
2 发表刊物
arXiv2023
3 作者团队
Department of Computer Science, Princeton University
School of Computer Science and Engineering, Nanyang Technological University
4 关键词
LLMs、LoRA
二、文章结构
三、主要内容
论文探讨了如何通过残差学习来提高大型语言模型(LLMs)在特定任务上的微调效率。作者提出了Chain of LoRA (COLA) 方法,这是一种迭代优化框架,灵感来源于Frank-Wolfe算法,旨在在不增加额外计算成本或内存开销的情况下,缩小LoRA(低秩适应)与全参数微调之间的泛化误差差距。
四、相关研究
相关研究包括LoRA(低秩适应)及其变体,它们通过训练较小的低秩矩阵来近似权重更新,以提高微调效率。此外,还有参数高效的微调方法(PEFT),如Prefix tuning和Adapter-based方法,它们通过修改模型参数的较小部分来适应特定任务。
五、解决方案
COLA通过迭代地微调、合并和扩展LoRA模块来构建一个LoRA链。这种方法通过学习残差信息来逐步逼近最优权重更新,而不是从头开始学习整个权重更新。COLA在微调过程中,将学习到的LoRA模块合并到预训练的语言模型参数中,并为新生成的LoRA模块重置优化器状态。
六、实验环节
论文在OPT-1.3B和Llama2-7B两个大型语言模型上进行了实验,并在七个基准任务(SST-2, WSC, CB, WIC, BoolQ, MultiRC, RTE)上进行了评估。实验结果表明,COLA在保持相同或更低的计算成本的同时,能够持续地优于LoRA。
七、进一步探索点:
- 应用COLA与不同的基础优化器。
- 在更大的语言模型上进行进一步实验。
- 在分类任务之外,探索COLA在生成、摘要和多选任务上的应用。
八、总结
Chain of LoRA (COLA) 是一种新的微调框架,它通过迭代优化和残差学习来提高大型语言模型在特定任务上的性能。与现有的LoRA方法相比,COLA在不增加计算成本的情况下,能够实现更好的泛化性能。通过实验验证,COLA在多个模型和任务上都显示出了其有效性,并为未来的研究提供了新的方向。