大规模预训练语言模型的参数高效微调

人工智能咨询培训老师叶梓转载标明出处

大规模预训练语言模型（PLMs）在特定下游任务上的微调和存储成本极高，这限制了它们在实际应用中的可行性。为了解决这一问题，来自清华大学和北京人工智能研究院的研究团队探索了一种优化模型中一小部分参数的方法，同时保持其他参数不变，以大幅降低计算和存储成本。研究团队提出了“delta-tuning”这一概念，将优化的参数部分称为“delta”，即在训练过程中被“改变”的参数部分。他们对现有的delta-tuning方法进行了统一的分类，并探讨了这些方法之间的联系和差异。

论文链接：https://www.nature.com/articles/s42256-023-00626-4
OpenDelta 工具包：https://github.com/thunlp/OpenDelta

方法

Delta-tuning是建立在PLMs基础上的，PLMs使用深度transformers作为基础结构，并在大规模未标记语料库上进行预训练。给定一个预训练模型Θ={w1, w2, ..., wN}和训练数据，PLM适应的目标是产生一个调整后的模型Θ′={w′1, w′2, ..., w′M}，其中ΔΘ表示与Θ相比Θ′中的参数变化，包括值的变化和元素数量的变化。在传统的微调中，N=M，ΔΘ是所有参数的更新值。而在Delta-tuning中，ΔΘ指的是一小部分参数的修改，实际上|ΔΘ|≪|Θ|。

研究者们将Delta-tuning方法分为三类：

Addition-based方法：这类方法通过引入额外的可训练神经模块或参数来扩展原有模型。例如，Adapter-based tuning通过在Transformer层中插入小型的神经模块（adapters），并且只对这些adapters进行微调。每个adapter模块包括一个下投影和一个上投影，通过这种方式，只有模型中很小一部分参数被调整。
Specification-based方法：这类方法通过指定模型中某些参数为可训练，而其他参数保持不变。例如，BitFit方法通过只优化模型中的偏置项来实现微调，而其他参数则保持冻结。
Reparameterization-based方法：这类方法通过变换将现有参数转换为参数高效的形式。例如，LoRA方法通过优化自注意力模块中原权重矩阵变化的低秩分解来实现参数的高效调整。

在Addition-based方法，分为Adapter-based tuning和Prompt-based tuning两种策略：

Adapter-based tuning：通过在Transformer层中插入小型的神经模块（adapters），并且只对这些adapters进行微调。这种策略允许在不改变原有模型结构的情况下，通过调整少量参数来适应新任务。Adapter模块包括下投影和上投影，以及一个非线性激活函数，通过这种方式，只有模型中很小一部分参数被调整。
Prompt-based tuning：与直接向模型中注入神经模块不同，prompt-based方法通过在原始输入周围添加额外的上下文来刺激PLMs。这种方法在低数据设置下在各种NLP任务中表现出色。例如，prefix-tuning在每个Transformer层的输入和隐藏状态前添加可训练的连续标记（prefixes），而其他预训练模型的参数在训练期间保持不变。

实践中，prompt-tuning的优化存在一定的困难。特别是当训练数据量和模型规模较小时，这种优化难度更加明显。即便可以成功训练soft prompts，它们在训练过程中的收敛速度通常比全参数微调和其他delta-tuning方法要慢。研究者们在不同数据集上验证了这一现象，并指出在各种情况下训练soft prompts以稳定收敛是一个有趣的研究课题。

Specification-based方法在模型适应过程中只对少数固有参数进行微调，而保持大部分参数不变。这种方法的目的不是改变模型的内部结构，而是优化一小部分内部参数来解决特定任务。通常，这些参数的选择可以基于启发式规则或训练监督。

启发式规范（Heuristic specification）：这种方法不向模型引入任何新参数，而是直接指定部分参数进行优化。例如，早期研究只微调BERT和RoBERTa最后一层的四分之一，就能达到全参数微调90%的性能。BitFit方法证明了只优化模型内的偏置项，冻结其他参数，模型仍然能在多个基准测试中复现超过95%的性能。
学习规范（Learn the specification）：与手动或启发式指定更新哪些参数不同，另一种选择是“学习”这些规范。Diff pruning方法重新参数化微调后的模型参数Θ′为预训练参数Θ和差异向量ΔΘ的和，即Θ′=Θ+ΔΘ。这种方法通过可微分的L0范数罚项近似来鼓励差异向量尽可能稀疏。

Reparameterization-based方法在优化过程中将自适应参数转换为参数高效的形式。这种delta-tuning分支通常基于假设：PLM对大多数下游任务的适应性本质上是低秩的，因此可以以参数高效的方式完成。

内在维度（Intrinsic dimensions）：先前的研究表明，预训练模型的全参数微调过程可以在低维子空间内重新参数化，即微调具有低内在维度，这表示达到满意性能所需的最小参数数量。实验发现，相对较低维度的重新参数化（例如，几千维）就能实现超过85%的微调性能。
权重差异的内在秩（Intrinsic rank）：LoRA方法假设模型调整过程中权重变化具有低内在秩。基于这一假设，提出优化自注意力模块中原权重矩阵变化的低秩分解。在部署中，优化后的低秩分解矩阵相乘以获得自注意力权重矩阵的增量。
多重适应的内在空间（Intrinsic space）：进一步地，内在prompt-tuning提出了一个更强的假设，即对多项任务的适应性可以在同一低维内在子空间内重新参数化。通过将多个NLP任务训练的soft prompts分解到同一低维非线性子空间中，然后只通过调整子空间中的参数来学习适应未见任务或数据。

实验

实验设置：

研究者们评估了传统的全参数微调（FT）和四种代表性的delta-tuning方法：prompt-tuning（PT）、prefix-tuning（PF）、LoRA（LR）和adapter（AP）。
实验涵盖了超过100个来自Huggingface数据集的NLP任务，包括文本分类、问答、条件生成等。
使用了T5BASE和T5LARGE两种规模的PLM模型作为实验的PLM骨架。

性能分析：

性能：不同的delta-tuning方法在大多数情况下与FT方法的性能相当，尽管可调参数大幅减少。这表明通过参数高效适应性可以驱动大规模PLMs。
收敛性：FT方法的收敛速度最快，其次是AP和LR，然后是PF。PT方法在收敛性上通常落后于其他方法。
效率：delta-tuning方法在减少计算和存储效率方面表现出显著优势，尤其是BitFit方法在内存效率方面表现最佳。

组合delta-tuning方法

研究者们探讨了同时应用三种代表性delta-tuning方法（PT、BitFit和AP）的效果，发现结合使用这些方法通常比单一方法更有效。
还研究了这些方法的顺序组合，发现在某些情况下，后续的delta-tuning方法可以提高性能，但并不存在一种在所有设置下都最优的组合策略。

规模效应

随着PLM模型规模的增长，所有delta-tuning方法的性能和收敛速度都得到了显著提升，即使是小规模的PLM（如T5BASE），delta-tuning方法也能与FT方法相媲美。
研究者们还设计了两种新的delta-tuning方法：最后一层调整（last-layer tuning）和选择性模块调整（selective-module tuning），发现当PLM规模极大时，随机选择模块进行优化可以获得出色的性能。