1、前言
上一篇文章,我们已经讲了隐扩散模型——Stable Diffusion生成大模型。这种大模型,参数量及其之大。你没有足够的算力资源,就只能够使用人家已经训练好的大模型。既然没有办法训练属于自己的模型,那我们就想,是否可以在别人已经训练好的大模型的基础上,用我们自己的训练数据,对模型进行微调,从而得到我们想要的模型。
参考论文:
①LoRA: Low-Rank Adaptation of Large Language Models (arxiv.org)
②Online Embedding Compression for Text Classification using Low Rank Matrix Factorization (arxiv.org)
代码:github.com
视频:[如何微调出属于自己大模型?——LORA原理解析-哔哩哔哩]
2、引入
如果你使用过Stable Diffusion,应该看到过LoRA这个词。他其实就是一种微调方法。
在这个微调方法之前,其实已经存在一些微调方法,比如
①Fine-Tuning,FT: 在微调过程中,模型初始化为预训练的权重和偏置项,所有的模型参数都会进行梯度更新。一个简单的变体是只更新一些层而冻结其他层。
②Bias-only or BitFit: 只训练偏置向量,而冻结其他所有部分。
③Adapter tuning: 在自注意力模块和后面的残差连接之间插入一个适配器层。该适配器层有两个全连接层,中间有非线性的偏置。后面还存在一些新的变体。
另外论文还提到了Prefix-embedding tuning和Prefix-layer tuning。这两种我之前没见过,感兴趣的可以去看一下。
上述方法都或多或少的存在一些问题。如果模型的非常大。那么上述这些微调方法的计算成本将非常大。所以论文就提出了一种新的微调方法LoRA
Ps:这篇论文一开始提出来是应用在自然语言处理的。比如GPT,BERT这些模型。
3、LoRA
论文作者受到这篇论文Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (arxiv.org)的启发。该论文表明,预训练的语言模型在去适应某些特定的任务时(下游任务),是具有较低的内在维度的。也就是说,即使我们把它投射到较小的子空间,仍然能够高效的学习。
基于这个思想,论文假设权重微调变化的过程中也具有较低的秩(权重更新矩阵 Δ W \Delta W ΔW是低秩矩阵),从而提出Low-Rank Adaptation(LoRA)
什么叫做具有低的秩?我们从方程的角度出发
2
x
+
y
=
1
x
+
y
=
0
2x+y=1\\x+y=0
2x+y=1x+y=0
两个方程,两个未知量。我们可以求出对应的值
x
=
1
,
y
=
−
1
x=1,y=-1
x=1,y=−1
那假如我们的方程长这样呢
2
x
+
y
=
1
4
x
+
2
y
=
2
2x+y=1\\4x+2y=2
2x+y=14x+2y=2
我们绝对求不出,因为这两个方程是线性相关的。我们仔细看,第一个方程乘以2,就得到了第二个方程。因此,我们不难发现,这种存在相关性的方程之间,是无法求解的。也就是说,第二个方程实际上是无用的,因为它可以由第一个方程进行线性变化得到。
现在,我们假设有一份方程组
{
x
+
0
×
y
=
0
2
x
+
0
×
y
=
0
\begin{cases}x+0\times y=0\\2x+0\times y=0\end{cases}
{x+0×y=02x+0×y=0
我们把系数写成矩阵的形式
(
1
0
2
0
)
\begin{pmatrix}1 & 0 \\2 & 0\end{pmatrix}
(1200)
像这种方式,由于第一行和第二行线性相关,所以这个矩阵的秩就等于1。而矩阵的维度是2x2。当矩阵的秩(记为r)远远小于行,列的维度,我们称该矩阵为低秩矩阵(当燃了,我这里举的例子,也没有远远小于…大家知道概念就行)。
我们做个微调假设更新,对一个参数层,有
W
′
=
W
0
+
W
F
T
W'=W_0+W^{FT}
W′=W0+WFT
W
F
T
W^{FT}
WFT是一个微调矩阵,
W
′
W'
W′表示微调后的参数,
W
0
W_0
W0表示原始参数,假设
W
0
∈
R
d
×
k
W_0\in R^{d\times k}
W0∈Rd×k,那么
W
F
T
W^{FT}
WFT也是一样的维度。对
W
F
T
W^{FT}
WFT进行奇异值分解
W
F
T
=
U
d
×
d
Σ
d
×
k
V
k
×
k
T
W^{FT}=U_{d\times d}\Sigma_{d\times k}V_{k\times k}^T
WFT=Ud×dΣd×kVk×kT
当
W
F
T
W^{FT}
WFT的秩远远小于d和k,则我们可以获取
W
F
T
W^{FT}
WFT的近似(选择前r个奇异值来压缩矩阵,如果矩阵的秩足够小,被丢弃的奇异值将为0或者较小,所以以下近似成立,该方法被称为低秩分解)
W
F
T
≈
U
d
×
r
Σ
r
×
r
V
r
×
k
T
W^{FT}\approx U_{d\times r}\Sigma_{r\times r}V^T_{r\times k}
WFT≈Ud×rΣr×rVr×kT
为什么可以选择前r个奇异值?因为
Σ
d
×
k
\Sigma_{d\times k}
Σd×k一般是从大到小排序的。奇异值越大,代表其对应的奇异向量越重要,越小则越不重要。
我们将奇异值分解压缩成两个矩阵相乘
B
=
U
d
×
r
A
=
Σ
r
×
r
V
r
×
k
T
B=U_{d\times r}\\A=\Sigma_{r\times r}V_{r \times k}^T
B=Ud×rA=Σr×rVr×kT
再说回来,假设权重微调变化的过程中也具有较低的秩。所以,可以通过低秩分解。来缩小可训练的参数维度。
我们用
Δ
W
\Delta W
ΔW表示
W
F
T
W^{FT}
WFT低秩分解的结果。并用该低秩分解的结果去微调。于是就得到了论文里面结论
W
′
=
W
0
+
Δ
W
=
W
0
+
B
A
W'=W_0+\Delta W=W_0+BA
W′=W0+ΔW=W0+BA
那么
B
∈
R
d
×
r
,
A
∈
R
r
×
k
B \in R^{d\times r},A \in R^{r\times k}
B∈Rd×r,A∈Rr×k,B和A里面的参数是可学习的,r就是我们所选择的秩,并且
r
≪
min
(
d
,
k
)
r \ll \min(d,k)
r≪min(d,k)。而
W
0
W_0
W0参数冻结。
所以对于
W
0
W_0
W0乘以一个x得到输出,也就是
h
=
W
0
x
h=W_0x
h=W0x,就可以变成
h
=
W
′
x
=
W
0
x
+
B
A
x
h=W'x=W_0x+BAx
h=W′x=W0x+BAx
其中,A是随机高斯初始化的,而B初始化为0,因此一开始,
B
A
=
0
BA=0
BA=0。也就是相当于没有微调。
然后,论文作者使用 α r \frac{\alpha}{r} rα来缩放 B A x BAx BAx, α \alpha α是一个与r相关的常数,在使用Adam优化器时,可以把 α \alpha α调整为与学习率相当。
通过这种方式,我们可训练的参数,实际上是
∣
Φ
∣
=
(
d
+
k
)
×
r
×
L
^
L
o
R
A
|\Phi|=(d+k)\times r\times \hat L_{LoRA}
∣Φ∣=(d+k)×r×L^LoRA
其中
L
^
L
o
R
A
\hat L_{LoRA}
L^LoRA代表应用LoRA的权重矩阵的数量
4、选择哪些参数微调
在这篇论文中,是应用在自然语言处理的,比如GPT,Transformer,BERT这些模型。作者指出,我们对里面的自注意力机制的权重矩阵进行更改。也就是对 W q , W k , W v , W o W_q,W_k,W_v,W_o Wq,Wk,Wv,Wo进行微调(也可以只微调其中一部分,比如只微调 W q , W v W_q,W_v Wq,Wv)。
而对于我们的Stable Diffusion,在哪些参数进行微调呢?我可以明确的告诉你,我不知道!这篇论文的发表先于Stable Diffusion那篇论文,里面没有提到对这个模型的微调修改。我也没有看过相关的代码
不过,Stable Diffusion里面也有一个自注意力机制。所以盲猜就是对注意力的权重矩阵进行微调了。
5、结束
好了,本篇文章到此为止,如有问题,还望指出。阿里嘎多!!!