1. Layer Norm 的计算公式写一下?
2. RMS Norm 的计算公式写一下?
3. RMS Norm 相比于 Layer Norm 有什么特点?
4. Deep Norm 思路?
5. 写一下 Deep Norm 代码实现?
6.Deep Norm 有什么优点?
7.LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?
8. LLMs 各模型分别用了 哪种 Layer normalization?
一、
Layer Norm
篇
1.1 Layer Norm
的计算公式写一下?
二、
RMS Norm
篇 (均方根
Norm
)
2.1 RMS Norm
的计算公式写一下?
2.2 RMS Norm
相比于
Layer Norm
有什么特点?
RMS Norm
简化了
Layer Norm
,去除掉计算均值进行平移的部分。
对比
LN
,
RMS Norm
的计算速度更快。效果基本相当,甚至略有提升。
三、
Deep Norm
篇
3.1 Deep Norm
思路?
Deep Norm
方法在执行
Layer Norm
之前,
up-scale
了残差连接
(alpha>1)
;另外,在初始化阶段
down-scale
了模型参数
(beta<1)
。
3.2
写一下
Deep Norm
代码实现?
Deep Norm
有什么优点?
Deep Norm
可以缓解爆炸式模型更新的问题,把模型更新限制在常数,使得模型训练过程更稳定。
Layer normalization-
位置篇
1 LN
在
LLMs
中的不同位置 有什么区别么?如果有,能介绍一下区别么?
回答:有,
LN
在
LLMs
位置有以下几种:
1.
Post LN
:
a.
位置:
layer norm
在残差链接之后
b.
缺点:
Post LN
在深层的梯度范式逐渐增大,导致使用
post-LN
的深层
transformer
容易出现训练不稳定的问题
2.
Pre-LN
:
a.
位置:
layer norm
在残差链接中
b.
优点:相比于
Post-LN
,
Pre LN
在深层的梯度范式近似相等,所以使用
Pre-LN
的深层
transformer
训练更稳定,可以缓解训
练不稳定问题
c.
缺点:相比于
Post-LN
,
Pre-LN
的模型效果略差
3.
Sandwich-LN
:
a.
位置:在
pre-LN
的基础上,额外插入了一个
layer norm
b.
优点:
Cogview
用来避免值爆炸的问题
c.
缺点:训练不稳定,可能会导致训练崩溃。
Layer normalization
对比篇
LLMs
各模型分别用了 哪种
Layer normalization
?
BLOOM
在
embedding
层后添加
layer normalization
,有利于提升训练稳定性
:
但可能会带来很大的性能损失