小知识点快速总结：梯度爆炸和梯度消失的原理和解决方法

本系列文章只做简要总结，不详细说明原理和公式。

1. 参考文章

[1] shine-lee, "网络权重初始化方法总结（上）：梯度消失、梯度爆炸与不良的初始化 "

2. 反向梯度求导推导

梯度下降算法的参数更新公式为，
$W_{(t+1)}=W_{(t)}-\alpha*\frac{\partial L} {\partial W_{(t)}}$

梯度下降算法中，我们主要就是对 $\frac{\partial L} {\partial W_{(t)}}$ 进行求解。主要方法为链式求导法则。

下面这幅图是我推的一层链式求导过程和两层链式求导过程。可以发现对某个参数的偏导为一串因子的乘积，该因子依次为损失函数对网络输出的偏导、激活函数的偏导、线性组合的偏导、激活函数的偏导、线性组合的偏导等等，如下面所示：
在这里插入图片描述
从公式推导的结果来看，梯度下降算法主要受有4个因子影响，分别是：

当前层的输入（上一层的输出），例如图中的 $\frac{\partial u_{(0)}} {\partial W_{(0)}}$ 。
激活函数的偏导，例如图中的 $\frac{\partial a_{(0)}} {\partial u_{(0)}}$ , $\frac{\partial a_{(1)}} {\partial u_{(1)}}$ 。
后层的权重，例如图中的 $\frac{\partial u_{(1)}} {\partial a_{(0)}} = W_{[0]}$ 。
损失函数的偏导，例如图中的 $\frac{\partial L} {\partial a_{(1)}}$ 。

3. 具体分析

3.1 梯度消失的原理

根据链式求导法则，梯度的计算是由不同因子的连乘结果，只要其中某个因子的数值小于1那么随着网络的加深，后续的梯度一定是逐渐降低的（假设其他因子设置合理）。如果因子的数值够低，后续梯度甚至会出现消失现象，导致网络难以训练和收敛，这就是梯度消失的现象。

一般因子较低的是激活函数的偏导，大部分激活函数的梯度都小于1，例如sigmod函数的最大梯度是0.25。就算一直是最大梯度，经过10层后也是非常低的（ $0.25^{10}=0.00000095367431640625$ ）。

梯度肯定会逐渐降低的，因为网络要收敛。我们此时讨论的是一开始网络就陷入梯度消失，导致难以训练的情况。

3.2 梯度爆炸的原理

同梯度消失的原理一样，梯度爆炸也是因为因子的数值大于1，在经过网络的不断加深，后续梯度出现爆炸的现象。

因为输入数据一般都经过归一化，数值不会很大。激活函数也很少出现梯度大于1的情况。因此，一般因子大于1的情况大部分源自于网络初始权重设置不规范。

4. 解决方法

BN层可以将输入数据的分布标准化为均值为0，方差为1的正太分布。此时数据的值分布在0值左右，正好是激活函数的梯度响应最大区域，从而有效地缓解梯度过低或者过高的情况，从而减轻梯度消失和爆炸的问题（一般是消失）。具体参考博客小知识点快速总结：Batch Normalization Layer（BN层）的作用
修改激活函数。在网络很深的情况下，不要使用梯度过低的激活函数，例如sigmod。
使用残差结构 $f (x) = F (x) + x$ 。由于梯度计算中有一个因子是 $\frac{\partial L} {\partial a_{(1)}}$ ，基于上面那个结构，哪怕网络梯度出现消失的情况，也至少能保证梯度为1，保证梯度的无损传递。
合理的设置网络权重。主要是防止梯度爆炸的情况。甚至可以对权重设置正则化，防止过大的情况。
对网络进行剪枝操作，提前终止梯度的消失或者爆炸。